Como aumentar a confiabilidade de redes locais - uma série de artigos

Este é o primeiro de uma série de artigos sobre as técnicas de confiabilidade em uma rede local. As redes locais tem ganhado mais e mais funcionalidades a cada ano, sendo que hoje serviços de telefonia, câmeras de vigilância, sensores de incêndio, elevadores, catracas de controle de acesso (entre outros) fazem uso da rede local. Em resumo, se a rede local para, ninguém trabalha.

No entanto, apesar de que todo mundo sabe que da importância das redes locais, poucos gestores de TI conhecem os mecanismos de redundância e confiabilidade que ajudam a garantir o funcionamento ininterrupto de uma rede.

Para piorar a vida dos gestores de TI, existem várias ponto de falha diferentes em uma rede local, e cada ponto de falha pode ter várias manerias diferentes, com custos de diferentes, de serem tratados.

Assim esta série de artigos terá como objetivo apresentar as principais técnicas de confiabilidade para redes locais, suas características e - quando adequado - mostrar quais as "pegadinhas" que essas tecnologias/técnicas possuem.

Fonte de Alimentação

Vamos começar então do ponto mais "baixo" da rede local: a alimentação elétrica. Quando se pensa em redundância de alimentação elétrica,

Dentro de um equipamento de rede, o sub-sistema que mais apresenta problemas é a fonte de alimentação, assim não precisa pensar muito para entender porque a fonte de alimentação é o item de redundância mais fornecido pelos fabricantes.

Além disso com o uso de mais de uma fonte de alimentação é possível também termos mais de um circuito elétrico e, se for o caso, mais de um no-break em operação.

Uma fonte de alimentação tem sua vida útil diretamente relacionada à carga: quanto  mais corrente uma fonte deve entregar, menor sua vida útil. Essa informação é importante porque permite compreendermos corretamente a melhor forma de utiliza-la.

Existem duas formas de redundância em fontes de alimentação: balanceamento de carga ou ativo/passivo. No modo ativo/ativo uma fonte alimenta o equipamento enquanto a outra fica parada, apenas esperando uma falha na fonte ativa para entrar em operação. Internamente, é mais fácil para o fabricante de equipamento criar essa forma de operação e, consequentemente, é mais usada em equipamentos de menor custo.

Já, se colocarmos duas fontes ativas ao mesmo tempo, obviamente teremos menos corrente demandada de cada uma. Como vimos acima, quando temos menos corrente a fonte dura mais, assim o método de balanceamento de carga permite uma vida útil maior às fontes. Ou seja, duas fontes com balanceamento de carga tem um MTBF maior que duas fontes em modo ativo/passivo.

Por último, vale a pena lembrar que quando se usa fontes de alimentação redundantes é importante tentarmos usar circuitos elétricos e no-breaks separados. Se as fontes estiverem conectadas ao  mesmo no-break (ou mesmo disjunto) uma falha neste vai obviamente paralisar o equipamento.

MTBF

Aproveitando que estamos falando de tecnologias de confiabilidade, me deixem esclarecer uma questão que é tratada incorretamente por muitos profissionais: o MTBF ("Mean Time Between Failures"). Muitos falam desse conceito, porém pouco intendem ele com profundidade adequada.

Vamos fazer um teste: qual equipamento tem o maior MTBF, um switch com uma fonte ou o mesmo switch com duas fontes? Resposta correta: o switch com uma fonte.

O termo MTBF não quer dizer "tempo médio entre paradas" ele quer dizer "tempo médio entre falhas". Se um led queimar, será uma falha, mas não uma parada. Se eu tiver apenas uma fonte, obviamente se ela parar terei problemas graves na rede, mas se eu tenho duas fontes eu tenho duas vezes mais chance de uma apresentar problema (porém neste caso não haverá paradas).

Ou seja, quanto mais "coisas" eu coloco dentro de um equipamento, maior a chance de eu ter um problema. Uma outra maneira de ver essa questão é ir para o mundo dos automóveis. Todo mecânico diz que o Fusca era um carro com grande confiabilidade (basta ver a quantidade que ainda roda pelo interior do país), a razão era bem simples: o carro era apenas um chassis de metal com o motor mais simples possível, desde que tivesse combustível e duas velas funcionando, ele andava. Já um carro moderno, com injeção eletrônica, ar condicionado, computador de borda, etc. tem sempre alguma coisa quebrando (apesar de que a confiabilidade da mecânica básica melhorou muito desde o Fusca).

Outro erro muito comum com relação ao MTBF é comparar MTBF de fabricantes. Como você acha que um fabricante faz para divulgar um MTBF? Já parou para pensar como isso é feito? Você acha que eles fabricam 100 unidades, deixam rodando por 10 anos e contam quantos apresentaram problema? Obvio que não.

O MTBF é calculado baseado nas informações fornecidas pelos fabricantes dos componentes e baseado no ciclo de utilização esperado do produto (temperatura de operação esperada, ciclo de uso de CPU, etc.) e testes realizados pelos fabricantes (mas que não levam 10 anos para serem terminados). Além, apesar de existirem alguns especificações (MIL-HDBK-217F, Telcordia SR332, Siemens Norm, FIDES,UTE 80-810,RDF2000, etc.) para o tratamento estatístico dessas informações, nenhuma tem o foco de prever a operações dos equipamentos em campo. Moral da história: o MTBF não é uma métrica que possa ser utilizado para comparar equipamentos de fabricantes diferentes, até mesmo porque não existe uma certificação ou órgão que verifique a veracidade da informação fornecida por cada fabricante.
 
Para aqueles que ainda duvidam, aqui vai algumas sugestões interessantes de leitura:
http://pt.wikipedia.org/wiki/MTBF
http://en.wikipedia.org/wiki/Mean_time_between_failures

Por último, se você achou útil este artigo faça como os demais: não esqueça de compartilhar usando os botões de Twitter, Facebook ou Google+, porque outros podem também se interessar por este artigo.

Comentários