Olá, meu nome é Marcelo e administro uma rede de um condomínio que tem uns 850 clientes ativos. Uso quatro servidores para o gerenciamento, sendo que 3 deles são Mikrotiks e um é um Squid instalado num Slackware 13.1. A rede é distribuida por 30 prédios por meio de cabos FTP (Praticamente eliminando interferência) com 492 switches (Intelbras SF-800q 8 portas) em cascata separados por no máximo 70 metros, sendo uma árvore de distribuição de 4 ramos. Os cabos que vão para os clientes são UTP IFE de ótima qualidade. Todos os switches são ligados numa rede elétrica independente da rede elétrica dos prédios, suportados por um No-break senoidal de 6 KVa. Meu Switch principal é um 3COM Baseline 2924-SFP Plus 10/100/1000 Gerenciável que recebe todos os 4 segmentos. Todas as comunicações entre e com os servidores são de 1 Gbps feitas por um outro switch 3com mais simples de 8 portas 10/100/1000. Minha topologia se resume à um servidor Mikrotik de Firewall/Gateway sobre os outros dois Mikrotiks que funcionam como autenticadores, o Slackware fica em paralelo. Todos os Servidores possuem duas placas de rede 10/100/1000.
O meu problema é o seguinte: meus dois Mikrotiks onde estão meus clientes TRAVAM DO NADA, sem explicação aparente. Podem travar de 1 à 3 vezes por dia e tem dias que nem travam. O problema é intermitente e acontece de forma aleatória. Quando reinicio, eles voltam ao normal. Estou à alguns meses com esse problema, o qual está me deixando aflito por conta do simples fato de eu não conseguir resolver. Já consultei em vários fóruns e nada. Abaixo relaciono os detalhes dos meus servidores assim como algumas observações durante os problemas pra ver se há algo que me escapou.
-Independe de horários
-Independe do número de clientes conectados e/ou navegando
-Independe do tráfego
-A rede elétrica é estabilizada com um no-break senoidal de 9 Kva
-Somente os dois Mikrotiks de autenticação travam
-Todos os Mikrotiks têm licença level 5 com versão 4.16, compradas e registradas.
-Quando travam, nenhum cliente PPPoE consegue se conectar (Erro 678, para no processo PADI), porém os que estão conectados não sentem nenhuma diferença na conexão.
-Clientes com IP fixo se estiverem conectados não sentem nenhuma diferença, porém os clientes não conseguem iniciar alguma navegação quando o problema está acontecendo.
-Qualquer tentativa de conexão com a placa de rede, quando acontece o travamento, é em vão. PING, UDP, ARP, etc, nenhum deles funcionam.
-Algumas vezes observo, que pouco antes do travamento ou no travamento, alguns roteadores residenciais com PPPoE são derrubados, somente eles.
-Isolei o servidor Squid da rede (Tirei o cabo mesmo) e o problema continua.
-Instalei um Mikrotik só para Firewall por conta das suspeitas de que os outros servidores estivessem sobrecarregados pelos variados redirecionamentos e regras de Mangle para tratar pacotes. Quando instalei tal servidor os travamentos pararam por uma semana, mas depois voltaram. O sistema do firewall está instalado numa máquina que não foi feita nenhuma análise de hardware (Made in Submarino.com, comprei para testar), tal máquina não apresenta nenhum problema. Usa duas placas de rede encore 10/100/1000, hd sata 2, e uma placa-mãe genérica que não me lembro a marca.
-O firewall suporta o tráfego das outras máquinas além de gerenciar todas as regras de redirecionamento, marcação de pacotes e queue tree.
-Já desativei de todos os servidores a função dual-core.
-Todos os servidores têm instalados os pacotes: advanced-tools, hotspot, lcd, multicast, ntp, ppp, routerboard, routing, security, system, ups e user-manger.
-Não uso Web-Proxy em nenhum dos Mikrotiks
-Meu primeiro servidor de autenticação tem 474 PPPoE e 33 Ips fixos, o segundo servidor tem 341 PPPoE.
-O primeiro servidor trava com uma freqüência ligeiramente maior do que o segundo.
-Nenhuma das máquinas esquenta. Pastas térmicas sem problemas assim como os coolers. Sala com ar-condicionado.
-Os dois servidores de autenticação possuem:
*15 regras de marcação de rota no mangle, que marcam as rotas das faixas de IP determinadas.
*30 regras de redirecionamento NAT/DNAT, que determinam por qual IP as rotas marcadas sairão.
*25 regras de filter rules para segurança. Já desativei e nada.
*Todos os clientes possuem a banda controlada no Queue Simple (Bandas: 1 MB, 512 Kbps, 400 Kbps, 300 Kbps, 256 Kbps, 200 Kbps). Nenhum dos dois possuem Queue Tree ativado.
*Cada servidor possui 4 profiles PPPoE criados.
*Web-Proxy desativado
*TCP Syncookie desativado
*Não há mais nenhuma configuração significativa.
-Quando os servidores travam, geralmente não consigo entrar pelo Winbox, e se consigo entrar não aparece nenhuma interface de rede, nenhuma conexão ativa, nenhuma configuração de firewall, não aparece nada.
-Consigo logar normalmente por Telnet ou SSH.
OBs.:
*Configuração do Mikrotik 01: 2 placas PCI DLink DGE-530T, placa mãe ABIT, hd ide 100 GB, 2 GB ram DDR2, Processador 2 ghz AMD, fonte Real 500w.
*Configuração do Mikrotik 02: 1 placa PCI DLink DGE-530T, 1 placa PCIe Planet 10/100/1000, placa mãe ABIT, hd ide 100 GB, 2 GB ram DDR2, Processador 2 ghz AMD, fonte Real 500w.
*Já coloqueis placas de rede Intel PWLA8391gt PRO 1000/GT com placa mãe Intel d865 e o problema ocorreu da mesma forma.
Creio que a resolução desse problema possa ajudar muita. Ficarei grato pela ajuda.