Parece que a poeira está começando a baixar. Desde o incidente de semana passada quando o Google anunciou que alguns usuários do GMail tiveram problemas com a perda do conteúdo de suas caixas postais, foi anunciado recentemente pela empresa que o estrago foi menor do que se esperava. Apenas uma pequena (pequena mesmo) parcela de seus usuários do GMail tiveram suas caixas postais limpas e reiniciadas.
A empresa insiste que está trabalhando duro para recuperar os dados de todos os usuários afetados, e está até mesmo recorrendo a backups em fita magnética para alcançar seus objetivos. Ontem, o Google finalmente revelou através de um post feito no blog oficial do GMail o que realmente aconteceu.
De acordo com Ben Treynor, Vice-Presidente de Engenharia e Confiabilidade de Site, "Nós liberamos uma atualização do software de armazenamento, o que introduziu um bug inesperado no sistema, fazendo com que 0,02 por cento dos usuários do GMail perdessem acesso temporário aos seus emails". No mesmo post, Treynor afirma que "Quando nós descobrimos o problema, imediatamente paramos a depuração do novo software e revertemos o mesmo para a versão antiga".
Esse valor percentual representam algo próximo a 40.000 contas do serviço de e-mails do GMail. Atualmente, estima-se que o Google possua em torno de 200 milhões de contas de e-mail cadastradas no sistema (momento nerd: BEBC200, em hexadecimal). Antes de Treynor anunciar a porcentagem aproximada de usuários afetados, estimava-se que aproximadamente 150 mil usuários teriam suas contas de GMail comprometidas (o que representariam 0,08 por cento do total de usuários).
Em seu post, Treynor também explicava o longo tempo gasto para se poder recuperar todas as contas de usuários afetadas, informando que o bug também havia afetado múltiplas cópias de backup desses dados. Em seu post ele ainda acrescenta que "Nós temos trabalhado duro nas últimas 30 horas recuperando [esses dados] para as pessoas afetadas por esse problema" informando que a equipe responsável por resolver a situação estava até se utilizando de backups armazenados em fita magnética.
Sabemos que a política de backup do Google é bem paranóica, o que ajudará e muito na completa recuperação de todas as contas afetadas. Além da redundância de backup em meio magnético online (no caso os diversos discos rígidos extras em cada servidor de serviço e de backups, a empresa ainda conta com vários servidores gerenciando o armazenamento em fita magnética, como garantia de proteção offline.
Sabemos que as fitas não foram afetadas, já que seu "uso" (no caso, seu armazenamento) é obrigatoriamente offline. Por isso não foram afetadas pelo bug comedor de dados, pois o mesmo só estaria ativo nos processos de nuvem online, não atingindo os backups redundantes já feitos offline em fita magnética.
O único porém de toda história é o tempo. Quando se precisa recuperar dados de um data center, a empresa simplesmente recorre a outros data-centers próximos (e seus recursos de backup online) para reproduzir os dados de seus usuários antes do momento do estrago feito pelo bug. E esse processo demora pouquíssimo tempo, se comparado a recuperação manual feita por fitas. Mesmo com o serviço automatizado de gravação das fitas, o processo de recuperação desses dados acaba sendo (de forma comparativa) absurdamente demorado. E a diferença temporal é absurda: são milissegundos (de uma recuperação online) para horas (com o uso das fitas).
Porém, mesmo com toda essa paranóia de backup, faltou algo crucial: alguma medida preventiva para impedir que situações como essa ocorram quando se implementa um software definitivamente em meio de produção. E caso já exista uma barreira (ou sistemas de barreiras digitais) para impedir que "catástrofes" aconteçam com os dados de seus usuários, é preciso rever e implementar novas medidas de segurança. Sabemos que o Google é uma fonte inesgotável de (bem sucedidas) inovações, e que seus usuários crescem em quantidade a cada dia, o que aumenta a cada dia a complexidade de qualquer ação de expansão e melhoria de seus serviços para seus usuários.
Para os interessados em conhecer mais a fundo o problema e as soluções adotadas pelo Google, a empresa irá efetuar um post bastante detalhado em seu Apps Status Dashboard, além de fornecer informações completas de todas as suas medidas preventivas que já estão sendo tomadas para que um problema como esse jamais aconteça novamente. Aos nossos leitores aqui do Under-Linux aguardem futuros posts detalhando maiores informações sobre este assunto envolvendo a Gigante da Internet e seu serviço de e-mail. Estamos atualizando as notícias à toda hora.
Links de Interesse:
- Google: .02% of Users Affected By Gmail Bug