Ver Feed RSS

Sukkubus

Software livre Hadoop ganha espaço em grandes sites

Avalie este Post de Blog
Portal Terra


Em apenas dois anos, o Hadoop, um software livre que tem o nome de um elefante de brinquedo, ganhou espaço em alguns dos maiores sites do mundo. Ele controla os principais programas de busca e determina os anúncios exibidos ao lado dos resultados. Decide o que as pessoas vêem na homepage do Yahoo e ajuda a localizar amigos perdidos no Facebook.

O software chegou onde está por tornar mais fácil e barato que nunca a análise e acesso aos volumes sem precedentes de dados que a internet movimenta. Ao mapear informações espalhadas por milhares de computadores baratos e ao criar meios mais fáceis de escrever questões analíticas, o programa permite que os engenheiros evitem a necessidade de resolver um grande desafio de ciência da computação a cada vez que começam a avaliar dados. Em lugar disso, basta fazer uma pergunta.

"É um grande avanço", diz Mark Seager, diretor de computação avançada no Laboratório Nacional Lawrence Livermore. "Acredito que esse tipo de tecnologia resolverá toda uma nova classe de problemas e abrirá novos serviços".

Três antigos engenheiros do Google, Yahoo e Facebook, em companhia de um antigo executivo da Oracle, apostam que sim. Na segunda-feira, anunciaram a criação de uma nova empresa, a Cloudera, em Burlingame, Califórnia, que tentará aplicar as capacidades do Hadoop a setores tão distintos quanto a genômica, o varejo e as finanças.

Os conceitos centrais do software foram desenvolvidos no Google.

Por volta de 2003, o Google vinha encontrando crescente dificuldade para ingerir e indexar toda a internet regularmente. Para agravar esses problemas, faltava ao serviço de busca uma maneira relativamente fácil de analisar seu vasto estoque de informações a fim de calcular a qualidade dos resultados de pesquisa e a forma pela qual as pessoas se comportavam em seus diversos serviços online.

Para enfrentar essas questões, uma dupla de engenheiros do Google inventou uma tecnologia chamada MapReduce, a qual, quando combinada à intrincada tecnologia de gestão de arquivos que a empresa utiliza para indexar e catalogar a web, resolveu o problema.

A tecnologia MapReduce torna possível dividir grandes conjuntos de dados em pequenas porções, distribuir essa informação por milhares de computadores, fazer perguntas a eles e receber respostas coesas. O Google reescreveu todo o seu índice de busca a fim de tirar vantagem da capacidade do MapReduce para analisar todas as suas informações e para aproveitar o fato de que ele pode manter funções complexas em operação mesmo que muitos dos computadores participantes sejam desativados.

O MapReduce na verdade representa dois grandes avanços. A tecnologia permitiu que o software de busca do Google operasse mais rápido em computadores mais baratos e menos confiáveis, o que significa um custo de capital inferior. Além disso, ela facilita tanto a manipulação dos dados recolhidos pelo Google que os engenheiros podem procurar segredos sobre a maneira pela qual as pessoas utilizam a tecnologia da empresa, em lugar de se preocuparem com manter os computadores em ação.

"É um martelo realmente grande", disse Christoper Bisciglia, 28, antigo engenheiro do Google e fundador da Cloudera. "Quando o martelo disponível é realmente grande, tudo o mais se torna prego".

A tecnologia abre a possibilidade de fazer uma pergunta sobre dados do Google - por exemplo, que buscas as pessoas realizaram antes de fazer uma busca sobre carros BMW -, e com isso é possível começar a descobrir mais e mais sobre o relacionamento entre grupos de site, imagens e documentos. Em resumo, o Google se tornou mais inteligente.

A tecnologia MapReduce também ajuda a realizar trabalho braçal. Por exemplo, ela apanha grandes quantidades de imagens - como fotos por satélites - de muitas fontes, e monta as informações em uma imagem composta. O resultado foram melhorias em produtos como o Google Maps e o Google Earth.

O Google manteve segredo sobre o mecanismo interno do MapReduce e o software de gestão de arquivos associado, mas publicou estudos sobre algumas das técnicas subjacentes. E a informação esparsa que esses estudos fornecem bastou para Doug Cutting, um consultor de software, que com ela criou sua versão da tecnologia e a batizou Hadoop. (O nome surgiu por conta do elefante de pelúcia de seu filho; o menino cresceu, e o boneco está hoje guardado em uma gaveta).
O pessoal do Yahoo leu os mesmos estudos que Cutting e acreditava que era necessário nivelar o campo de jogo com relação ao seu adversário no segmento de buscas e publicidade. Por isso, o Yahoo contratou Cutting e o colocou para trabalhar.

"A idéia era que, se tivéssemos uma equipe realmente grande, poderíamos fazer o sistema funcionar", disse Cutting. "Em seis meses, o Hadoop já se havia tornado parte fundamental do Yahoo, e em dois anos ganhou importância superfundamental".

Um sistema de análise também acionado pelo Hadoop determina o que 300 milhões de pessoas ao mês vêem na homepage do Yahoo. A empresa acompanha o comportamento das pessoas para determinar que tipo de reportagem ou conteúdo elas apreciam, e tenta alterar a homepage que recebem com base nessas informações. Um software semelhante tenta acoplar anúncios a determinados tipos de conteúdo. Quanto melhor a publicidade, mais o Yahoo pode cobrar por ela.
A estimativa é de que o Yahoo tenha investido dezenas de milhões de dólares no desenvolvimento do Hadoop, mas o programa continua a ser um software de fonte aberta, que qualquer um pode usar ou modificar.

Por isso, ele começou a se espalhar pelo Vale do Silício e entre as empresas de tecnologia em toda parte.

A Microsoft se tornou fã do Hadoop ao adquirir uma empresa iniciante chamada Powerset, com o objetivo de melhorar seu sistema de buscas. Historicamente hostil ao software de fonte aberta, a Microsoft mesmo assim alterou suas normas internas para permitir que os membros da equipe da Powerset continuassem a desenvolver o Hadoop.

"Começamos a compreender que temos problemas reais a resolver que afetam os nossos negócios, e as informações empresariais e sistemas de análise de dados têm parte importante nisso", disse Sam Ramji, diretor sênior de estratégia de plataformas na Microsoft.

O Facebook utiliza a tecnologia para administrar os 40 bilhões de fotos armazenadas em seus servidores. "É com ele que o Facebook descobre qual é a proximidade da conexão entre os seus usuários", disse Jeff Hammerbacher, ex-engenheiro do Facebook e co-fundador da Cloudera.
A Eyealike, uma empresa iniciante, depende do Hadoop para realizar reconhecimento facial em fotos, enquanto a Fox Interactive Media minera dados com ele. Google e IBM financiaram um programa que ensina o Hadoop a universitários.

A Autodesk, produtora de software de design, o utilizou para criar um catálogo online de produtos como ralos, calhas e pias, a fim de ajudar construtores a realizar projetos. A empresa pretende lucrar com o uso do Hadoop para analisar a popularidade de determinados itens, e com a posterior venda dessa informação aos fabricantes.

Foram aplicações como essas que convenceram os fundadores da Cloudera a criar uma empresa para desenvolver o Hadoop.

"E se o Google decidisse vender a capacidade de realizar coisas maravilhosas com dados, em lugar de vender publicidade?", pergunta Hammerbacher.

Hammerbacher e Bisciglia contam também com a participação de Amr Awadallah, antigo engenheiro do Yahoo, e com a de Michael Olson, o presidente-executivo da empresa, que vendeu uma produtora de software de fonte aberta à Oracle, em 2006.

A empresa acaba de lançar sua versão do Hadoop. O software continua livre, e a Cloudera espera faturar com a venda de serviços de apoio e consultoria. Por enquanto, conta com poucos clientes, mas deseja atrair empresas de setores como biotecnologia, petróleo e gás natural, varejo e seguros, para a idéia de gastar menos e aproveitar mais suas informações.

Os executivos apontam para o fato de que atividades como cópias de dados do genoma humano, reservatório de petróleo e dados de vendas requerem imensos sistemas de armazenagem.

Tradução: Paulo Migliacci ME

The New York Times
Categorias
Noticias

Comentários


+ Enviar Comentário



Visite: BR-Linux ·  VivaOLinux ·  Dicas-L