Carlos Alberto Teixeira - O Globo
RIO - Que tal a possibilidade de construir um hipercomputador gigantescamente poderoso e enfiar dentro dele a internet inteira rodando como uma aplicação? Parece devaneio? Idéia escabrosa? Sim, mas é exatamente esse o objetivo declarado da IBM com seu Projeto .
Orgulho auriverde, dois conterrâneos nossos estão à frente desse ousado projeto - Dilma da Silva, pesquisadora e gerente do grupo avançado de sistemas operacionais da IBM, e José Eduardo Moreira, arquiteto-chefe de sistemas no centro de pesquisa Thomas J. Watson da empresa. ( Leia entrevista completa dos dois )
Iniciado em 2007, o Projeto Kittyhawk vem sendo bolado com base nos resultados vitoriosos de vários filões anteriores de pesquisa na IBM. Além de Dilma e José, trabalham nele vários outros pesquisadores da empresa: Amos Waterland, Bryan Rosenburg, Jonathan Appavoo e Volkmar Uhlig. Esse grupo de crânios construiu o novo sistema baseado na arquitetura única do supercomputador Blue Gene, da IBM.
- Aliás, o José Moreira foi um dos líderes do desenvolvimento do Blue Gene, responsável pelo software do projeto - esclarece Dilma.
A idéia que motivou o projeto era elaborar uma nova geração de computadores capazes de oferecer as características que estão faltando nos data centers de hoje. Uma delas é o conceito de escalabilidade.
- Suponha que você acaba de criar um serviço online que rapidamente se transforme num fenômeno mundial de acessos, algo como aconteceu com o YouTube. Rodando num data center convencional, ele logo estouraria a capacidade das máquinas e da rede. Num contexto assim, escalabilidade é a capacidade de rapidamente, em poucas horas, fazer crescer o sistema, adicionando centenas ou até milhares de novos servidores ao seu site, e integrando-os num tempo mínimo - explica Dilma.
Pela abordagem convencional, utilizam-se clusters (grupos) de computadores em alguns data centers, ou seja, várias máquinas de baixo custo ligadas umas às outras, formando um conjunto com grande poder de processamento de dados.
Só que, quando se usam clusters e surge a necessidade urgente de expandir o sistema, é preciso comprar novos computadores em tempo recorde, instalá-los, integrá-los e conectar o conjunto à rede. Baita trabalheira.
- Mesmo em data centers convencionais que já têm esse processo muito bem ensaiado, é algo que infelizmente ainda demora muito - afirma.
Todavia, quando começou a bolar o Projeto Kittyhawk, a equipe de pesquisadores observou que já tinha à mão o supercomputador Blue Gene, uma máquina fabulosa cujo "empacotamento" era bem parecido com o desejado. Os pesquisadores tiveram então uma visão inovadora de como utilizar essa plataforma já existente com uma finalidade que ia além de sua proposta original.
Assim, considerando as questões de arquitetura de rede, de consumo de energia, e de quanto espaço físico o Blue Gene ocupava num centro de processamento de dados, concluiu-se que aquele musculoso computador estava bem na linha do que os pesquisadores estavam buscando.
O primeiro passo, então, foi conseguir executar código geral no Blue Gene usando o sistema operacional Linux, de código aberto.
Não seria belo um futuro em que máquinas fantásticas como essa funcionarão lindamente sem precisar pagar licença para usar um sistema operacional, como acontece com aquele software básico produzido pela firma você-sabe-qual?
A equipe do Kittyhawk conseguiu executar no Blue Gene o chamado "vanilla Linux", ou seja, "Linux baunilha", a versão mais usual e completa do sistema operacional, aquela que está disponível para todos os usuários no www.kernel.org .
A equipe de desenvolvimento do Projeto Kittyhawk pôs para rodar a versão baunilha do Linux em todos os processadores do Blue Gene, tirando total proveito das características únicas desse supercomputador.
- O espantoso número de 16.384 racks na configuração máxima da máquina é, por ora, apenas um limite teórico. O maior supercomputador Blue Gene real já montado tem 104 racks, ou seja, 106.496 nós. Ele está funcionando no LLNL (Lawrence Livermore National Laboratory) - esclarece José Eduardo Moreira. - Sim, nós poderíamos fazer algo maior, mas por enquanto ninguém quis comprar. A arquitetura comporta esse limite, mas no momento não acho que apareça alguém que vá pedir uma configuração desse tamanho. Certamente haveria algumas dificuldades de engenharia para se atingir uma configuração máxima - questões de cabeamento, de refrigeração e outras - mas o conceito suporta até esse tamanho.
Segundo Dilma, uma configuração Kittyhawk é uma máquina bastante confiável, ou seja, ela apresenta poucas falhas.
- Ela é cerca de 100 vezes melhor em termos de tempo médio entre falhas (MTBF = "mean time between failures") do que os computadores comuns - diz.
Com relação ao nome escolhido para o projeto, quem o bolou foi um dos integrantes da equipe, Jonathan Appavoo. Ao ver, quando jovem, um filme chamado "Brainstorm", ele sentiu-se inspirado a um dia, quem sabe?, trabalhar num laboratório de pesquisa.
Seu sonho se realizou, ele foi parar na IBM. Na hora de batizar o projeto do grande computador para a web, pensou em "Brainstorm", mas o nome já estava tomado. Então, sugeriu usar um outro nome que fosse referência importante no filme: Kittyhawk, que é um lugar no estado da Carolina do Norte onde os pioneiros da aviação norte-americana, os irmãos Wright, desenvolveram o projeto daquele que seria o primeiro avião, isso sem entrar no histórico debate sobre quem foi o verdadeiro pioneiro das aeronaves - se foram os tais irmãos, ou se foi o nosso Santos Dumont.
Seja como for, o site oficial da cidade de Kittyhawk é http://www.townofkittyhawk.org/ .
Voltando ao projeto, dizer que a idéia primordial do sistema é realmente engolir a internet inteira, obviamente, é mais uma força de expressão. É uma mensagem que apenas ilustra a capacidade desse supercomputador da IBM de rodar tarefas web com perfeição, confiabilidade e escalabilidade.
Afinal, uma coisa é dizer que o supercomputador Kittyhawk seria capaz de abrigar a totalidade da internet em seus complexos circuitos. Outra coisa é afirmar peremptoriamente que ele de fato fará isso.
Na verdade, a coisa de absorver inteiramente a grande rede serve como poderoso e engenhoso argumento de marketing para a IBM mostrar que é capaz de vender uma solução parruda para clientes grandes.
Basta pensarmos um pouco e concluiremos que jamais a comunidade de internautas permitiria que toda a rede ficasse hospedada nos computadores de um só fornecedor, seja da IBM ou de qualquer outro, mesmo que fosse uma máquina fabulosa como o Blue Gene, com seu upgrade de software que o transformaria num maquinão Kittyhawk.
Aliás, isso ficou bem claro quando perguntei aos pesquisadores quantos data centers geograficamente distribuídos seriam necessários para o Kittyhawk hospedar a web inteira no planeta todo.
- Poderíamos dizer, em ordem de magnitude, que seriam cerca de dez grandes data centers Kittyhawk espalhados pelo mundo - estimou José Moreira.
Tudo bem, é até aceitável que o Kittyhawk possa engolir pedacinhos da web, como aliás hoje faz o Google com seus ditos "clusters de baixo custo", que certamente já não são montados interconectando PCs comuns desses comprados em lojinha, há muito tempo.
O Kittyhawk poderá até engolir pedações da web. Mas nunca a rede inteira, isso seria demais e nunca entraria goela adentro nem dos internautas, nem das empresas concorrentes.
Mas essa ressalva quanto à viabilidade do "engolimento total" da internet não diminui a grandiosidade do Projeto Kittyhawk.
- A imagem forte tem como objetivo esclarecer a escala para a qual estamos investigando a arquitetura de hardware e software. É uma afirmação sobre a capacidade tecnológica. Muitos fatores impactam a possibilidade desta visão se tornar realidade, e nossa equipe está focalizando no aspecto científico e de engenharia - explica Dilma. - De forma mais geral, utility computing sendo provida por um pequeno número de fornecedores viria com muitos desafios. Acho que, em outras indústrias, a sociedade aceita esta situação de depender de num número pequeno de fornecedores, pois o alto nível de investimento exigido restringe o número de participantes.
Segundo Dilma, em computação, é bem possível que isso não seja verdade.
- Mas suponhamos que um supercomputador integrado e projetado para hospedar pedaços enormes da internet inteira consiga, via economia de escala e características especiais do computador, diminuir o custo de prover poderio computacional num patamar em que fornecedores menores não tenham condições de competir. Nesse caso, é possível imaginar que poucas empresas poderiam ser responsáveis por prover a maior parte dos recursos computacionais consumidos pela sociedade - sacramenta.
Confira alguns links sobre o tema:
Projeto Kittyhawk - site oficial:
Blue Gene - site oficial:
Palestra de Jonathan Appavoo em 24 de setembro de 2008 no colóquio de sistemas de computação do Departamento de Engenharia Elétrica da Universidade de Stanford, na Califórnia, EUA:
Vídeo da palestra:
Slides da palestra:
José Eduardo Moreira:
Dilma M. da Silva:
Top500 - lista dos mais poderosos supercomputadores do mundo, em que o Blue Gene/L consta em segundo lugar:
2 Comentários