Computação e Dados massivos – a nova fronteira

Existe um livro da Microsoft Research chamado The Fourth Paradigm - Data Intensive Scientific Discovery , disponível para download, que trata de uma realidade nova da ciência de hoje.

Jim Gray, um dos desenvolvedores do System R nos primórdios dos Bancos de Dados Relacionais, do WorldWide Telescope e outros, escritor de um dos melhores livros da informática que já li (Transaction Processing: Concepts and Techniques) e Fellow da Microsoft até o ano de 2007, quando teve um acidente trágico, colocou o problema da seguinte forma: a ciência está iniciando o seu quarto paradigma que vai se apoiar numa TI que ainda não existe e temos que construir.

imageHistoricamente, a Ciência está sofrendo as seguintes mudanças de paradigmas:

  1. Ciência Empírica: onde os cientistas coletavam os dados de suas observações diretas e eles mesmos analisam esta informação chegando a algumas regras da natureza;
  2. Ciência Teórica: os cientistas constroem modelos analíticos (fórmulas) coerente com as observações e começam a fazer predições;
  3. Ciência Computacional: os cientistas adicionam ao seu instrumental computadores capazes de simular modelos analíticos, validá-los e construir predições (ex.: simulação da colisão de galáxias ou formação e morte de uma estrela);
  4. eScience: onde os computadores geram dados de simulações (exigindo muita computação), recebem eventos adquiridos por instrumentação, armazenam dados em arquivos ou banco de dados muitas vezes distribuídos (exigindo grande poder de armazenamento), e apoiam os cientistas na captura, organização, sumarização, análise e visualização desta monumental massa de dados (mais computação), tornando factível encontrar novas correlações e modelos analíticos capazes de novas predições.

Neste novo tempo, o computador tem o papel fundamental de analisar uma crescente massa de informações (na ordem hoje de muitos pentabytes e com previsão de dobrar nos próximos 2 anos) e  torná-los coerentes.

A computação, assim usada, seria comparável com a experiência do uso do telescópio por Galileu Galilei.

As empresas provavelmente terão um desafio semelhante. Elas também recebem um turbilhão de dados (dados de mercado, preços, vendas, ações dos clientes, etc.), e precisam entender rapidamente o que está acontecendo para agir corretamente e em tempo.

Investimentos enormes têm sido feitos para lidar com este novo volume de dados. Novas tecnologias para cubos OLAP (vide SQL Server 2008 R2 Parallel Data Warehouse), serviços para a coleta massiva de eventos (SQL Streaming), computação em paralelo, seja por HPC (Beowulf Computing) ou cloud computing (como o Azure), são exemplos de alternativas reais hoje.

Ao estabelecer este 4º paradigma Jim Gray parece estabelecer uma direção de forma semelhante ao que John Kennedy colocou para a ciência americana ao apontar como objetivo o homem na lua.

Quem ganha? Todos. Como na corrida espacial, toda a sociedade recebe seus benefícios diretos ou indiretos. Mas muito já pode ser feito agora, e a direção não é a de um computador muito grande, mas a de uma rede de armazenamento e computação em paralelo.

Quanto ao livro, recomendo a leitura do primeiro artigo, do próprio Jim Gray.

Abraços