Dados 2 | paulosasaki-brasil

Dados - Preparação

Em 1961, Edward Norton Lorenz trabalhava em seu computador, um primitivo “Royal McBee”, na elaboração de modelos de previsões climáticas, alimentando a máquina com grandes quantidades de dados, manualmente, e executando rotinas de modelagem.

Dada a lentidão do equipamento, seus processos se dividiam em etapas, com resultados impressos ao final de cada um.

A um certo ponto, e com o intuito de acelerar um processo, Lorenz decide “retomar” uma análise, mas a partir do meio, utilizando como entrada os dados relatados ao final de uma das etapas.

Para sua surpresa, os resultados finais diferiam radicalmente dos obtidos na primeira execução, o que foi confirmado diversas vezes, por várias repetições do mesmo processo, a partir de pontos de retomada distintos.

Após as usuais verificações na máquina, e revisões de seus processos, Lorenz conclui que as diferenças apresentadas são devidas aos dados fornecidos.

Por exemplo: velocidade do vento = 3.96241 Km/H (alimentado inicialmente) / velocidade do vento = 3.96 Km/H (alimentado a partir do relatório intermediário, menor que o original, devido ao tamanho dos registradores dos processadores da época) / diferença entre os dados = 0.00241. Uma diferença tão pequena que equivaleria ao “bater de asas de uma borboleta”.

A progressão desta linha de entendimento o levou a concluir que:

“Dois estados que diferem por quantias imperceptíveis podem evoluir a dois estados consideravelmente diferentes. Se, então, houver um erro qualquer na observação do estado presente – e em qualquer sistema real, tal erro parece inevitável – uma previsão aceitável de um estado no futuro distante pode muito bem ser impossível. Em vista da inevitável inacurácia e incompletude das observações meteorológicas, previsões precisas de longo prazo parecem ser não-existentes” (Edward Norton Lorenz – “Fluxo não-periódico determinístico” – Jornal de Ciências Atmosféricas – 1963).

Este trabalho, que se popularizou sob o nome “Efeito Borboleta”, além de lhe render diversos prêmios da comunidade cientifica, também serviu de base para o que se conhece, atualmente, como “Teoria do Caos”.

“Garbage IN => Garbage OUT”, diz uma antiga regra de processamento de dados.

Endossando, à sua maneira o “Efeito Borboleta”, em média, 80 a 90% do tempo de qualquer análise de dados é gasta na preparação dos dados, em processos já bem conhecidos daqueles envolvidos em processos como DW, data mining e BI (“data selection, cleaning, integration, transformation, mining, pattern recognition, information storage & display”).

A figura ao lado apresenta os passos sugeridos por Kunal Jain (pós-graduado da IIT Bombain em Engenharia Aeroespacial, 7 anos de experiência em análise de dados, e contribuidor do “Analyticsvidhya”)

Apesar do modelo geral de uma análise ter mudado pouco desde a época de Lorenz (entrar dados selecionados, rodar processos de modelagem, buscar padrões, etc), o crescimento da quantidade de dados e sua volatilidade tem apresentado sérias dificuldades a todos esses métodos tradicionais, por isso pensei em chamar a atenção para algo que está, agora na fase do “Big Data”, apresentando seus estágios iniciais: e-Discovery ou e-Scan.

Em seu artigo “Is Your Company Running a Data Dump” (InformationWeek, 11/2/2014), Michael Fitzgerald faz os seguintes comentários:

Sobre os dados armazenados atualmente:

“Companies of all sorts are now in the garbage business. Without even thinking about it, companies collect so much data that they have data garbage dumps, filled up with bad data.

The big difference between data dumps and real landfills is the smell; bad data doesn't have the same odor. That's probably why companies keep collecting data they don't need. It's also cheap to keep data, and it's gotten cheaper in the last few years. That just makes comparing data harder to do.”

E sobre as soluções emergentes:

“The rise of post-relational database tools such as Hadoop, Mongo DB, and Cassandra have lowered data storage costs, says Nenshad D. Bardoliwalla, cofounder and vice president of product at Paxata, a startup that uses machine learning and analytics to automate and accelerate the data preparation part of big data. No longer do companies need to think about what they're storing.”

A intenção com essas citações é chamar a atenção para o fato de que o "negócio" de análise e modelagem de dados está mudando, e oferecendo novas oportunidades, abrindo novos nichos, como já foi percebido pela Paxata, com seu "Adaptive Data Preparation", e outras que já recebem patrocínios de empresas como a NEA (New Enterprise Associates), liderada por pessoas como Bala Deshpande, também uma grande contribuidora em artigos sobre preparação de dados.

As bases das informações que você usa para tomar decisões de negócio estão mudando rapidamente.

Estamos prontos para essa nova era ?

home

Dados - Preparação

Paulo Sasaki & Consultores Associados

Artificial Intelligence, Deep Learning, Big Data, Ciber Security