top of page

"Your company's information is only as good as the data you use to build it.

 

But sometimes you can't see the poor quality of your data until the needs of a data warehouse expose the problem."

 

Dan Pratte - Poor-quality data can rob your company of information

TechRepublic / US - May 30, 2001

Dados  -  Home

Sendo a matéria-prima com a qual as análises trabalham, a qualidade dos dados utilizados, muitas vezes, é deixada para segundo-plano, ao invés de constituir-se como a base destes trabalhos.

 

Entendo que este assunto (a qualidade dos dados com que se trabalha), começou a ganhar uma maior visibilidade a partir do trabalho de Richard Y. Wang, Co-Diretor do Programa de Gerenciamento Qualidade Total de Dados do MIT (Massachusetts Institute of Technology), chamado "A Product Perspective on Total Data Quality", de 1998.

Neste trabalho, e pela primeira vez na literatura de "Data Analytics", é introduzido o conceito de TDQM (Total Data Quality Management).

 

O TDQM classifica a qualidade dos dados recebidos em 4 Grupos distintos (Intrínsecas, Contextuais, Acessibilidade e Representação), as quais se sub-dividem nas chamadas 16 dimensões da qualidade de dados

As melhores práticas sugerem que se utilize três ou quatro (no máximo), dimensões de avaliação, de forma que as mesmas sejam claras, auditáveis, e evitem conflitos de informação entre si (alta em uma, baixa em outra), propondo um sistema métrico para isso:

Para cada caso (análise), deve-se aplicar critérios específicos, como quais dimensões, quais indicadores, distinções entre subjetivos e objetivos (com pesos apropriados a cada tipo), guiando-se pelo conceito "fitness for use" ou "adequação ao uso"

 

Estes direcionamentos são apresentados no TDQM, com bases tais como a) quais são as informações mais relevantes, b) as dimensões mais importantes para o negócio e c) o nível de qualidade suficiente para cada uma. Ou seja, quais objetivos a análise deve satisfazer.

 

Tomando-se a dimensão "Credibilidade" como exemplo, podemos usar o antigo exemplo de "perguntar as horas": se seu relógio indica uma, e a primeira pessoa a quem pergunta lhe diz outra, para conferência (ou validação), se pergunta a um terceiro elemento. As diferenças entre as informações fornecidas podem ser mensuradas, utilizadas como disparadoras de alarmes, ou armazenadas para verificar desvios significativos.

 

O MIT-TDQM está, hoje, em um estágio de maturidade superior aos seus primórdios (conforme citados aqui), e uma revisão de seus conceitos seria, em minha opinião, uma leitura tanto mandatória quanto agradável, à todos os que, de uma forma ou outra, se envolvem em análise de dados.

 

Não sendo uma estrutura formal, mas sim uma sugestão de arquitetura e procedimentos, o analista pode incluir, excluir ou substituir partes, de forma a tornar o todo mais relevante à pesquisa em que trabalha, como a substituição do dado em si (valor absoluto), por um metadado mais apropriado.

 

Um exemplo típico disso é a conversão dos valores absolutos das alterações de valores de "assets" de Bolsas de Valores por suas variações seno x volume negociado, mais significativo para os analistas desta área, e sendo verificavel ("backtesting"), via robots AFL (Amibroker Formula Language), ou MQL5 (Metabrokers Language 5).

 

 

 

A avaliação final ("grading") TDQM é dada sob a forma de uma lista ordenada de elementos (ou "tuple", para os fãs da linguagem Python).

 

Esta lista é composta por (n1 ->nx , Dn , Z), onde:

 

n1 -> nx = escala utilizada para medição das dimensões, na qual o menor valor indica a menor qualificação

 

Dn = valor médio obtido entre as dimensões (efetivamente, o valor da "qualidade dos dados")

 

Z (opcional) = desvio máximo apresentado sob a forma de valor absoluto ou desvio-padrão, tendo Dn como média

Na camada de apresentação (relatórios e telas), pode-se manter, também, o "índice de esforço de aderência", ou "Attainability Effort Index - AEI", que representa o esforço, tanto financeiro quanto em acréscimo de complexidade, para uma determinada dimensão atingir seu próximo patamar.

 

No caso da opção pelo uso do AEI, o vetor "Z" (complexidade), deve ser definido especificamente, a partir da utilização de valores como, por exemplo, a quantidade de recursos de IT (cpu, memória, I/O, network), necessários para o aumento e a quantidade de horas/homem necessárias à sua implantação / manutenção

Dados  -  Home

bottom of page