Partilhar via


Qualidade de dados

A qualidade dos dados é uma função de gestão da análise à escala da cloud. Reside na zona de destino de gestão de dados e é uma parte fundamental da governação.

Considerações sobre a qualidade dos dados

A qualidade dos dados é da responsabilidade de cada indivíduo que cria e consome produtos de dados. Os criadores devem cumprir as regras globais e de domínio, enquanto os consumidores devem comunicar inconsistências de dados ao domínio de dados proprietário através de um ciclo de comentários.

Uma vez que a qualidade dos dados afeta todos os dados fornecidos ao conselho de administração, deve começar na parte superior da organização. O conselho deve ter informações sobre a qualidade dos dados que lhes são fornecidos.

No entanto, ser proativo ainda requer que tenha especialistas em qualidade de dados que possam limpar registos de dados que requerem remediação. Evite enviar este trabalho para uma equipa central e, em vez disso, direcione o domínio de dados, com conhecimentos de dados específicos, para limpar os dados.

Métricas de qualidade de dados

As métricas de qualidade dos dados são fundamentais para avaliar e aumentar a qualidade dos seus produtos de dados. A nível global e de domínio, tem de decidir as suas métricas de qualidade. No mínimo, recomendamos as seguintes métricas.

Métricas Definições de métricas
Completeness = % total de não nulos + não em branco Mede a disponibilidade dos dados, os campos no conjunto de dados que não estão vazios e os valores predefinidos que foram alterados. Por exemplo, se um registo incluir 01/01/1900 como dados de nascimento, é altamente provável que o campo nunca tenha sido preenchido.
Uniqueness = % dos valores não duplicados Mede valores distintos numa determinada coluna em comparação com o número de linhas na tabela. Por exemplo, tendo em conta quatro valores de cor distintos (vermelho, azul, amarelo e verde) numa tabela com cinco linhas, esse campo é 80% (ou 4/5) exclusivo.
Consistência = % dos dados com padrões Mede a conformidade numa determinada coluna para o respetivo tipo ou formato de dados esperado. Por exemplo, um campo de e-mail com endereços de e-mail formatados ou um campo de nome com valores numéricos.
Validade= % da correspondência de referência Mede a correspondência de dados com êxito com o respetivo conjunto de referência de domínio. Por exemplo, tendo em conta um campo país/região (em conformidade com os valores de taxonomia) num sistema de registos transacionais, o valor de "E.U.A. de A" não é válido.
Precisão= % dos valores não modificados Mede a reprodução bem-sucedida dos valores pretendidos em vários sistemas. Por exemplo, se uma fatura indicar um SKU e um preço alargado que difere da encomenda original, o item da linha da fatura é impreciso.
Ligação = % de dados bem integrados Mede a associação bem-sucedida aos detalhes de referência complementar noutro sistema. Por exemplo, se uma fatura itemizar um SKU incorreto ou uma descrição do produto, o item de linha de fatura não é vinculado.

Criação de perfis de dados

A criação de perfis de dados examina os produtos de dados que estão registados no catálogo de dados e recolhe estatísticas e informações sobre esses dados. Para fornecer vistas de resumo e tendência sobre a qualidade dos dados ao longo do tempo, armazene estes dados no repositório de metadados em relação ao produto de dados.

Os perfis de dados ajudam os utilizadores a responder a perguntas sobre produtos de dados, incluindo:

  • Pode ser utilizado para resolver o meu problema comercial?
  • Os dados estão em conformidade com padrões ou padrões específicos?
  • Quais são algumas das anomalias da origem de dados?
  • Quais são os possíveis desafios da integração destes dados na minha aplicação?

Os utilizadores podem ver o perfil do produto de dados através de um dashboard de relatórios no respetivo marketplace de dados.

Pode reportar itens como:

  • Conclusão: indica a percentagem de dados que não estão em branco ou nulos
  • Exclusividade: indica a percentagem de dados que não estão duplicados
  • Consistência: indica dados onde a integridade dos dados é mantida

Recomendações de qualidade de dados

Para implementar a qualidade dos dados, tem de utilizar o poder humano e computacional da seguinte forma:

  • Utilize soluções que incluam algoritmos, regras, criação de perfis de dados e métricas.

  • Utilize especialistas em domínios que podem intervir quando existe um requisito para preparar um algoritmo devido a um elevado número de erros que passam pela camada de computação.

  • Valide antecipadamente. As soluções tradicionais extraíram, transformaram e carregaram dados antes de qualquer qualidade de dados ter sido aplicada. Por esta altura, o produto de dados já está a ser consumido e surgiram erros em produtos de dados a jusante. Em vez disso, à medida que os dados são ingeridos a partir da origem, implemente verificações de qualidade de dados perto das origens e antes de os consumidores a jusante utilizarem os produtos de dados. Se existir ingestão de lotes a partir do data lake, faça estas verificações quando mover dados de não processados para enriquecidos.

    Diagrama de como implementar a qualidade dos dados durante a ingestão.

  • Antes de os dados serem movidos para a camada melhorada, o esquema e as colunas são verificados relativamente aos metadados registados no catálogo de dados.

  • Se os dados contiverem erros, a carga é parada e a equipa da aplicação de dados notificou a falha.

  • Se o esquema e as verificações de coluna passarem, os dados são carregados para as camadas melhoradas com tipos de dados em conformidade.

  • Antes de passar para a camada melhorada, um processo de qualidade de dados verifica a conformidade com os algoritmos e regras.

Dica

Definir regras de qualidade de dados ao nível global e de domínio. Fazê-lo permite que a empresa defina os seus padrões para cada produto de dados criado e permite que os domínios de dados criem regras adicionais relacionadas com o respetivo domínio.

Soluções de qualidade de dados

A partir de fevereiro de 2022, a Microsoft depende de parceiros, soluções open source e soluções personalizadas para fornecer uma solução de qualidade de dados. É encorajado a avaliar parceiros, como Informatica, Talend, CluedIn e Ataccama One.

Para soluções open source, as empresas implementaram a ferramenta Grandes Expectativas nos seus pipelines de dados.

Resumo da qualidade dos dados

Corrigir a qualidade dos dados pode ter graves consequências para uma empresa. Pode levar a que as unidades de negócio interpretem os produtos de dados de diferentes formas. Esta interpretação incorreta pode revelar-se dispendiosa para as decisões de bases de negócio em produtos de dados com menor qualidade de dados. Corrigir produtos de dados, com atributos em falta, pode ser uma tarefa dispendiosa e pode exigir recarregamentos completos de dados de # de períodos.

Valide a qualidade dos dados mais cedo e coloque os processos no para resolver proativamente a má qualidade dos dados. Por exemplo, não é possível libertar um produto de dados para produção até atingir uma determinada quantidade de conclusão.

Pode utilizar as ferramentas como uma opção livre, mas certifique-se de que inclui expectativas (regras), métricas de dados, criação de perfis e a capacidade de assegurar as expectativas para que possa implementar expectativas globais e baseadas em domínios.

Passos seguintes