Qualidade dos dados
A qualidade dos dados é uma função de gerenciamento da análise em escala de nuvem. Ela se encontra na zona de destino do gerenciamento de dados e é uma parte central da governança.
Considerações sobre a qualidade dos dados
A qualidade dos dados é responsabilidade de cada pessoa que cria e consome produtos de dados. Os criadores devem seguir as regras globais e de domínio, enquanto os consumidores devem relatar inconsistências de dados para o domínio de dados proprietário por meio de um loop de comentários.
Como a qualidade dos dados afeta todos os dados fornecidos ao quadro, ele deve começar no topo da organização. O quadro deve ter insights sobre a qualidade dos dados fornecidos a eles.
No entanto, ser proativo ainda exige que você tenha especialistas em qualidade dos dados que possam limpar buckets de dados que exijam correção. Evite atribuir esse trabalho a uma equipe central e, em vez disso, tenha como alvo o domínio de dados, com um conhecimento de dados específico, para limpar os dados.
Métricas de qualidade dos dados
As métricas de qualidade dos dados são fundamentais para avaliar e aumentar a qualidade dos seus produtos de dados. Em um nível global e de domínio, você precisa tomar decisões sobre suas métricas de qualidade. No mínimo, recomendamos as seguintes métricas.
Métricas | Definições de métricas |
---|---|
Integridade = % total de valores não nulos + valores que não estão em branco | Mede a disponibilidade de dados, os campos no conjunto de dados que não estão vazios e os valores padrão que foram alterados. Por exemplo, se um registro incluir 01/01/1900 como dados de nascimento, será altamente provável que o campo nunca tenha sido preenchido. |
Exclusividade = % de valores não duplicados | Mede valores distintos em determinada coluna em comparação com o número de linhas na tabela. Por exemplo, considerando quatro valores de cor distintos (vermelho, azul, amarelo e verde) em uma tabela com cinco linhas, esse campo é 80% (ou 4/5) exclusivo. |
Consistência = % dos dados com padrões | Mede a conformidade em determinada coluna quanto ao tipo de dados ou ao formato esperado. Por exemplo, um campo de email contendo endereços de email formatados ou um campo de nome com valores numéricos. |
Validade = % de correspondências de referência | Mede a correspondência de dados bem-sucedida com o respectivo conjunto de referência de domínio. Por exemplo, dado um campo país/região (em conformidade com os valores de taxonomia) em um sistema de registros transacionais, o valor de "US de A" não é válido. |
Precisão = % de valores não modificados | Mede a reprodução bem-sucedida dos valores pretendidos em vários sistemas. Por exemplo, se uma fatura indicar um SKU como um item e um preço estendido que difere do pedido original, o item de linha da fatura será impreciso. |
Vínculo = % dos dados bem integrados | Mede a associação bem-sucedida aos detalhes de referência complementares em outro sistema. Por exemplo, se uma fatura indicar um SKU incorreto ou uma descrição de produto incorreta como um item, o item de linha da fatura não será vinculável. |
Criação de perfil de dados
A criação de perfil de dados examina os produtos de dados que são registrados no catálogo de dados e coleta estatísticas e informações sobre esses dados. Para fornecer exibições de resumo e tendências sobre a qualidade dos dados ao longo do tempo, armazene esses dados no seu repositório de metadados no produto de dados.
Os perfis de dados ajudam os usuários a responder perguntas sobre os produtos de dados, incluindo:
- Ele pode ser usado para resolver meu problema de negócios?
- Os dados estão em conformidade com padrões específicos?
- Quais são algumas das anomalias da fonte de dados?
- Quais são os possíveis desafios de integração desses dados a meu aplicativo?
Os usuários podem ver o perfil do produto de dados usando um painel de relatórios no marketplace de dados.
Você pode relatar itens como:
- Integridade: indica o percentual de dados que não estão em branco ou não são nulos
- Exclusividade: indica o percentual de dados que não são duplicados
- Consistência: indica os dados em que a integridade é mantida
Recomendações de qualidade dos dados
Para implementar a qualidade dos dados, você precisa usar o poder humano e computacional da seguinte maneira:
Use soluções que incluam algoritmos, regras, criação de perfil de dados e métricas.
Use especialistas no domínio que possam intervir quando houver um requisito para treinar um algoritmo devido a um alto número de erros que passam pela camada de computação.
Valide o processo logo no início. As soluções tradicionais aplicam verificações de qualidade de dados após extrair, transformar e carregar os dados. Nesse momento, o produto de dados já estava sendo consumido e os erros surgiram nos produtos de dados downstream. Em vez disso, como os dados são ingeridos da origem, implemente verificações de qualidade dos dados próximas às fontes e antes que os consumidores downstream usem os produtos de dados. Se houver uma ingestão em lote do data lake, faça essas verificações ao mover os dados de brutos para enriquecidos.
Antes que os dados sejam movidos para uma camada enriquecida, o esquema e as colunas deles são verificados em relação aos metadados registrados no catálogo de dados.
Se os dados contiverem erros, a carga será interrompida e a equipe do aplicativo de dados emitirá uma notificação sobre a falha.
Se as verificações de esquema e coluna forem aprovadas, os dados serão carregados nas camadas aprimoradas com tipos de dados em conformidade.
Antes de passar para a camada enriquecida, um processo de qualidade dos dados verifica a conformidade com os algoritmos e as regras.
Dica
Defina as regras de qualidade dos dados em nível global e de domínio. Isso permite que a empresa defina os padrões para cada produto de dados criado e permite que os domínios de dados criem regras adicionais relacionadas ao domínio deles.
Soluções de qualidade dos dados
Recomendamos avaliar a Qualidade de Dados do Microsoft Purview como uma solução para avaliar e gerenciar a qualidade dos dados, o que é crucial para insights confiáveis orientados por IA e tomada de decisões. Ele inclui:
- Regras sem código/Low Code: avalie a qualidade dos dados usando regras prontas para uso e geradas por IA.
- Criação de perfil de dados com tecnologia de IA: recomenda colunas para criação de perfil e permite intervenção humana para refinamento.
- Pontuação de qualidade de dados: fornece pontuações para ativos de dados, produtos de dados e domínios de governança.
- Alertas de qualidade de dados: notifica os proprietários de dados sobre problemas de qualidade.
Para obter mais informações, consulte O que é qualidade de dados.
Se sua organização decidir implementar o Azure Databricks para manipular dados, você deverá avaliar os controles de qualidade de dados, testes, monitoramento e aplicação que esta solução oferece. O uso de expectativas pode capturar problemas de qualidade de dados na ingestão antes que eles afetem os produtos de dados filhos relacionados. Para obter mais informações, consulte Estabelecer padrões de qualidade de dados e Gerenciamento de qualidade de dados com o Databricks.
Você também pode escolher entre parceiros, código aberto e opções personalizadas para uma solução de qualidade de dados.
Resumo da qualidade dos dados
A correção da qualidade dos dados pode ter sérias consequências para uma empresa. Isso pode levar as unidades de negócios a interpretar produtos de dados de diferentes maneiras. Essa interpretação incorreta pode ser cara para as decisões de bases de negócios sobre os produtos de dados com menor qualidade dos dados. Corrigir os produtos de dados, com atributos ausentes, pode ser uma tarefa cara e exigir recarregamentos completos de dados de vários períodos.
Valide a qualidade dos dados logo no início e implemente processos para lidar proativamente com uma qualidade insatisfatória de dados. Por exemplo, um produto de dados não pode ser liberado para produção até atingir uma certa quantidade de integridade.
Você pode usar ferramentas como uma opção gratuita, mas verifique se elas incluem expectativas (regras), métricas de dados, criação de perfil e a capacidade de garantir as expectativas para que você possa implementar expectativas globais e baseadas em domínio.