Compartilhar via


Limpar dados usando o conhecimento (externo) dos dados de referência

Este tópico descreve como limpar dados usando o conhecimento dos provedores de dados de referência. Embora todas as etapas para a execução de uma atividade de limpeza permaneçam as mesmas ao limpar seus dados usando o conhecimento dos provedores de dados de referência, conforme explicado no Limpar Dados Usando o Conhecimento do DQS (Interno), este tópico fornece informações específicas para a limpeza de dados usando o serviço de dados de referência no Data Quality Services (DQS).

Quando você usa o recurso de serviço de dados de referência no DQS para limpar seus dados, o processo de limpeza do DQS envia os valores de domínio mapeados para o provedor de serviços de dados de referência como uma solicitação em lote. O serviço de dados de referência responde com as seguintes informações:

  • Correção sugerida

  • Confiança

  • Informações adicionais sobre o domínio mapeado. Os dados de referência também podem padronizar, analisar ou enriquecer a fonte com dados adicionais. Essas informações são fornecidas em campos adicionais na resposta.

Depois de obter a resposta do serviço de dados de referência, o seguinte ocorre no DQS durante a atividade de limpeza:

  • Com base nos valores Limite de Correção Automática e Confiança Mínima especificados durante o mapeamento dos domínios com o serviço de dados de referência, os valores de domínio são corrigidos automaticamente ou sugeridos com base no nível de confiança.

    Observação

    Os valores de limite especificados durante o mapeamento de um domínio para um serviço de dados de referência são aplicados durante a limpeza de dados usando o conhecimento no serviço de dados de referência e não os especificados na guia Configurações Gerais na seção Configuração . Para obter informações sobre como especificar valores de limite para limpeza de dados de referência, consulte a etapa 9 em Anexar um domínio ou domínio composto a dados de referência.

  • Os valores de domínio são categorizados no seguinte: Sugerido, Novo, Inválido, Corrigido e Correto.

  • Dados adicionais são acrescentados à origem e as informações estão disponíveis junto com os dados limpos para exportação.

Antes de começar

Pré-requisitos

Você deve ter mapeado os domínios necessários em uma base de dados de conhecimento do DQS para o serviço de dados de referência apropriado. Além disso, a base de dados de conhecimento deve conter conhecimento sobre o tipo de dados que você deseja limpar. Por exemplo, se você quiser limpar os dados de origem que contêm endereços dos EUA, deverá mapear seus domínios para um provedor de serviços de dados de referência que forneça dados de alta qualidade para endereços dos EUA. Para obter mais informações, consulte Anexar um domínio ou domínio composto aos dados de referência.

Segurança

Permissões

Você deve ter a função dqs_kb_editor ou dqs_kb_operator no banco de dados DQS_MAIN para executar a limpeza de dados.

Sanear seus dados usando conhecimento de dados de referência

Continuaremos com o mesmo exemplo de uso dos domínios mapeados no tópico anterior, Anexar um domínio ou domínio composto a dados de referência, com o serviço Melissa Data no Azure Marketplace. Agora, usaremos os mesmos domínios para limpar alguns endereços de exemplo dos EUA. As etapas para limpar dados são as mesmas descritas em Cleanse Data Using DQS (Internal) Knowledge. No entanto, chamaremos sua atenção sempre que necessário durante o processo.

  1. Crie um projeto de qualidade de dados e selecione a atividade limpeza . Consulte Criar um projeto de qualidade de dados.

  2. Na página Mapa , mapeie os seguintes 4 domínios com colunas apropriadas em seus dados de origem: Linha de Endereço, Cidade, Estado e Zip. Clique em Próximo.

    Observação

    Como você mapeou todos os 4 domínios dentro do domínio composto verificação de endereço , a limpeza de dados agora será feita no nível de domínio composto e não no nível de domínio individual.

  3. Na página Limpeza , execute o processo de limpeza assistida por computador clicando em Iniciar. Depois que o processo de limpeza terminar, clique em Avançar.

    Observação

    Na página Limpeza , o DQS exibe informações sobre os domínios anexados ao serviço de dados de referência das duas maneiras a seguir:

    • Uma mensagem é exibida abaixo do botão Iniciar : "Domínios <Domain1>, <Domain2>,... <O DomainN> é limpo usando o provedor de serviços de dados de referência." Neste exemplo, a seguinte mensagem será exibida: "A Verificação de Endereço de Domínio é limpa usando o provedor de serviços de dados de referência".
    • Um ícone, domínio está anexado ao RDS, é exibido na área Criador de Perfil em relação aos domínios anexados ao provedor de serviços de dados de referência. Neste exemplo, o ícone será exibido no domínio composto Verificação de Endereço.
  4. Na página Gerenciar e exibir resultados , examine os valores de domínio. O serviço de dados de referência pode exibir mais de uma sugestão, se disponível, para um valor dependendo do número máximo de sugestões especificadas na caixa Candidatos Sugeridos durante o mapeamento do domínio para o serviço de dados de referência. Por exemplo, duas sugestões são exibidas para o seguinte endereço dos EUA:

    Valor original:

    Linha de Endereço Cidade Estado Fecho
    1 msft way Redmond 98052

    Valores sugeridos:

    Linha de Endereço Cidade Estado Arquivo zip
    Rua Microsoft Way Redmond WA 98052
    Caixa Postal 1 Redmond WA 98073

    Limpeza usando o serviço de dados de referência

    Observação

    Para domínios compostos, o DQS também realça os domínios individuais em uma cor diferente que foram corrigidos durante o processo de limpeza assistido pelo computador. Por exemplo, nesse caso, os domínios Linha de Endereço e Estado foram corrigidos e, portanto, realçados em ciano.

  5. Depois de concluir a revisão de todos os valores de domínio, clique em Avançar para exportar os dados.

  6. Na página Exportar, você observará que, além das informações regulares sobre a atividade de limpeza para cada domínio (Origem, Razão, Confiança e Status), há informações adicionais fornecidas pelo serviço de dados de referência Melissa Data sobre seus dados de endereço, como latitude e longitude de seu endereço, nome do condado, tipo de endereço (prédio de apartamentos, rua, etc.), entre outros.

  7. Exporte seus dados para o destino necessário (SQL Server, CSV ou Excel) e clique em Concluir para fechar o projeto.

    Importante

    Se você estiver usando a versão de 64 bits do Excel, não poderá exportar os dados limpos para um arquivo do Excel; você pode exportar apenas para um banco de dados do SQL Server ou para um arquivo .csv.