Criando perfil de dados com o visualizador e a tarefa de criação de perfil de dados
A tarefa Criação de Perfil de Dados provê a funcionalidade de criação de perfil de dados dentro do processo de extração, transformação e carga de dados. Usando a tarefa Criação de Perfil de Dados, você pode alcançar os seguintes benefícios:
Analisar os dados de origem mais efetivamente
Entender melhor os dados de origem
Prevenir problemas de qualidade dos dados antes que eles sejam introduzidos no data warehouse.
Importante |
---|
A tarefa Criação de perfil de dados funciona apenas com os dados armazenados no SQL Server 2000 ou em versões posteriores. Ela não funciona com origens de dados de terceiros ou baseadas em arquivos. |
O que é Criação de Perfil de Dados?
A qualidade dos dados é importante para todo negócio. Como as empresas constroem sistemas analíticos e de business intelligence no topo de seus sistemas transacionais, a confiabilidade dos indicadores de desempenho chave e das previsões da mineração de dados, depende completamente da validade dos dados onde eles são baseados. Mas, embora a importância da validade dos dados para a realização das decisões de negócios esteja crescendo, o desafio de certificar-se da validade dos dados também está aumentando. Dentro da empresa os dados estão fluindo constantemente de diversos sistemas e fontes e de um grande número de usuários.
Métrica para qualidade de dados pode ser difícil de definir porque eles são específicos ao domínio ou aplicativo. Uma abordagem comum para definir qualidade de dados é a criação de perfil de dados.
Um perfil de dados é uma coleção de estatísticas agregadas sobre os dados que podem incluir o seguinte:
O número de linhas na tabela Cliente.
O número de valores distintos na coluna Estado.
O número de valores ausentes ou nulos na coluna Zip.
A distribuição de valores na coluna Cidade.
A intensidade da dependência funcional da coluna Estado na coluna Zip, ou seja, o Estado deve sempre ser o mesmo para determinado valor de Zip.
As estatísticas que a criação de perfil de dados provê, fornecem a informação necessária para efetivamente minimizar as perdas de qualidade que podem ocorrer do uso da fonte de dados.
Como a criação de perfil de dados trabalha em Integration Services
Em Integration Services, o processo de criação de perfil de dados consiste nas seguintes etapas:
Etapa 1: Definindo a tarefa Criação de Perfil de Dados
A tarefa Criação de Perfil de Dados é uma tarefa que você usa para configurar os perfis que deseja calcular. Você executa o pacote que contém a tarefa de Criação de Perfil de Dados para computar os perfis. A tarefa salva o perfil produzido em formato de XML em um arquivo ou uma variável de pacote.Para obter mais informações:, Configurando a tarefa de criação de perfil de dados
Etapa 2: Revisando os perfis que a tarefa Criação de Perfis de Dados computa
Para exibir os perfis de dados que a tarefa Criação de Perfil de Dados computa, envie a saída para um arquivo e utilize o Visualizador de Perfil de dados Esse visualizador é um utilitário autônomo que mostra a saída do perfil em formato resumido e detalhado com uma capacidade opcional de busca.Para obter mais informações:, Exibindo perfil de saída no Visualizador de Perfil de Dados
Adicionando lógica condicional ao fluxo de trabalho de criação de perfil de dados.
A tarefa Criação de Perfil de Dados não tem recursos internos que lhe permitam usar lógica condicional para conectar essa tarefa a tarefas de downstream com base na saída do perfil. Porém, você pode adicionar facilmente esta lógica, com uma quantidade pequena de programação, em uma tarefa de Script. Por exemplo, a tarefa Script poderia executar uma consulta XPath contra o arquivo de saída da tarefa de Criação de Perfil de Dados. A consulta poderia determinar se a porcentagem de valores nulos em uma coluna particular excede certo limite. Se a porcentagem exceder o limite, você pode interromper o pacote e resolver o problema na fonte de dados antes de continuar. Para obter mais informações, consulte Usando a tarefa Criação de Perfil de Dados no fluxo de trabalho de pacote.
|