Unir dados

Este artigo descreve como usar o componente Unir Dados no designer do Azure Machine Learning para mesclar dois conjuntos de dados usando uma operação de junção no estilo de banco de dados.

Como configurar dados de junção

Para executar uma junção em dois conjuntos de dados, eles devem estar relacionados por uma coluna de chave. Também há suporte para chaves compostas usando várias colunas.

  1. Adicione os conjuntos de dados que você deseja combinar e arraste o componente Ingressar Dados em seu pipeline.

    Você pode encontrar o componente na categoria Transformação de Dados, em Manipulação.

  2. Conecte os conjuntos de dados ao componente Unir Dados.

  3. Selecione Iniciar seletor de coluna para escolher as colunas de chave. Lembre-se de escolher colunas para as entradas à esquerda e à direita.

    Para uma única chave:

    Selecione uma única coluna de chave para ambas as entradas.

    Para uma chave composta:

    Selecione todas as colunas de chave da entrada esquerda e a entrada direita na mesma ordem. O componente Unir Dados unirá as tabelas quando todas as colunas de chave corresponderem. Marque a opção Permitir duplicatas e preservar a ordem da coluna na seleção se a ordem da coluna não for igual à tabela original.

    column-selector

  4. Selecione a opção Corresponder caso se você quiser preservar a sensibilidade de caso em uma junção de coluna de texto.

  5. Use a lista suspensa Tipo de junção para especificar como os conjuntos de dados devem ser combinados.

    • Junção Interna: uma junção interna é a operação de junção mais comum. Retorna as linhas combinadas somente quando os valores das colunas de chave correspondem.

    • Junção externa esquerda: uma junção externa esquerda retorna linhas unidas para todas as linhas da tabela esquerda. Quando uma linha na tabela esquerda não tem linhas correspondentes na tabela direita, a linha retornada contém valores ausentes para todas as colunas que vêm da tabela à direita. Você também pode especificar um valor de substituição para valores ausentes.

    • Junção Externa Completa: uma junção externa completa retorna todas as linhas da tabela esquerda (table1) e da tabela à direita (table2).

      Para cada uma das linhas em uma das tabelas que não têm linhas correspondentes no outro, o resultado inclui uma linha que contém valores ausentes.

    • Semijunção à esquerda: uma semijunção à esquerda retorna somente os valores da tabela esquerda quando os valores das colunas de chave correspondem.

  6. Para a opção, Mantenha as colunas de chave direita na tabela unida:

    • Selecione esta opção para exibir as chaves de ambas as tabelas de entrada.
    • Anular seleção para retornar apenas as colunas de chave da entrada à esquerda.
  7. Envie o pipeline.

  8. Para exibir os resultados, clique com o botão direito do mouse nos dados de junção e selecione Visualizar.

Próximas etapas

Confira o conjunto de componentes disponíveis no Azure Machine Learning.