Share via


Unir dados

Importante

O suporte para o Machine Learning Studio (clássico) terminará em 31 de agosto de 2024. É recomendável fazer a transição para o Azure Machine Learning até essa data.

A partir de 1º de dezembro de 2021, você não poderá criar recursos do Machine Learning Studio (clássico). Até 31 de agosto de 2024, você pode continuar usando os recursos existentes do Machine Learning Studio (clássico).

A documentação do ML Studio (clássico) está sendo desativada e pode não ser atualizada no futuro.

Junta dois conjuntos de dados

Categoria: Transformação/manipulação de dados

Observação

Aplica-se a: Machine Learning Studio (clássico) somente

Módulos semelhantes do tipo "arrastar e soltar" estão disponíveis no designer do Azure Machine Learning.

Visão geral do módulo

Este artigo descreve como usar o módulo Unir Dados no Machine Learning Studio (clássico) para mesclar dois conjuntos de dados usando uma operação de junção no estilo de banco de dados.

Para executar uma junção em dois conjuntos de dados, eles devem estar relacionados por uma única coluna de chave. Não há suporte para chaves compostas.

Como configurar dados de junção

  1. No Machine Learning Studio (clássico), adicione os conjuntos de dados que você deseja combinar e arraste o módulo Ingressar Dados em seu experimento.

    Você pode encontrar o módulo na categoria transformação de dados, em manipulação.

  2. Conecte os conjuntos de dados ao módulo Unir Dados.

    O módulo Unir Dados não dá suporte a uma junção externa direita, portanto, se você quiser garantir que as linhas de um determinado conjuntos de dados sejam incluídas na saída, esse conjuntos de dados deverá estar na entrada à esquerda.

  3. Clique em Iniciar seletor de coluna para escolher uma única coluna de chave para o conjuntos de dados na entrada à esquerda.

  4. Clique em Iniciar seletor de coluna para escolher uma única coluna de chave para o conjuntos de dados na entrada à direita.

  5. Selecione a opção Corresponder caso se você estiver unindo em uma coluna de texto e quiser garantir que a junção preserve a sensibilidade de caso.

    Por exemplo, se você selecionar essa opção, A1000 será considerado um valor de chave diferente de a1000.

    Se você desmarcar essa opção, a sensibilidade a caso não será imposta e A1000 será considerada a mesma que a1000.

  6. Use a lista suspensa Tipo de junção para especificar como os conjuntos de dados devem ser combinados. Tipos:

    • Junção Interna: uma junção interna é a operação de junção típica. Retorna as linhas combinadas somente quando os valores das colunas de chave correspondem.

    • Junção externa esquerda: uma junção externa esquerda retorna linhas unidas para todas as linhas da tabela esquerda. Quando uma linha na tabela esquerda não possui linhas correspondentes na tabela direita, a linha retornada contém valores ausentes para todas as colunas que vêm da tabela direita, a menos que você especifique um valor de substituição para valores ausentes.

    • Junção Externa Completa: uma junção externa completa retorna todas as linhas da tabela esquerda (table1) e da tabela à direita (table2).

      Para cada uma das linhas na tabela esquerda que não têm linhas correspondentes na tabela direita, os resultados da junção incluem uma linha que contém valores ausentes da tabela à direita.

      Para cada uma das linhas na tabela direita que não têm linhas correspondentes na tabela à esquerda, os resultados da junção incluem uma linha que contém valores ausentes para todas as colunas da tabela à esquerda.

    • Semijunção à esquerda: uma semijunção à esquerda retorna somente os valores da tabela esquerda quando os valores das colunas de chave correspondem.

  7. Para a opção , mantenha as columes de tecla à direita na tabela unidas:

    • Desmarque a opção para obter uma única coluna de chave nos resultados.
    • Deixe a opção selecionada para exibir as chaves de ambas as tabelas de entrada.
  8. Execute o experimento ou selecione o módulo Unir Dados e selecione Executar Selecionado para executar a junção.

  9. Para exibir os resultados, clique com o botão direito do mouse no módulo Unir Dados , selecione Conjuntos de dados de resultados e clique em Visualizar.

Exemplos

Você pode ver exemplos de como esse módulo é usado no Galeria de IA do Azure:

  • Detecção de câncer de câncer de câncer: Unir Dados é usado para combinar os casos de treinamento positivos com os casos de treinamento negativos após a proporção de casos ter sido ajustada.

  • Previsão de atraso de voo: neste exemplo, Os dados de junção são usados para reunir recursos úteis de conjuntos de dados externos.

  • Recomendação de filme: dois conjuntos de dados são ingressados para que possamos apresentar os títulos de filme recomendados em vez de uma ID de filme.

  • Previsão do desempenho dos alunos: neste exemplo, Unir Dados é usado para trazer novos recursos.

Observações técnicas

Esta seção descreve detalhes de implementação e respostas para algumas perguntas frequentes.

Restrições

  • O conjunto de dados combinado não pode ter duas colunas com o mesmo nome. Se os conjuntos de dados esquerdo e direito têm nomes de coluna duplicados, um sufixo numérico é anexado aos nomes de coluna do conjuntos de dados à direita para torná-los exclusivos.

    Por exemplo, se ambos os conjuntos de dados tivessem uma coluna chamada Mês, a coluna do conjuntos de dados esquerdo permaneceria como está e a coluna do conjuntos de dados à direita seria renomeada Mês (1).

  • O algoritmo que é usado para comparação dos valores principais é forçado por hash.

  • Cada coluna do conjunto de dados unidos preserva um tipo categórico, se a coluna correspondente do conjunto de dados de entrada for categórica.

  • Nas uniões externas esquerdas, se existir quaisquer valores ausentes, um nível categórico é criado no conjunto de dados esquerdo para valores ausentes. Isso é verdadeiro mesmo se não existem valores ausentes do conjunto de dados unidos (à direita).

Como posso ingressar uma tabela em uma chave composta?

Se você precisar ingressar em uma tabela que usa chaves compostas (ou seja, a chave primária depende de duas colunas independentes), use um módulo como o seguinte para concatenar o conteúdo das duas colunas de chave:

  • Executar Script R

    Por exemplo, use código como o follwing dentro do script R para concatenar a primeira e a segunda colunas do dataframe de entrada usando um hífen como separador. paste(inputdf$Col1,inputdf$Col2,sep="-")

  • Aplicar Transformação SQL

    O operador de concatenação no SQLite é ||.

Como posso unir tabelas que não têm uma chave?

Se o seu conjuntos de dados não tiver nenhuma coluna de chave, você ainda poderá combiná-la com outro conjuntos de dados, seja gerando uma chave ou usando o módulo Adicionar Colunas .

O módulo Adicionar Colunas se comporta como R e pode mesclar dois conjuntos de dados linha a linha, se os conjuntos de dados têm o mesmo número de linhas. Um erro será gerado se os conjuntos de dados são de um tamanho diferente.

Entradas esperadas

Nome Tipo Descrição
Dataset1 Tabela de Dados Primeiro conjunto de dados a unir
Dataset2 Tabela de Dados Segundo conjunto de dados a unir

Parâmetros do módulo

Nome Intervalo Type Padrão Descrição
Juntar colunas-chave para L Qualquer ColumnSelection Selecione as colunas principais de união para o primeiro conjunto de dados.
Juntar colunas-chave para R Qualquer ColumnSelection Selecione as colunas principais de união para o segundo conjunto de dados.
Diferenciar maiúsculas de minúsculas Qualquer Booliano verdadeiro Indique se uma comparação que diferencia maiúscula de minúscula é permitidas nas colunas principais.
Tipo de junção Lista Tipo Junção interna Escolha um tipo de união.
Mantenha as colunas-chave à direita na tabela associada Qualquer Booliano verdadeiro Indique se é para manter as colunas principais do segundo conjunto de dados no conjunto de dados unido.

Saída

Nome Tipo Descrição
Conjunto de dados de resultados Tabela de Dados Resultado da operação de junção

Exceções

Exceção Descrição
Erro 0001 Ocorre uma exceção se uma ou mais colunas especificadas do conjunto de dados não podem ser encontradas.
Erro 0003 Ocorrerá uma exceção se uma ou mais entradas forem nulas ou estiverem vazias.
Erro 0006 Ocorre uma exceção se o parâmetro é maior do que ou igual ao valor especificado.
Erro 0016 Ocorre uma exceção se os conjuntos de dados de entrada que são passados para o módulo devem ter tipos de coluna compatíveis, mas eles não têm.
Erro 0017 Ocorre uma exceção se uma ou mais colunas especificadas têm tipos que não são suportados pelo módulo atual.
Erro 0020 Ocorre uma exceção se o número de colunas em alguns dos conjuntos de dados que são passados para o módulo é muito pequeno.
Erro 0028 Ocorre uma exceção quando o conjunto da coluna tem nomes de coluna duplicados e não é permitido.
Erro 0011 Ocorre uma exceção se o argumento para o conjunto de colunas passado não se aplica a quaisquer colunas do conjunto de dados.
Erro 0027 Ocorrerá uma exceção quando dois objetos precisam ser do mesmo tamanho, mas eles não são.

para obter uma lista de erros específicos para módulos do Studio (clássicos), consulte Machine Learning códigos de erro.

para obter uma lista de exceções de api, consulte Machine Learning códigos de erro da api REST.

Confira também

Manipulação
Transformação de dados
Lista de Módulo A-Z