Remover componente Linhas Duplicadas

Este artigo descreve um componente no estruturador do Azure Machine Learning.

Utilize este componente para remover potenciais duplicados de um conjunto de dados.

Por exemplo, suponha que os seus dados têm um aspeto semelhante ao seguinte e representa múltiplos registos para pacientes.

ID do Paciente Iniciais Sexo Idade Admitido
1 F.M. M 53 Jan
2 F.A.M. M 53 Jan
3 F.A.M. M 24 Jan
3 F.M. M 24 Feb
4 F.M. M 23 Feb
F.M. M 23
5 F.A.M. M 53
6 F.A.M. M NaN
7 F.A.M. M NaN

Claramente, este exemplo tem múltiplas colunas com dados potencialmente duplicados. Se são realmente duplicados depende do seu conhecimento dos dados.

  • Por exemplo, poderá saber que muitos pacientes têm o mesmo nome. Não eliminaria duplicados com quaisquer colunas de nome, apenas a coluna ID . Dessa forma, apenas as linhas com valores de ID duplicados são filtradas, independentemente de os pacientes terem ou não o mesmo nome.

  • Em alternativa, pode decidir permitir duplicados no campo ID e utilizar outra combinação de ficheiros para localizar registos exclusivos, como o nome próprio, apelido, idade e género.

Para definir os critérios para se uma linha é duplicada ou não, especifique uma única coluna ou um conjunto de colunas a utilizar como chaves. Duas linhas são consideradas duplicadas apenas quando os valores em todas as colunas de chave são iguais. Se alguma linha tiver um valor em falta para chaves, não serão consideradas linhas duplicadas. Por exemplo, se Género e Idade estiverem definidos como Chaves na tabela acima, as linhas 6 e 7 não são linhas duplicadas, dado que têm um valor em falta em Idade.

Quando executa o componente, este cria um conjunto de dados candidato e devolve um conjunto de linhas que não têm duplicados no conjunto de colunas que especificou.

Importante

O conjunto de dados de origem não é alterado; este componente cria um novo conjunto de dados que é filtrado para excluir duplicados, com base nos critérios que especificar.

Como utilizar Remover Linhas Duplicadas

  1. Adicione o componente ao pipeline. Pode encontrar o componente Remover Linhas Duplicadas em Transformação de Dados, Manipulação.

  2. Ligue o conjunto de dados que pretende verificar se existem linhas duplicadas.

  3. No painel Propriedades , em Expressão do filtro de seleção de colunas de chaves, clique em Iniciar seletor de colunas para escolher as colunas a utilizar na identificação de duplicados.

    Neste contexto, Chave não significa um identificador exclusivo. Todas as colunas que selecionar com o Seletor de Colunas são designadas como colunas-chave. Todas as colunas não selecionadas são consideradas colunas não chave. A combinação de colunas que seleciona como chaves determina a exclusividade dos registos. (Pense nisso como uma instrução SQL que utiliza múltiplas associações de igualdade.)

    Exemplos:

    • "Quero garantir que os IDs são exclusivos": selecione apenas a coluna ID.
    • "Quero garantir que a combinação de nome próprio, apelido e ID é exclusiva": selecione as três colunas.
  4. Utilize a caixa de verificação Reter primeira linha duplicada para indicar a linha a devolver quando forem encontrados duplicados:

    • Se selecionada, a primeira linha é devolvida e outras são eliminadas.
    • Se desmarcar esta opção, a última linha duplicada é mantida nos resultados e outras são eliminadas.
  5. Submeta o pipeline.

  6. Para rever os resultados, clique com o botão direito do rato no componente e selecione Visualizar.

Dica

Se os resultados forem difíceis de compreender ou se quiser excluir algumas colunas da consideração, pode remover colunas com o componente Selecionar Colunas no Conjunto de Dados .

Passos seguintes

Veja o conjunto de componentes disponíveis para o Azure Machine Learning.