Componente Remover Linhas Duplicadas

Este artigo descreve o componente no Azure Machine Learning Designer.

Use esse componente para remover possíveis duplicatas de um conjunto de dados.

Por exemplo, suponha que os dados sejam semelhantes aos dados a seguir e representem vários registros para pacientes.

PatientID Iniciais Sexo Idade Admitido em
1 F.M. M 53 Jan
2 F.A.M. M 53 Jan
3 F.A.M. M 24 Jan
3 F.M. M 24 Fev
4 F.M. M 23 Fev
F.M. M 23
5 F.A.M. M 53
6 F.A.M. M NaN
7 F.A.M. M NaN

Esse exemplo tem várias colunas contendo dados potencialmente duplicados. Saber se eles são realmente duplicados vai depender do seu conhecimento dos dados.

  • Por exemplo, você pode saber que muitos pacientes têm o mesmo nome. Você não eliminaria duplicatas usando colunas de nome, apenas a coluna de ID. Assim, somente as linhas com valores de ID duplicados são filtradas, independentemente de os pacientes terem o mesmo nome ou não.

  • Como alternativa, você pode optar por permitir duplicatas no campo da ID e usar alguma outra combinação de arquivos para localizar registros exclusivos, como nome, sobrenome, idade e sexo.

Para definir os critérios para saber se uma linha está duplicada ou não, especifique uma coluna ou um conjunto de colunas para usar como chaves. Duas linhas são consideradas duplicatas somente quando os valores em todas as colunas de chave são iguais. Se alguma linha tiver um valor ausente nas chaves, elas não serão consideradas linhas duplicadas. Por exemplo, se Sexo e Idade forem definidos como Chaves na tabela acima, as linhas 6 e 7 não serão linhas duplicadas porque têm valor ausente para a Idade.

Quando você executa o componente, ele cria um conjunto de dados candidato e retorna um conjunto de linhas que não tem duplicatas no conjunto de colunas especificado.

Importante

O conjunto de dados de origem não é alterado. O componente cria um conjunto de dados filtrado para excluir as duplicatas de acordo com os critérios especificados.

Como usar o módulo Remover Linhas Duplicadas

  1. Adicione o componente ao pipeline. Você pode encontrar o componente Remover Linhas Duplicadas em Transformação de Dados, Manipulação.

  2. Conecte o conjunto de dados no qual você quer verificar as linhas duplicadas.

  3. No painel Propriedades, em Expressão de filtro de seleção de coluna de chave, clique em Inicializar seletor de coluna, para escolher as colunas a serem usadas na identificação de duplicatas.

    Nesse contexto, a Chave não significa um identificador exclusivo. Todas as colunas que você seleciona usando o Seletor de Coluna são designadas como colunas de chave. Todas as colunas não selecionadas são consideradas colunas não chave. A combinação de colunas que você seleciona como chaves determina a exclusividade dos registros. (Imagine-a como uma instrução SQL que usa várias junções de igualdade.)

    Exemplos:

    • "Quero garantir que as IDs sejam exclusivas": escolha apenas a coluna de ID.
    • "Quero garantir que a combinação de nome, sobrenome e ID seja exclusiva": selecione as três colunas.
  4. Use a caixa de seleção Reter primeira linha duplicada para indicar qual linha retornar quando duplicatas forem encontradas:

    • Se selecionada, a primeira linha será retornada e as outras vão ser descartadas.
    • Se você não selecionar essa opção, a última linha duplicada será mantida nos resultados e outras serão descartadas.
  5. Envie o pipeline.

  6. Para examinar os resultados, clique com o botão direito do mouse no componente e escolha Visualizar.

Dica

Se os resultados forem difíceis de entender ou se você quiser excluir algumas colunas da consideração, remova as colunas usando o componente Selecionar Colunas no Conjunto de Dados.

Próximas etapas

Confira o conjunto de componentes disponíveis no Azure Machine Learning.