Limpar componente de Dados em Falta

Artigo
06/01/2023

Este artigo descreve um componente no estruturador do Azure Machine Learning.

Utilize este componente para remover, substituir ou inferir valores em falta.

Os cientistas de dados verificam frequentemente os dados quanto a valores em falta e, em seguida, executam várias operações para corrigir os dados ou inserir novos valores. O objetivo dessas operações de limpeza é evitar problemas causados por dados em falta que podem surgir ao preparar um modelo.

Este componente suporta vários tipos de operações para "limpar" valores em falta, incluindo:

Substituir valores em falta por um marcador de posição, média ou outro valor
Remover completamente linhas e colunas com valores em falta
Inferir valores com base em métodos estatísticos

A utilização deste componente não altera o conjunto de dados de origem. Em vez disso, cria um novo conjunto de dados na área de trabalho que pode utilizar no fluxo de trabalho subsequente. Também pode guardar o novo conjunto de dados limpo para reutilização.

Este componente também produz uma definição da transformação utilizada para limpar os valores em falta. Pode reutilizar esta transformação noutros conjuntos de dados que tenham o mesmo esquema, utilizando o componente Aplicar Transformação .

Como utilizar Dados Em Falta Limpos

Este componente permite-lhe definir uma operação de limpeza. Também pode guardar a operação de limpeza para que possa aplicá-la mais tarde a novos dados. Veja as secções seguintes sobre como criar e guardar um processo de limpeza:

Para substituir valores em falta
Para aplicar uma transformação de limpeza a novos dados

Importante

O método de limpeza que utiliza para processar valores em falta pode afetar significativamente os resultados. Recomendamos que experimente métodos diferentes. Considere a justificação para a utilização de um determinado método e a qualidade dos resultados.

Substituir valores em falta

Sempre que aplicar o componente Limpar Dados em Falta a um conjunto de dados, a mesma operação de limpeza é aplicada a todas as colunas que selecionar. Por conseguinte, se precisar de limpar colunas diferentes com métodos diferentes, utilize instâncias separadas do componente.

Adicione o componente Limpar Dados em Falta ao pipeline e ligue o conjunto de dados que tem valores em falta.
Para que as Colunas sejam limpas, selecione as colunas que contêm os valores em falta que pretende alterar. Pode escolher múltiplas colunas, mas tem de utilizar o mesmo método de substituição em todas as colunas selecionadas. Por conseguinte, normalmente tem de limpar colunas de cadeias de carateres e colunas numéricas separadamente.

Por exemplo, para verificar se existem valores em falta em todas as colunas numéricas:
1. Selecione o componente Limpar Dados em Falta e clique na coluna Editar no painel direito do componente.
2. Em Incluir, selecione Tipos de coluna na lista pendente e, em seguida, selecione Numérico.
Qualquer método de limpeza ou substituição que escolher tem de ser aplicável a todas as colunas na seleção. Se os dados em qualquer coluna forem incompatíveis com a operação especificada, o componente devolve um erro e para o pipeline.
Para Rácio mínimo de valores em falta, especifique o número mínimo de valores em falta necessários para que a operação seja executada.

Utilize esta opção em combinação com a Proporção máxima de valores em falta para definir as condições em que é executada uma operação de limpeza no conjunto de dados. Se existirem demasiadas ou poucas linhas com valores em falta, a operação não pode ser executada.

O número introduzido representa a proporção de valores em falta para todos os valores na coluna. Por predefinição, a propriedade Proporção mínima de valores em falta está definida como 0. Isto significa que os valores em falta são limpos mesmo que exista apenas um valor em falta.

Aviso

Esta condição tem de ser cumprida por cada coluna para que a operação especificada seja aplicada. Por exemplo, suponha que selecionou três colunas e, em seguida, defina a proporção mínima de valores em falta para 0,2 (20%), mas apenas uma coluna tem, na verdade, 20% de valores em falta. Neste caso, a operação de limpeza aplicar-se-ia apenas à coluna com mais de 20% de valores em falta. Por conseguinte, as outras colunas não seriam inalteradas.

Se tiver dúvidas sobre se os valores em falta foram alterados, selecione a opção Gerar coluna de indicador de valor em falta. Uma coluna é anexada ao conjunto de dados para indicar se cada coluna cumpriu ou não os critérios especificados para os intervalos mínimos e máximos.
Para Rácio máximo de valores em falta, especifique o número máximo de valores em falta que podem estar presentes para a operação ser executada.

Por exemplo, poderá querer efetuar a substituição de valor em falta apenas se 30% ou menos das linhas contiverem valores em falta, mas deixar os valores tal como estão se mais de 30% das linhas tiverem valores em falta.

Define o número como a proporção de valores em falta para todos os valores na coluna. Por predefinição, a proporção máximo de valores em falta está definida como 1. Isto significa que os valores em falta são limpos mesmo que 100% dos valores na coluna estejam em falta.
Para Modo de Limpeza, selecione uma das seguintes opções para substituir ou remover valores em falta:
- Valor de substituição personalizado: utilize esta opção para especificar um valor de marcador de posição (como um 0 ou 0) que se aplica a todos os valores em falta. O valor que especificar como substituição tem de ser compatível com o tipo de dados da coluna.
- Substituir por média: calcula a média da coluna e utiliza a média como valor de substituição para cada valor em falta na coluna.
  
  Aplica-se apenas a colunas com tipos de dados Inteiro, Duplo ou Booleano.
- Substituir por mediana: calcula o valor mediano da coluna e utiliza o valor mediano como substituição de qualquer valor em falta na coluna.
  
  Aplica-se apenas a colunas com tipos de dados Número Inteiro ou Duplo.
- Substituir pelo modo: calcula o modo da coluna e utiliza o modo como o valor de substituição para cada valor em falta na coluna.
  
  Aplica-se a colunas com tipos de dados Inteiro, Duplo, Booleano ou Categórico.
- Remover linha inteira: remove completamente qualquer linha no conjunto de dados que tenha um ou mais valores em falta. Isto é útil se o valor em falta puder ser considerado aleatoriamente em falta.
- Remover coluna inteira: remove completamente qualquer coluna no conjunto de dados que tenha um ou mais valores em falta.
A opção Valor de substituição está disponível se tiver selecionado a opção Valor de substituição personalizado. Escreva um novo valor a utilizar como valor de substituição para todos os valores em falta na coluna.

Tenha em atenção que só pode utilizar esta opção em colunas que tenham o Número Inteiro, Duplo, Booleano ou Cadeia.
Gerar coluna de indicador de valor em falta: selecione esta opção se quiser apresentar alguma indicação de se os valores na coluna cumpriram os critérios de limpeza de valores em falta. Esta opção é particularmente útil quando está a configurar uma nova operação de limpeza e quer certificar-se de que funciona conforme concebido.
Submeta o pipeline.

Resultados

O componente devolve duas saídas:

Conjunto de dados limpo: um conjunto de dados composto pelas colunas selecionadas, com valores em falta processados conforme especificado, juntamente com uma coluna de indicador, se tiver selecionado essa opção.

As colunas não selecionadas para limpeza também são "transmitidas".
Transformação de limpeza: uma transformação de dados utilizada para limpeza, que pode ser guardada na sua área de trabalho e aplicada a novos dados mais tarde.

Aplicar uma operação de limpeza guardada a novos dados

Se precisar de repetir operações de limpeza com frequência, recomendamos que guarde a sua receita para limpeza de dados como uma transformação, para reutilizar com o mesmo conjunto de dados. Guardar uma transformação de limpeza é particularmente útil se tiver de voltar a importar e, em seguida, limpar dados que têm o mesmo esquema.

Adicione o componente Aplicar Transformação ao pipeline.
Adicione o conjunto de dados que pretende limpar e ligue o conjunto de dados à porta de entrada à direita.
Expanda o grupo Transformações no painel esquerdo do estruturador. Localize a transformação guardada e arraste-a para o pipeline.
Ligue a transformação guardada à porta de entrada esquerda de Aplicar Transformação.

Quando aplica uma transformação guardada, não pode selecionar as colunas às quais a transformação é aplicada. Isto acontece porque a transformação já foi definida e aplica-se automaticamente às colunas especificadas na operação original.

No entanto, suponha que criou uma transformação num subconjunto de colunas numéricas. Pode aplicar esta transformação a um conjunto de dados de tipos de colunas mistas sem gerar um erro, porque os valores em falta são alterados apenas nas colunas numéricas correspondentes.
Submeta o pipeline.

Passos seguintes

Veja o conjunto de componentes disponíveis para o Azure Machine Learning.