Compartilhar via


Recortar valores

Importante

O suporte para o Machine Learning Studio (clássico) terminará em 31 de agosto de 2024. É recomendável fazer a transição para o Azure Machine Learning até essa data.

A partir de 1º de dezembro de 2021, você não poderá criar recursos do Machine Learning Studio (clássico). Até 31 de agosto de 2024, você pode continuar usando os recursos existentes do Machine Learning Studio (clássico).

A documentação do ML Studio (clássico) está sendo desativada e pode não ser atualizada no futuro.

Detecta valores atípicos e recorta ou substitui valores

Categoria: Transformação/Escala e Redução de Dados

Observação

Aplica-se a: Machine Learning Studio (clássico) somente

Módulos semelhantes do tipo "arrastar e soltar" estão disponíveis no designer do Azure Machine Learning.

Visão geral do módulo

Este artigo descreve como usar o módulo Valores de Clipe no Machine Learning Studio (clássico) para identificar e, opcionalmente, substituir valores de dados acima ou abaixo de um limite especificado. Isso é útil quando você deseja remover as saídas ou substituí-las por uma média, uma constante ou outro valor substituto.

Você conecta o módulo a um conjunto de dados que tem os números que deseja recortar, escolhe as colunas com as quais deseja trabalhar e define um limite ou intervalo de valores e um método de substituição. O módulo pode gerar apenas os resultados ou os valores alterados anexados ao conjunto de banco de um original.

Como configurar Recortar valores

Antes de começar, identifique as colunas que você deseja recortar e o método a ser usado. Recomendamos que você teste qualquer método de recorte em um pequeno subconjunto de dados primeiro.

O módulo aplica os mesmos critérios e método de substituição a todas as colunas que você incluir na seleção. Portanto, exclua as colunas que você não deseja alterar.

Se você precisar aplicar métodos de recorte ou diferentes critérios a algumas colunas, deverá usar uma nova instância de Recortar Valores para cada conjunto de colunas semelhantes.

  1. Adicione o módulo Valores de Clipe ao seu experimento e conecte-o ao conjuntos de dados que você deseja modificar. Encontre esse módulo em Transformação de Dados, na categoria Dimensionar e reduzir.

  2. Em Lista de colunas, use o seletor de coluna para escolher as colunas às quais Recortar valores será aplicado.

  3. Para o Conjunto de limites, escolha uma das opções a seguir na lista suspensa. Essas opções determinam como você define os limites superior e inferior para valores aceitáveis versus valores que devem ser recortados.

    • ClipPeaks: quando você corta valores por picos, especifique apenas um limite superior. Valores maiores que esse valor de limite são substituídos ou removidos.

    • ClipSubpeaks: ao cortar valores por sub-picos, você especifica apenas um limite inferior. Valores menores que esse valor de limite são substituídos ou removidos.

    • ClipPeaksAndSubpeaks: ao cortar valores por picos e sub-picos, você pode especificar os limites superior e inferior. Os valores que estão fora desse intervalo são substituídos ou removidos. Os valores que correspondem aos valores de limite não são alterados.

  4. Dependendo da sua seleção na etapa anterior, você pode definir os seguintes valores de limite:

    • Limite inferior: exibido somente se você escolher ClipSubPeaks
    • Limite superior: exibido somente se você escolher ClipPeaks
    • Limite: exibido somente se você escolher ClipPeaksAndSubPeaks

    Para cada tipo de limite, escolha Constante ou Percentil.

  5. Se você selecionar Constante, digite o valor máximo ou mínimo na caixa de texto. Por exemplo, suponha que você saiba que o valor 999 tenha sido usado como um valor de espaço reservado. Você pode escolher Constante para o limite superior e digitar 999 em Valor constante do limite superior.

  6. Se você escolher Percentil, restringirá os valores de coluna a um intervalo percentual.

    Por exemplo, suponha que você queira manter apenas os valores no intervalo percentual de 10 a 80 e substituir todos os outros. Você escolhe Percentil e, em seguida, digite 10 para Valor de percentil de limite inferior e digite 80 para Valor de percentil de limite superior.

    Confira a seção sobre percentis para ver alguns exemplos de como usar intervalos de percentil.

  7. Defina um valor de substituição.

    Números que exatamente corresponderem aos limites especificados são considerados dentro do intervalo permitido de valores e, portanto, não são substituídos nem removidos. Todos os números que estão fora do intervalo especificado são substituídos pelo valor de substituição.

    • Valor substituto para picos: define o valor a ser substituído para todos os valores de coluna maiores que o limite especificado.
    • Valor substituto para subpicos: define o valor a ser usado como substituto para todos os valores de coluna menores que o limite especificado.
    • Se você usar a opção ClipPeaksAndSubpeaks, poderá especificar valores de substituição separados para os valores recortados superior e inferior.

    Os seguintes valores de substituição têm suporte:

    • Limite: substitui valores recortados pelo valor de limite especificado.

    • Média: substitui os valores cortados pela média dos valores de coluna. A média é calculada antes que os valores sejam recortados.

    • Média: substitui os valores cortados pela média dos valores de coluna. A média é calculada antes que os valores sejam recortados.

    • Ausente. Substitui os valores recortados pelo valor ausente (vazio).

  8. Adicionar colunas de indicador: selecione esta opção se desejar gerar uma nova coluna que informa se a operação de recorte especificada foi aplicada aos dados nessa linha. Essa opção é particularmente útil quando você está testando um novo conjunto de valores de recorte e substituição.

  9. Substituir sinalizador: indica como você deseja que os novos valores sejam gerados. Por padrão, Recortar valores constrói uma nova coluna com os valores de pico recortados para o limite desejado. Novos valores substituem a coluna original.

    Para manter a coluna original e adicionar uma nova coluna com os valores recortados, desmarque essa opção.

  10. Execute o experimento.

    Clique com o botão direito do mouse na saída do módulo Valores de Clipe e selecione Visualizar para revisar os valores e garantir que a operação de recorte atendeu às suas expectativas.

Exemplos

Para ver como esse módulo é usado em experimentos de aprendizado de máquina, consulte o Galeria de IA do Azure:

  • Outliers de incêndio de floresta: este exemplo da coutilização EdX na ciência de dados demonstra métodos de recorte usando o conjuntos de dados de exemplo De incêndios florestais.

Recorte usando percentis

Para entender como funciona o recorte de percentuais, considere um conjunto de dados com 10 linhas, que tenham uma instância cada dos valores de 1 a 10.

  • Se você estiver usando o percentil como o limite superior, o valor para o 90º percentil, 90 por cento de todos os valores no conjunto de dados deverá ser menor que esse valor.

  • Se você estiver usando o percentil como o limite inferior, o valor para o 10º percentil, 10 por cento de todos os valores no conjunto de dados deverá ser menor que esse valor.

  1. Para Conjunto de limites, escolha ClipPeaksAndSubPeaks.

  2. Para Limite superior, escolha Percentil e para Número de percentil, digite 90.

  3. Para Valor superior de substituição, escolha Valor Ausente.

  4. Para Limite inferior, escolha Percentil e para Número de percentil, digite 10.

  5. Para Valor inferior de substituição, escolha Valor Ausente.

  6. Desmarque a opção Sinalizador de substituição e selecione a opção Adicionar coluna indicadora.

Agora tente a mesma experiência usando 60 como o limite superior de percentil e 30 como o limite inferior de percentil e usar o valor de limite como o valor de substituição. A tabela a seguir compara esses dois resultados:

  1. Substituir por ausente; Limite superior = 90; Limite inferior = 10

  2. Substituir por limite; Percentil superior = 60; Percentil inferior = 30

Dados originais Substituir por ausente Substituir por limite
1

2

3

4

5

6

7

8

9

10
TRUE

TRUE

3, FALSO

4, FALSO

5, FALSO

6, FALSO

7, FALSO

8, FALSO

9, FALSO

TRUE
4, VERDADEIRO

4, VERDADEIRO

4, VERDADEIRO

4, VERDADEIRO

5, FALSO

6, FALSO

7, VERDADEIRO

7, VERDADEIRO

7, VERDADEIRO

7, VERDADEIRO

Observações técnicas

  • Você pode usar Valores de Clipe somente em colunas que contêm números ou valores de data/hora.

  • Se você incluir colunas que tenham texto ou dados categóricos, as colunas serão ignoradas.

  • Valores ausentes são ignorados quando o valor médio ou mediano for calculado para uma coluna.

  • Valores do Clipe não oferece suporte a dados ordinais.

  • Valores ausentes não são alterados quando eles são propagados para o conjunto de dados de saída. A coluna que indica valores recortados sempre contém FALSE para valores ausentes.

Entradas esperadas

Nome Tipo Descrição
Dataset Tabela de Dados Conjunto de dados de entrada

Parâmetros do módulo

Nome Intervalo Type Padrão Descrição
Adicionar colunas de indicador TRUE/FALSE Boolean FALSE Se o indicador para recorte de um valor deve ser feito
Valor constante para o limite inferior any Float -1 Valor abaixo do qual os subpeaks serão recortados
Valor constante para o limite superior any Float 1 Valor acima do qual os picos serão recortados
Valor constante do limite inferior any Float -1 Valor abaixo do qual os subpeaks são recortados
Valor constante do limite superior >=1 Float 1 Valor acima do qual os picos são recortados
Lista de colunas ColumnSelection Lista de colunas a ser reilhada
Valor inferior de substituição Limite

Média

Mediana

Ausente
SubstituteValues Limite O valor usado para subpeaks de recorte
Limite inferior Constante

Percentil
Modo de limite Constante Valor abaixo do qual os subpeaks serão recortados no modo
Sinalizador de substituição TRUE/FALSE Boolean TRUE Se colunas de dados recortados devem substituir colunas de dados de entrada
Número de percentual para o limite inferior [1;99] Integer 1 Número de percentil abaixo do qual os subpeaks serão recortados
Número de percentual para o limite superior [1;99] Inteiro 99 Número de percentil acima do qual os picos serão recortados
Número de percentual do limite inferior [1; 99] Integer 1 Número percentual abaixo do qual os subpicos são recortados
Número de percentual do limite superior [1; 99] Inteiro 99 Número percentual acima do qual os picos são recortados
Conjunto de limites ClipPeaks

ClipSubPeaks

ClipPeaksAndSubPeaks
Conjunto de limites ClipPeaks Especifica o tipo de limite a ser usado
Valor de substituição para picos Limite

Média

Mediana

Ausente
SubstituteValues Limite O valor usado durante picos de corte
Valor de substituição para subpeaks Limite

Média

Mediana

Ausente
SubstituteValues Limite O valor usado durante os subpicos de corte
Limite Constante

Percentil
Modo de limite Constante Valor acima e abaixo do qual os picos serão do modo recortado
Valor superior de substituição Limite

Média

Mediana

Ausente
Limite Limite O valor usado para picos de corte
Limite superior Constante

Percentil
Modo de limite Constante Valor acima do qual os picos serão o modo recortado

Saídas

Nome Tipo Descrição
Conjunto de dados de resultados Tabela de Dados Conjunto de dados com colunas recortadas

Exceções

Exceção Descrição
Erro 0011 Ocorrerá uma exceção se o argumento de conjunto de colunas passado não se aplicar a nenhuma das colunas do conjunto de dados.
Erro 0017 Ocorrerá uma exceção se uma ou mais das colunas especificadas tiver um tipo sem suporte por módulo atual.

para obter uma lista de erros específicos para módulos do Studio (clássicos), consulte Machine Learning códigos de erro.

para obter uma lista de exceções de api, consulte Machine Learning códigos de erro da api REST.

Confira também

Dimensionar e reduzir
Lista de Módulo A-Z