Valores de Clip

Este artigo descreve um componente do estruturador do Azure Machine Learning.

Utilize o componente Valores de Recorte para identificar e, opcionalmente, substituir valores de dados acima ou abaixo de um limiar especificado por uma média, uma constante ou outro valor de substituição.

Ligue o componente a um conjunto de dados que tenha os números que pretende recortar, escolha as colunas com as quais pretende trabalhar e, em seguida, defina um limiar ou intervalo de valores e um método de substituição. O componente pode produzir apenas os resultados ou os valores alterados anexados ao conjunto de dados original.

Como configurar Valores de Clip

Antes de começar, identifique as colunas que pretende recortar e o método a utilizar. Recomendamos que teste primeiro qualquer método de recorte num pequeno subconjunto de dados.

O componente aplica os mesmos critérios e método de substituição a todas as colunas que incluir na seleção. Por conseguinte, certifique-se de que exclui as colunas que não pretende alterar.

Se precisar de aplicar métodos de recorte ou critérios diferentes a algumas colunas, tem de utilizar uma nova instância de Valores de Clip para cada conjunto de colunas semelhantes.

  1. Adicione o componente Clip Values ao pipeline e ligue-o ao conjunto de dados que pretende modificar. Pode encontrar este componente em Transformação de Dados, na categoria Dimensionar e Reduzir .

  2. Em Lista de colunas, utilize o Seletor de Colunas para escolher as colunas às quais os Valores de Clip serão aplicados .

  3. Em Conjunto de limiares, escolha uma das seguintes opções na lista pendente. Estas opções determinam como definir os limites superiores e inferiores para valores aceitáveis vs. valores que têm de ser cortados.

    • ClipPeaks: quando recorta valores por picos, especifica apenas um limite superior. Os valores maiores do que esse valor de limite são substituídos.

    • ClipSubpeaks: quando recorta valores por subpeaks, especifica apenas um limite inferior. Os valores inferiores a esse valor de limite são substituídos.

    • ClipPeaksAndSubpeaks: quando recorta valores por picos e subpeaks, pode especificar os limites superior e inferior. Os valores que estão fora desse intervalo são substituídos. Os valores que correspondem aos valores de limite não são alterados.

  4. Consoante a sua seleção no passo anterior, pode definir os seguintes valores de limiar:

    • Limiar inferior: apresentado apenas se escolher ClipSubPeaks
    • Limiar superior: apresentado apenas se escolher ClipPeaks
    • Limiar: apresentado apenas se escolher ClipPeaksAndSubPeaks

    Para cada tipo de limiar, escolha Constante ou Percentil.

  5. Se selecionar Constante, escreva o valor máximo ou mínimo na caixa de texto. Por exemplo, suponha que sabe que o valor 999 foi utilizado como um valor de marcador de posição. Pode escolher Constante para o limiar superior e escrever 999 em Valor constante para limiar superior.

  6. Se escolher Percentil, restrinja os valores das colunas a um intervalo de percentil.

    Por exemplo, suponha que pretende manter apenas os valores no intervalo de percentil 10-80 e substituir todos os outros. Selecione Percentil e, em seguida, escreva 10 para Valor de percentil para limiar mais baixo e escreva 80 para Valor de percentil para limiar superior.

    Veja a secção em percentis para obter alguns exemplos de como utilizar intervalos de percentil.

  7. Definir um valor de substituição.

    Os números que correspondem exatamente aos limites especificados são considerados como estando dentro do intervalo de valores permitido e, portanto, não são substituídos. Todos os números que estejam fora do intervalo especificado são substituídos pelo valor de substituição.

    • Valor de substituição por picos: define o valor a substituir por todos os valores de coluna que são maiores do que o limiar especificado.
    • Valor de substituição para subpeaks: define o valor a utilizar como substituto de todos os valores de coluna que são inferiores ao limiar especificado.
    • Se utilizar a opção ClipPeaksAndSubpeaks , pode especificar valores de substituição separados para os valores recortados superiores e inferiores.

    São suportados os seguintes valores de substituição:

    • Limiar: substitui os valores recortados pelo valor de limiar especificado.

    • Média: substitui os valores recortados pela média dos valores da coluna. A média é calculada antes de os valores serem cortados.

    • Mediana: substitui os valores recortados pela mediana dos valores da coluna. A mediana é calculada antes de os valores serem recortados.

    • Em falta. Substitui os valores recortados pelo valor em falta (vazio).

  8. Adicionar colunas de indicador: selecione esta opção se quiser gerar uma nova coluna que lhe diga se a operação de recorte especificada foi ou não aplicada aos dados nessa linha. Esta opção é útil quando está a testar um novo conjunto de valores de recorte e substituição.

  9. Substituir sinalizador: indique como pretende que os novos valores sejam gerados. Por predefinição, os Valores de Clip constroem uma nova coluna com os valores de pico recortados ao limiar pretendido. Os novos valores substituem a coluna original.

    Para manter a coluna original e adicionar uma nova coluna com os valores recortados, desselecione esta opção.

  10. Submeta o pipeline.

    Clique com o botão direito do rato no componente Valores de Recorte e selecione Visualizar ou selecione o componente e mude para o separador Saídas no painel direito, clique no ícone de histograma nas saídas de Porta, para rever os valores e certificar-se de que a operação de recorte corresponde às suas expectativas.

Exemplos de recorte com percentis

Para compreender como funciona o recorte por percentis, considere um conjunto de dados com 10 linhas, que têm uma instância cada um dos valores 1-10.

  • Se estiver a utilizar o percentil como limiar superior, no valor do percentil 90, 90% de todos os valores no conjunto de dados têm de ser inferiores a esse valor.

  • Se estiver a utilizar o percentil como limiar inferior, no valor do percentil 10, 10% de todos os valores no conjunto de dados têm de ser inferiores a esse valor.

  1. Em Conjunto de limiares, selecione ClipPeaksAndSubPeaks.

  2. Em Limiar superior, selecione Percentil e, para Número de percentil, escreva 90.

  3. Em Valor de substituição superior, selecione Valor em Falta.

  4. Em Limiar inferior, selecione Percentil e, para Número de percentil, escreva 10.

  5. Em Valor de substituição inferior, selecione Valor em Falta.

  6. Desselecione a opção Substituir sinalizador e selecione a opção Adicionar coluna de indicador.

Agora, experimente o mesmo pipeline com 60 como o limiar de percentil superior e 30 como o limiar de percentil inferior e utilize o valor de limiar como o valor de substituição. A tabela seguinte compara estes dois resultados:

  1. Substituir por em falta; Limiar superior = 90; Limiar inferior = 20

  2. Substituir por limiar; Percentil superior = 60; Percentil inferior = 40

Dados originais Substituir por em falta Substituir por limiar
1

2

3

4

5

6

7

8

9

10
TRUE

TRUE

3, FALSO

4, FALSO

5, FALSO

6, FALSO

7, FALSO

8, FALSO

9, FALSO

TRUE
4, VERDADEIRO

4, VERDADEIRO

4, VERDADEIRO

4, VERDADEIRO

5, FALSO

6, FALSO

7, VERDADEIRO

7, VERDADEIRO

7, VERDADEIRO

7, VERDADEIRO

Passos seguintes

Veja o conjunto de componentes disponíveis para o Azure Machine Learning.