Compartir a través de


Recorte de valores

Importante

El soporte técnico de Machine Learning Studio (clásico) finalizará el 31 de agosto de 2024. Se recomienda realizar la transición a Azure Machine Learning antes de esa fecha.

A partir del 1 de diciembre de 2021 no se podrán crear recursos de Machine Learning Studio (clásico). Hasta el 31 de agosto de 2024, puede seguir usando los recursos de Machine Learning Studio (clásico) existentes.

La documentación de ML Studio (clásico) se está retirando y es posible que no se actualice en el futuro.

Detecta valores atípicos y recorta o reemplaza sus valores

Categoría: Transformación de datos/ Escala y reducción

Nota:

Solo se aplica a: Machine Learning Studio (clásico)

Hay módulos para arrastrar y colocar similares en el diseñador de Azure Machine Learning.

Información general sobre el módulo

En este artículo se describe cómo usar el módulo Clip Values de Machine Learning Studio (clásico) para identificar y reemplazar opcionalmente valores de datos que están por encima o por debajo de un umbral especificado. Esto resulta útil si desea quitar valores atípicos o reemplazarlos por una media, una constante u otro valor de sustitución.

Conecte el módulo a un conjunto de valores que tenga los números que desea recortar, elija las columnas con las que trabajar y establezca un umbral o un intervalo de valores y un método de reemplazo. El módulo puede generar solo los resultados o los valores modificados que se anexen al conjunto de datos original.

Configuración de Clip Values (Recorte de valores)

Antes de comenzar, identifique las columnas que desea recortar y el método que se va a usar. Se recomienda probar primero cualquier método de recorte en un pequeño subconjunto de datos.

El módulo aplica los mismos criterios y método de reemplazo a todas columnas que se incluyen en la selección. Por lo tanto, asegúrese de excluir las que no desee cambiar.

Si necesita aplicar métodos de recorte o criterios diferentes a algunas columnas, debe usar una instancia de Clip Values (Recorte de valores) nueva para cada conjunto de columnas similares.

  1. Agregue el módulo Clip Values (Recortar valores) al experimento y conéctelo al conjunto de datos que desea modificar. Puede encontrar este módulo en Data Transformation (Transformación de datos), en la categoría Scale and Reduce (Escalar y reducir).

  2. En List of columns (Lista de columnas), use el selector de columnas para elegir las columnas a las que se aplicará Clip Values (Recorte de valores).

  3. En Set of thresholds (Conjunto de umbrales), elija una de las siguientes opciones de la lista desplegable. Estas opciones determinan cómo se establecen los límites superior e inferior de los valores aceptables frente a los que se deben recortar.

    • ClipPeaks (Recortar picos): al recortar los valores por picos, solo se especifica un límite superior. Los valores mayores que ese valor de límite se reemplazan o quitan.

    • ClipSubpeaks: al recortar valores por subpestados, solo se especifica un límite inferior. Los valores que son menores que ese valor de límite se reemplazan o quitan.

    • ClipPeaksAndSubpeaks: al recortar valores por picos y subpestados, puede especificar los límites superior e inferior. Los valores que están fuera de ese intervalo se reemplazan o quitan. Los valores que coinciden con los valores de límite no cambian.

  4. En función de la selección realizada en el paso anterior, puede establecer los valores de umbral siguientes:

    • Lower threshold (Umbral inferior): solo se muestra si elige ClipSubPeaks
    • Upper threshold (Umbral superior): solo se muestra si elige ClipPeaks
    • Umbral: solo se muestra si elige ClipPeaksAndSubPeaks

    Para cada tipo de umbral, elija Constant (Constante) o Percentile (Percentil).

  5. Si selecciona Constant (Constante), escriba el valor máximo o mínimo en el cuadro de texto. Por ejemplo, supongamos que sabe que el valor 999 se usó como valor de marcador de posición. Puede elegir Constante para el umbral superior y escribir 999 en Valor constante del umbral superior.

  6. Si elige Percentile (Percentil), se restringen los valores de columna a un intervalo de percentiles.

    Por ejemplo, supongamos que desea mantener solo los valores del intervalo de percentiles 10-80 y reemplazar todos los demás. Elija Percentil y, a continuación, escriba 10 en Percentile value of lower threshold (Valor de percentil del umbral inferior) y escriba 80 en Percentile value of upper threshold (Valor de percentil del umbral superior).

    Consulte la sección sobre percentiles para algunos ejemplos de cómo usar intervalos de percentiles.

  7. Defina un valor sustituto.

    Los números que coinciden exactamente con los límites que acaba de especificar se consideran dentro del intervalo de valores permitido y, por tanto, no se reemplazan ni quitan. Todos los números que se encuentran fuera del intervalo especificado se reemplazan por el valor sustituto.

    • Substitute value for peaks (Valor de sustitución de picos): define el valor de sustitución en todos los valores de columna mayores que el umbral especificado.
    • Substitute value for subpeaks (Valor de sustitución de subpicos): define el valor de sustitución en todos los valores de columna menores que el umbral especificado.
    • Si usa la opción ClipPeaksAndSubpeaks, puede especificar valores de reemplazo independientes para los valores recortados superior e inferior.

    Se admiten los siguientes valores de reemplazo:

    • Umbral: reemplaza los valores recortados por el valor de umbral especificado.

    • Mean (Promedio): reemplaza los valores recortados por el promedio de los valores de la columna. El promedio se calcula antes de que se recorten los valores.

    • Median (Mediana): reemplaza los valores recortados por la mediana de los valores de la columna. La mediana se calcula antes de que se recorten los valores.

    • Missing (Ausente): reemplaza los valores recortados por el valor que falta (vacío).

  8. Add indicator columns (Agregar columnas indicativas): seleccione esta opción si desea generar una nueva columna que indique si la operación de recorte especificada se ha aplicado a los datos de esa fila. Esta opción es especialmente útil cuando se prueba un nuevo conjunto de valores de recorte y sustitución.

  9. Overwrite flag (Sobrescribir marca): indica cómo desea que se generen los nuevos valores. De forma predeterminada, Clip Values (Recorte de valores) crea una nueva columna con los valores máximos recortados al umbral deseado. Los nuevos valores sobrescriben la columna original.

    Para mantener la columna original y agregar una nueva columna con los valores recortados, anule la selección de esta opción.

  10. Ejecute el experimento.

    Haga clic con el botón derecho en la salida del módulo Clip Values (Recorte de valores) y seleccione Visualize (Visualizar) para revisar los valores y asegurarse de que la operación de recorte cumple sus expectativas.

Ejemplos

Para ver cómo se usa este módulo en experimentos de aprendizaje automático, consulte el Azure AI Gallery:

  • Valores atípicos de los incendios de bosque: en este ejemplo de la couse de EdX en ciencia de datos se muestran los métodos de recorte mediante el conjunto de datos de ejemplo De incendios de bosque.

Recorte mediante percentiles

Para entender cómo funciona el recorte por percentiles, considere un conjunto de 10 filas, con una instancia de cada una de los valores 1-10.

  • Si usa los percentiles como umbral superior, en el valor del percentil 90, el 90 % de todos los valores del conjunto de valores debe ser inferior a ese valor.

  • Si usa los percentiles como umbral inferior, en el valor del percentil 10, el 10 % de todos los valores del conjunto de valores debe ser inferior a ese valor.

  1. En Set of thresholds (Conjunto de umbrales) elija ClipPeaksAndSubPeaks.

  2. En Upper threshold (Umbral superior) elija Percentile (Percentil) y, en Percentile number (Número de percentil), escriba 90.

  3. En Upper substitute value (Valor de sustitución superior) elija Missing Value (Valor ausente).

  4. En Lower threshold (Umbral inferior) elija Percentile (Percentil) y, en Percentile number (Número de percentil), escriba 10.

  5. En Lower substitute value (Valor de sustitución inferior) elija Missing Value (Valor ausente).

  6. Anule la selección de la opción Overwrite flag (Sobrescribir marca) y seleccione la opción Add indicator columns (Agregar columnas indicativas).

Ahora pruebe el mismo experimento usando 60 como el umbral de percentil superior y 30 como el umbral de percentil inferior, y use el valor de umbral como el valor de reemplazo. En la tabla siguiente se comparan estos dos resultados:

  1. Reemplazar por valor que falta; Umbral superior = 90; Umbral inferior = 10

  2. Reemplazar por umbral; Percentil superior = 60; Percentil inferior = 30

Datos originales Reemplazar por el ausente Reemplazar por el umbral
1

2

3

4

5

6

7

8

9

10
TRUE

TRUE

3, FALSE

4, FALSE

5, FALSE

6, FALSE

7, FALSE

8, FALSE

9, FALSE

TRUE
4, TRUE

4, TRUE

4, TRUE

4, TRUE

5, FALSE

6, FALSE

7, TRUE

7, TRUE

7, TRUE

7, TRUE

Notas técnicas

  • Solo puede usar Recortar valores en columnas que contengan números o valores de fecha y hora.

  • Si incluye columnas que tienen texto o datos de categorías, dichas columnas se omitirán.

  • Los valores que faltan se omiten cuando se calcula la media o el valor medio para una columna.

  • Recortar valores no admite datos ordinales.

  • Los valores que faltan no se modifican cuando se propagan al conjunto de datos de salida. La columna que indica los valores recortados siempre contiene FALSE para valores que faltan.

Entradas esperadas

Nombre Tipo Descripción
Dataset Tabla de datos Conjunto de datos de entrada

Parámetros del módulo

Nombre Intervalo Tipo Valor predeterminado Descripción
Agregar columnas de indicador TRUE/FALSE Boolean FALSE Si se va a agregar un indicador para el recorte de un valor,
Valor constante para el umbral inferior cualquiera Float -1 Valor por debajo del cual se recortarán los subpágonos
Valor constante para el umbral superior cualquiera Float 1 Valor por encima del cual se recortarán los picos
Valor constante del umbral inferior cualquiera Float -1 Valor por debajo del cual se recortan los subpágonos
Valor constante del umbral superior >=1 Float 1 Valor por encima del cual se recortan los picos
Lista de columnas ColumnSelection Lista de columnas que se recortarán
Valor de sustitución inferior Umbral

Media

Mediana

Missing
SubstituteValues Umbral Valor usado para subpágonos de recorte
Umbral inferior Constante

Percentil
Modo de umbral Constante Valor por debajo del cual se recortarán los subpágonos
Marca de sobrescritura TRUE/FALSE Boolean true Si las columnas de datos recortadas deben sobrescribir las columnas de datos de entrada
Número de percentil para el umbral inferior [1;99] Entero 1 Número de percentil por debajo del cual se recortarán los subpágonos
Número de percentil para el umbral superior [1;99] Entero 99 Número de percentil por encima del cual se recortarán los picos
Número de percentil de umbral inferior [1;99] Entero 1 Número de percentil por debajo del cual se recortan los subpágonos
Número de percentil del umbral superior [1;99] Entero 99 Número de percentil por encima del cual se recortan los picos
Conjunto de umbrales ClipPeaks

ClipSubPeaks

ClipPeaksAndSubPeaks
Conjunto de umbrales ClipPeaks Especifica el tipo de umbral que se usará.
Valor de sustitución para picos Umbral

Media

Mediana

Missing
SubstituteValues Umbral Valor utilizado durante los picos de recorte
Valor de sustitución para subpicos Umbral

Media

Mediana

Missing
SubstituteValues Umbral Valor utilizado durante los subpágonos de recorte
Umbral Constante

Percentil
Modo de umbral Constante Valor por encima y por debajo del cual se recortarán los picos
Valor de sustitución superior Umbral

Media

Mediana

Missing
Umbral Umbral Valor utilizado para los picos de recorte
Umbral superior Constante

Percentil
Modo de umbral Constante Valor por encima del cual se recortarán los picos

Salidas

Nombre Tipo Descripción
Conjunto de datos de resultados Tabla de datos Conjunto de datos con columnas recortadas

Excepciones

Excepción Descripción
Error 0011 Se produce una excepción si el argumento que se pasó al conjunto de columnas no se aplica a alguna de las columnas del conjunto de datos.
Error 0017 Se produce una excepción si una o varias columnas especificadas tienen un tipo no compatible con el módulo actual.

Para obtener una lista de errores específicos de los módulos de Studio (clásico), consulte Machine Learning códigos de error.

Para obtener una lista de excepciones de API, consulte Machine Learning códigos de error de la API REST.

Consulte también

Escalar y reducir
Lista de módulos A-Z