Compartir vía


Resumen de datos

En este artículo se describe un componente del diseñador de Azure Machine Learning.

Use el componente Resumen de datos para crear un conjunto de medidas estadísticas estándar que describan cada columna de la tabla de entrada.

Las estadísticas resumidas son útiles cuando se desea conocer las características del conjunto de información completo. Por ejemplo, podría necesitar saber:

  • ¿Cuántos valores faltan en cada columna?
  • ¿Cuántos valores únicos hay en una columna de características?
  • ¿Cuál es la media y la desviación típica de cada columna?

El componente calcula las puntuaciones importantes de cada columna y devuelve una fila de estadísticas de resumen de cada variable (columna de datos) que se proporciona como entrada.

Configuración de Summarize Data (Resumen de datos)

  1. Agregue el componente Resumen de datos a la canalización. Puede encontrar este componente en la categoría Funciones estadísticas del diseñador.

  2. Seleccione el conjunto de datos para el que desea generar un informe.

    Si quiere un informe solo de algunas columnas, use el componente Seleccionar columnas de conjunto de datos para proyectar un subconjunto de columnas con el que trabajar.

  3. No hay ningún otro parámetro obligatorio. De manera predeterminada, el componente analiza todas las columnas proporcionadas como entrada y, en función del tipo de valores de las columnas, genera un conjunto relevante de estadísticas, como se explica en la sección Resultados.

  4. Envíe la canalización.

Results

El informe del componente puede incluir las siguientes estadísticas.

Nombre de la columna Descripción
Característica Nombre de la columna
Recuento Recuento de filas
Número de valores únicos Recuento de valores únicos en la columna
Missing Value Count (Número de valores ausentes) Recuento de valores únicos en la columna
Mín. Valor más bajo de la columna
Máx. Valor más alto de la columna
Promedio Promedio de todos los valores de la columna
Mean Deviation (Desviación media) Desviación media de los valores de la columna
1st Quartile (1er cuartil) Valor en el primer cuartil
Valor medio Valor de la mediana de la columna
3rd Quartile (3er cuartil) Valor en el tercer cuartil
Modo Modo de los valores de la columna
Range Entero que representa el número de valores entre los valores máximo y mínimo
Sample Variance (Varianza de la muestra) Varianza de la columna; consulte la nota
Sample Standard Deviation (Desviación típica de la muestra) Desviación típica de la columna; consulte la nota
Sample Skewness (Sesgo de la muestra) Sesgo de la columna; consulte la nota
Sample Kurtosis (Curtosis de la muestra) Curtosis de la columna; consulte la nota
P0.5 Percentil 0,5 %
P1 Percentil 1 %
P5 Percentil 5 %
P95 Percentil 95 %
P99.5 Percentil 99,5 %

Notas técnicas

  • En el caso de las columnas no numéricas, solo se calculan los valores de Recuento, Recuento de valores únicos y Recuento de valores que faltan. En el caso de otras estadísticas, se devuelve un valor nulo.

  • Las columnas que contienen valores booleanos se procesan mediante las siguientes reglas:

    • Al calcular el Mín., se aplica un operador lógico AND.

    • Al calcular el Máx., se aplica un operador lógico OR.

    • Al calcular Intervalo, el componente comprueba primero si el número de valores únicos de la columna es igual a 2.

    • Cuando se calcula cualquier estadística que requiere cálculos de punto flotante, los valores True se tratan como 1,0 y los valores False se tratan como 0,0.

Pasos siguientes

Vea el conjunto de componentes disponibles para Azure Machine Learning.