Compartir a través de


Cálculo de estadísticas elementales

Importante

El soporte técnico de Machine Learning Studio (clásico) finalizará el 31 de agosto de 2024. Se recomienda realizar la transición a Azure Machine Learning antes de esa fecha.

A partir del 1 de diciembre de 2021 no se podrán crear recursos de Machine Learning Studio (clásico). Hasta el 31 de agosto de 2024, puede seguir usando los recursos de Machine Learning Studio (clásico) existentes.

La documentación de ML Studio (clásico) se está retirando y es posible que no se actualice en el futuro.

Calcula las estadísticas de resumen especificado de las columnas del conjunto de datos seleccionado

Categoría: Funciones estadísticas

Nota:

Solo se aplica a: Machine Learning Studio (clásico)

Hay módulos para arrastrar y colocar similares en el diseñador de Azure Machine Learning.

Información general sobre el módulo

En este artículo se describe cómo usar el módulo Compute Elementary Statistics en Machine Learning Studio (clásico) para generar un informe de resumen para el conjunto de datos que muestra estadísticas clave, como la media, la desviación estándar y el intervalo de valores para cada una de las columnas seleccionadas.

Este informe es útil para analizar la tendencia central, la dispersión y la forma de los datos.

Cómo configurar estadísticas elementales de proceso

  1. Agregue el módulo Compute Elementary Statistics (Estadísticas elementales de proceso) al experimento. Puede encontrar este módulo en la categoría Funciones estadísticas de Machine Learning Studio (clásico).

  2. Conectar un conjunto de datos que contiene las columnas que desea analizar.

  3. Haga clic en la lista desplegable Método y elija el tipo de valor que desea calcular para cada columna.

    Consulte la sección Estadísticas admitidas para obtener una lista completa de las estadísticas disponibles y lo que significan.

  4. De forma predeterminada, el valor seleccionado en la lista desplegable Método se calculará para todas las columnas del conjunto de datos que tengan un tipo de datos numérico. Si alguna columna tiene valores que impiden que se calcule el valor, se producirá un error y no se creará el informe.

    Para evitar este error, use el selector de columnas para elegir las columnas numéricas para las que desea un informe. Todas las columnas que elija deben ser numéricas.

  5. Ejecute el experimento.

Results

El informe generado incluye el nombre de cada columna y la estadística calculada. Por ejemplo, en la tabla siguiente se muestran las estadísticas generadas para la columna mpg .

DeviationSquared(mpg) Max(mpg) Min(mpg)
9674.312 25.21951 13

Sugerencia

Cada vez que ejecuta Estadísticas elementales de proceso, solo puede generar una estadística de resumen única para cada una de las columnas seleccionadas. Sin embargo, puede usar los módulos Agregar columnas o Agregar filas para combinar los resultados en una sola tabla, como en el ejemplo anterior.

Estadísticas admitidas

Este módulo admite las siguientes estadísticas descriptivas estándar.

Desviación cuadrada

Calcula la desviación al cuadrado de los valores de columna. También se conoce como suma de cuadrados.

La desviación cuadrada es una medida de hasta qué punto se dispersan los valores de la media.

Media geométrica

Calcula la media geométrica de los valores de columna.

La media geométrica se puede usar para medir la tendencia central de un conjunto de números. En comparación con la media aritmética, se ve menos afectada por un pequeño número de valores extremos. También se puede usar para comparar medidas en diferentes escalas, ya que normaliza eficazmente las escalas de los números que se comparan. Los medios geométricos se usan a veces para calcular las tasas de crecimiento anual compuestas.

La función equivalente de Excel es GEOMEAN.

Media armónica

Calcula la media armónica de los valores de columna.

Para calcular la media armónica, todos los valores se convierten a sus recíprocos y, a continuación, se toma la media de esos valores. La media armónica es el recíproco de esa media. Si los valores de columna son positivos, los números más grandes se ponderan menos que los números más pequeños.

La media armónica siempre es menor que la media geométrica, que siempre es menor que la media aritmética. La media armónica es útil para las variables de promedio que representan tasas, como la velocidad (distancia a lo largo del tiempo) o las ventas por trimestre.

La función equivalente de Excel es HARMEAN.

Distancia intercuartil

Calcula la diferencia intercuartil para el primer y el último cuartil de los valores de columna. También se denomina intervalo cuartil. Cuando el cuartil se encuentra entre dos números, el valor cuartil es el promedio de los dos valores a cada lado del corte.

El valor cuartil divide la columna de valores en cuatro grupos con un número igual de valores. Por lo tanto, un cuarto de los valores es menor o igual que el percentil 25. Tres cuartas partes de los valores son menores o iguales que el percentil 75. Al revisar el intervalo cuartil, puede obtener una idea de la amplia distribución de los valores de datos.

Momento central k-ésimo

Calcula K-th momento central para los valores de columna.

Al calcular K-th central moment, también debe especificar order, lo que significa el valor de k. El valor de k puede oscilar entre 0 y cualquier valor entero permitido, aunque los valores de orden superior no suelen ser significativos.

Por lo general, en las estadísticas descriptivas, un momento es una medida que describe la forma de un conjunto de puntos. Los momentos centrales son momentos sobre la media, que normalmente se usan porque proporcionan una mejor información sobre la forma de la distribución. Normalmente, un orden de 2 representa la varianza; se usa un orden de 4 para curtosis. El primer momento de pedido es la media. Por lo tanto, la colección de todos los momentos describe de forma única la distribución de valores en la columna.

Max

Busca el valor máximo de la columna.

Media

Calcula la media aritmética de los valores de columna.

La función equivalente de Excel es AVERAGE.

Desviación media

Calcula la desviación absoluta media para los valores de columna.

Es decir, la media se calcula para la columna y la desviación calculada para cada valor de la columna. El promedio de los valores absolutos de los valores de desviación individuales es la desviación media.

Esta estadística indica cómo se distribuye de la media de la columna de números.

Mediana

Devuelve la mediana de los valores de columna.

La mediana es el número en medio de una columna de números. Si hay un número par de números en la columna, la mediana es el promedio de los dos números en el centro.

La mediana, junto con la media y el modo, es una de las tres estadísticas que mide la tendencia central. Si los valores son simétricos alrededor de la media, los tres números serán aproximadamente iguales. Sin embargo, la mediana es más sólida a los valores atípicos que la media.

Desviación mediana

Calcula la desviación mediana de la columna.

Es decir, la mediana se calcula para la columna y la desviación calculada para cada valor de la columna. Se toma el valor medio de los valores absolutos de los valores de desviación individuales.

La desviación absoluta mediana también se conoce como MAD y se usa para describir la variabilidad de una muestra de números. MAD le indica cómo se distribuye de la media de la columna de números.

Min

Devuelve el valor mínimo de los valores de columna.

Mode

Busca todos los modos de la columna.

El modo es el valor que aparece más en la columna. Si varios valores aparecen el mismo número de veces, la columna puede tener varios modos.

Como medida de tendencia central, el modo es más sólido para los valores atípicos que la media y también se puede usar con datos nominales.

Desviación estándar de población

Calcula la desviación estándar de población para los valores de columna.

En esta estadística se supone que los valores de columna representan toda la población. Si los datos son solo una muestra de la población, debe calcular la desviación estándar mediante la desviación estándar de ejemplo. Sin embargo, en grandes conjuntos de datos, las dos estadísticas devuelven aproximadamente valores iguales.

La desviación estándar se calcula como la raíz cuadrada de la varianza de columna. Esta estadística captura la cantidad de variabilidad en la columna.

Varianza de población

Calcula la varianza de población para los valores de columna.

La varianza mide cuánto se distribuye un conjunto de números. Si la varianza es cero, todos los números son iguales.

Esta estadística supone que la columna de valores representa toda la población. Si los datos contienen solo una muestra de los valores, debe calcular la varianza mediante varianza de ejemplo.

La función Excel equivalente es VAR.P.

Producto

Calcula el producto de los elementos de la columna.

Para obtener el producto, se múltiplo de todos los números de la columna. El resultado no es en sí mismo útil como estadística descriptiva, pero la función es útil para una variedad de otros cálculos.

Intervalo

Calcula el intervalo de los valores de columna. El intervalo se define como el valor máximo menos el valor mínimo.

Curtosis muestral

Calcula la curtosis de ejemplo para los valores de columna.

Kurtosis describe la forma de la distribución de valores, es decir, la cantidad máxima o plana de la distribución de valores, en comparación con la distribución normal.

  • La distribución normal tiene una cursis de 0.

  • Los valores altos de curtosis indican que la masa de probabilidad se centra en torno a un pico o en la cola de la distribución.

  • Los valores negativos de curtosis indican una distribución relativamente plana.

Asimetría muestral

Calcula la asimetría de ejemplo para los valores de columna.

Sesgo describe si la mayor parte de los valores están en el centro, se desplazan hacia la izquierda o se desplazan hacia la derecha. Dos distribuciones pueden tener la misma media y desviación estándar, pero tener una forma muy diferente. Puede usar la asimetría y la curmetría para caracterizar la forma.

  • Los valores de asimetría negativos significan que la distribución está sesgada a la izquierda.

  • 0 denota la distribución normal.

  • Los valores de asimetría positivos significan que la distribución está sesgada a la derecha.

Desviación estándar muestral

Calcula la desviación estándar de ejemplo para los valores de columna.

La desviación estándar de la muestra mide cómo se reparten los valores de la columna de la media. Representa la distancia media entre los valores de los datos del conjunto y la media.

Esta estadística supone que los valores de columna representan una muestra de la población. Si los datos representan toda la población, debe calcular la desviación estándar mediante desviación estándar de población.

La función Excel equivalente es ST. DEV.S.

Varianza muestral

Calcula la varianza de muestra para los valores de columna.

Este método supone que los valores de columna representan una muestra de la población. Si la columna contiene toda la población, debe usar Varianza estándar de población.

La función Excel equivalente es VAR.S.

Sum

Calcula la suma de los valores de columna.

Ejemplos

Los siguientes experimentos de la Azure AI Gallery muestran cómo puede crear un informe de resumen que contiene estadísticas descriptivas para un conjunto de datos completo. El informe de resumen solo contiene estadísticas generales; sin embargo, puede guardarlo como un conjunto de datos y, a continuación, agregar estadísticas más detalladas, mediante las opciones de Compute Elementary Statistics.

Notas técnicas

Esta sección contiene detalles de implementación, sugerencias y respuestas a las preguntas más frecuentes.

Sugerencia

Al usar el módulo Compute Elementary Statistics , se deben cumplir las condiciones siguientes:

  • Debe haber un número suficiente de puntos de datos (filas) para calcular la estadística seleccionada. Por ejemplo, para calcular la desviación estándar de ejemplo se necesitan al menos dos puntos de datos; De lo contrario, el resultado es NaN.
  • Las columnas de entrada deben ser numéricas o booleanas.

De forma predeterminada, se seleccionan todas las columnas numéricas. Sin embargo, si alguna columna numérica está marcada como categórica, podría obtener el siguiente error: "Error 0056: La <> columna con el nombre de columna no está en una categoría permitida". Para corregir el error, agregue una instancia del módulo Editar metadatos, seleccione la columna con el problema y use la opción Quitar categoría.

Detalles de la implementación

Las columnas booleanas se procesan como se indica a continuación:

  • MIN se calcula como operador AND lógico.

  • MAX se calcula como operador OR lógico.

  • RANGE comprueba si el número de valores únicos de la columna es igual a 2.

  • Se omiten los valores que faltan.

  • En el caso de las estadísticas que requieren cálculos de punto flotante, True = 1.0 y False = 0.0

Entradas esperadas

Nombre Tipo Descripción
Dataset Tabla de datos Conjunto de datos de entrada

Parámetros del módulo

Nombre Intervalo Tipo Valor predeterminado Descripción
Método Lista Método de estadística elemental Selecciona un método estadístico que se usará en los cálculos. Consulte la sección Uso para obtener una lista de valores.
Conjunto de columnas cualquiera ColumnSelection NumericAll Selecciona las columnas para las que se va a calcular la estadística
Pedido de >=1 Entero 3 Especifica un valor para el orden del momento central (se usa solo para el kth central moment)

Output

Nombre Tipo Descripción
Conjunto de datos de resultados Tabla de datos Conjunto de datos de salida

Excepciones

Excepción Descripción
Error 0017 Se producen excepciones si una o más columnas especificadas tienen un tipo no compatible con el módulo actual.

Para obtener una lista de errores específicos de los módulos de Studio (clásico), consulte Machine Learning códigos de error.

Para obtener una lista de excepciones de API, consulte Machine Learning códigos de error de la API REST.

Consulte también

Funciones estadísticas
elementales
Resumen de datos
Lista de módulos A-Z