Cálculo de estadísticas elementales
Importante
El soporte técnico de Machine Learning Studio (clásico) finalizará el 31 de agosto de 2024. Se recomienda realizar la transición a Azure Machine Learning antes de esa fecha.
A partir del 1 de diciembre de 2021 no se podrán crear recursos de Machine Learning Studio (clásico). Hasta el 31 de agosto de 2024, puede seguir usando los recursos de Machine Learning Studio (clásico) existentes.
- Consulte la información acerca de traslado de proyectos de aprendizaje automático de ML Studio (clásico) a Azure Machine Learning.
- Más información sobre Azure Machine Learning.
La documentación de ML Studio (clásico) se está retirando y es posible que no se actualice en el futuro.
Calcula las estadísticas de resumen especificado de las columnas del conjunto de datos seleccionado
Categoría: Funciones estadísticas
Nota:
Solo se aplica a: Machine Learning Studio (clásico)
Hay módulos para arrastrar y colocar similares en el diseñador de Azure Machine Learning.
Información general sobre el módulo
En este artículo se describe cómo usar el módulo Compute Elementary Statistics en Machine Learning Studio (clásico) para generar un informe de resumen para el conjunto de datos que muestra estadísticas clave, como la media, la desviación estándar y el intervalo de valores para cada una de las columnas seleccionadas.
Este informe es útil para analizar la tendencia central, la dispersión y la forma de los datos.
Cómo configurar estadísticas elementales de proceso
Agregue el módulo Compute Elementary Statistics (Estadísticas elementales de proceso) al experimento. Puede encontrar este módulo en la categoría Funciones estadísticas de Machine Learning Studio (clásico).
Conectar un conjunto de datos que contiene las columnas que desea analizar.
Haga clic en la lista desplegable Método y elija el tipo de valor que desea calcular para cada columna.
Consulte la sección Estadísticas admitidas para obtener una lista completa de las estadísticas disponibles y lo que significan.
De forma predeterminada, el valor seleccionado en la lista desplegable Método se calculará para todas las columnas del conjunto de datos que tengan un tipo de datos numérico. Si alguna columna tiene valores que impiden que se calcule el valor, se producirá un error y no se creará el informe.
Para evitar este error, use el selector de columnas para elegir las columnas numéricas para las que desea un informe. Todas las columnas que elija deben ser numéricas.
Ejecute el experimento.
Results
El informe generado incluye el nombre de cada columna y la estadística calculada. Por ejemplo, en la tabla siguiente se muestran las estadísticas generadas para la columna mpg .
DeviationSquared(mpg) | Max(mpg) | Min(mpg) |
---|---|---|
9674.312 | 25.21951 | 13 |
Sugerencia
Cada vez que ejecuta Estadísticas elementales de proceso, solo puede generar una estadística de resumen única para cada una de las columnas seleccionadas. Sin embargo, puede usar los módulos Agregar columnas o Agregar filas para combinar los resultados en una sola tabla, como en el ejemplo anterior.
Estadísticas admitidas
Este módulo admite las siguientes estadísticas descriptivas estándar.
Desviación cuadrada
Calcula la desviación al cuadrado de los valores de columna. También se conoce como suma de cuadrados.
La desviación cuadrada es una medida de hasta qué punto se dispersan los valores de la media.
Media geométrica
Calcula la media geométrica de los valores de columna.
La media geométrica se puede usar para medir la tendencia central de un conjunto de números. En comparación con la media aritmética, se ve menos afectada por un pequeño número de valores extremos. También se puede usar para comparar medidas en diferentes escalas, ya que normaliza eficazmente las escalas de los números que se comparan. Los medios geométricos se usan a veces para calcular las tasas de crecimiento anual compuestas.
La función equivalente de Excel es GEOMEAN.
Media armónica
Calcula la media armónica de los valores de columna.
Para calcular la media armónica, todos los valores se convierten a sus recíprocos y, a continuación, se toma la media de esos valores. La media armónica es el recíproco de esa media. Si los valores de columna son positivos, los números más grandes se ponderan menos que los números más pequeños.
La media armónica siempre es menor que la media geométrica, que siempre es menor que la media aritmética. La media armónica es útil para las variables de promedio que representan tasas, como la velocidad (distancia a lo largo del tiempo) o las ventas por trimestre.
La función equivalente de Excel es HARMEAN.
Distancia intercuartil
Calcula la diferencia intercuartil para el primer y el último cuartil de los valores de columna. También se denomina intervalo cuartil. Cuando el cuartil se encuentra entre dos números, el valor cuartil es el promedio de los dos valores a cada lado del corte.
El valor cuartil divide la columna de valores en cuatro grupos con un número igual de valores. Por lo tanto, un cuarto de los valores es menor o igual que el percentil 25. Tres cuartas partes de los valores son menores o iguales que el percentil 75. Al revisar el intervalo cuartil, puede obtener una idea de la amplia distribución de los valores de datos.
Momento central k-ésimo
Calcula K-th momento central para los valores de columna.
Al calcular K-th central moment, también debe especificar order, lo que significa el valor de k. El valor de k puede oscilar entre 0 y cualquier valor entero permitido, aunque los valores de orden superior no suelen ser significativos.
Por lo general, en las estadísticas descriptivas, un momento es una medida que describe la forma de un conjunto de puntos. Los momentos centrales son momentos sobre la media, que normalmente se usan porque proporcionan una mejor información sobre la forma de la distribución. Normalmente, un orden de 2 representa la varianza; se usa un orden de 4 para curtosis. El primer momento de pedido es la media. Por lo tanto, la colección de todos los momentos describe de forma única la distribución de valores en la columna.
Max
Busca el valor máximo de la columna.
Media
Calcula la media aritmética de los valores de columna.
La función equivalente de Excel es AVERAGE.
Desviación media
Calcula la desviación absoluta media para los valores de columna.
Es decir, la media se calcula para la columna y la desviación calculada para cada valor de la columna. El promedio de los valores absolutos de los valores de desviación individuales es la desviación media.
Esta estadística indica cómo se distribuye de la media de la columna de números.
Mediana
Devuelve la mediana de los valores de columna.
La mediana es el número en medio de una columna de números. Si hay un número par de números en la columna, la mediana es el promedio de los dos números en el centro.
La mediana, junto con la media y el modo, es una de las tres estadísticas que mide la tendencia central. Si los valores son simétricos alrededor de la media, los tres números serán aproximadamente iguales. Sin embargo, la mediana es más sólida a los valores atípicos que la media.
Desviación mediana
Calcula la desviación mediana de la columna.
Es decir, la mediana se calcula para la columna y la desviación calculada para cada valor de la columna. Se toma el valor medio de los valores absolutos de los valores de desviación individuales.
La desviación absoluta mediana también se conoce como MAD y se usa para describir la variabilidad de una muestra de números. MAD le indica cómo se distribuye de la media de la columna de números.
Min
Devuelve el valor mínimo de los valores de columna.
Mode
Busca todos los modos de la columna.
El modo es el valor que aparece más en la columna. Si varios valores aparecen el mismo número de veces, la columna puede tener varios modos.
Como medida de tendencia central, el modo es más sólido para los valores atípicos que la media y también se puede usar con datos nominales.
Desviación estándar de población
Calcula la desviación estándar de población para los valores de columna.
En esta estadística se supone que los valores de columna representan toda la población. Si los datos son solo una muestra de la población, debe calcular la desviación estándar mediante la desviación estándar de ejemplo. Sin embargo, en grandes conjuntos de datos, las dos estadísticas devuelven aproximadamente valores iguales.
La desviación estándar se calcula como la raíz cuadrada de la varianza de columna. Esta estadística captura la cantidad de variabilidad en la columna.
Varianza de población
Calcula la varianza de población para los valores de columna.
La varianza mide cuánto se distribuye un conjunto de números. Si la varianza es cero, todos los números son iguales.
Esta estadística supone que la columna de valores representa toda la población. Si los datos contienen solo una muestra de los valores, debe calcular la varianza mediante varianza de ejemplo.
La función Excel equivalente es VAR.P
.
Producto
Calcula el producto de los elementos de la columna.
Para obtener el producto, se múltiplo de todos los números de la columna. El resultado no es en sí mismo útil como estadística descriptiva, pero la función es útil para una variedad de otros cálculos.
Intervalo
Calcula el intervalo de los valores de columna. El intervalo se define como el valor máximo menos el valor mínimo.
Curtosis muestral
Calcula la curtosis de ejemplo para los valores de columna.
Kurtosis describe la forma de la distribución de valores, es decir, la cantidad máxima o plana de la distribución de valores, en comparación con la distribución normal.
La distribución normal tiene una cursis de 0.
Los valores altos de curtosis indican que la masa de probabilidad se centra en torno a un pico o en la cola de la distribución.
Los valores negativos de curtosis indican una distribución relativamente plana.
Asimetría muestral
Calcula la asimetría de ejemplo para los valores de columna.
Sesgo describe si la mayor parte de los valores están en el centro, se desplazan hacia la izquierda o se desplazan hacia la derecha. Dos distribuciones pueden tener la misma media y desviación estándar, pero tener una forma muy diferente. Puede usar la asimetría y la curmetría para caracterizar la forma.
Los valores de asimetría negativos significan que la distribución está sesgada a la izquierda.
0 denota la distribución normal.
Los valores de asimetría positivos significan que la distribución está sesgada a la derecha.
Desviación estándar muestral
Calcula la desviación estándar de ejemplo para los valores de columna.
La desviación estándar de la muestra mide cómo se reparten los valores de la columna de la media. Representa la distancia media entre los valores de los datos del conjunto y la media.
Esta estadística supone que los valores de columna representan una muestra de la población. Si los datos representan toda la población, debe calcular la desviación estándar mediante desviación estándar de población.
La función Excel equivalente es ST. DEV.S.
Varianza muestral
Calcula la varianza de muestra para los valores de columna.
Este método supone que los valores de columna representan una muestra de la población. Si la columna contiene toda la población, debe usar Varianza estándar de población.
La función Excel equivalente es VAR.S.
Sum
Calcula la suma de los valores de columna.
Ejemplos
Los siguientes experimentos de la Azure AI Gallery muestran cómo puede crear un informe de resumen que contiene estadísticas descriptivas para un conjunto de datos completo. El informe de resumen solo contiene estadísticas generales; sin embargo, puede guardarlo como un conjunto de datos y, a continuación, agregar estadísticas más detalladas, mediante las opciones de Compute Elementary Statistics.
Descargar conjunto de datos de UCI: el módulo Resumir datos se usa para generar un informe de resumen de todas las columnas del conjunto de datos.
Procesamiento y análisis de conjuntos de datos: el módulo Resumir datos se usa para generar un informe de resumen en todas las columnas del conjunto de datos.
Notas técnicas
Esta sección contiene detalles de implementación, sugerencias y respuestas a las preguntas más frecuentes.
Sugerencia
Al usar el módulo Compute Elementary Statistics , se deben cumplir las condiciones siguientes:
- Debe haber un número suficiente de puntos de datos (filas) para calcular la estadística seleccionada. Por ejemplo, para calcular la desviación estándar de ejemplo se necesitan al menos dos puntos de datos; De lo contrario, el resultado es NaN.
- Las columnas de entrada deben ser numéricas o booleanas.
De forma predeterminada, se seleccionan todas las columnas numéricas. Sin embargo, si alguna columna numérica está marcada como categórica, podría obtener el siguiente error: "Error 0056: La <> columna con el nombre de columna no está en una categoría permitida". Para corregir el error, agregue una instancia del módulo Editar metadatos, seleccione la columna con el problema y use la opción Quitar categoría.
Detalles de la implementación
Las columnas booleanas se procesan como se indica a continuación:
MIN se calcula como operador AND lógico.
MAX se calcula como operador OR lógico.
RANGE comprueba si el número de valores únicos de la columna es igual a 2.
Se omiten los valores que faltan.
En el caso de las estadísticas que requieren cálculos de punto flotante, True = 1.0 y False = 0.0
Entradas esperadas
Nombre | Tipo | Descripción |
---|---|---|
Dataset | Tabla de datos | Conjunto de datos de entrada |
Parámetros del módulo
Nombre | Intervalo | Tipo | Valor predeterminado | Descripción |
---|---|---|---|---|
Método | Lista | Método de estadística elemental | Selecciona un método estadístico que se usará en los cálculos. Consulte la sección Uso para obtener una lista de valores. | |
Conjunto de columnas | cualquiera | ColumnSelection | NumericAll | Selecciona las columnas para las que se va a calcular la estadística |
Pedido de | >=1 | Entero | 3 | Especifica un valor para el orden del momento central (se usa solo para el kth central moment) |
Output
Nombre | Tipo | Descripción |
---|---|---|
Conjunto de datos de resultados | Tabla de datos | Conjunto de datos de salida |
Excepciones
Excepción | Descripción |
---|---|
Error 0017 | Se producen excepciones si una o más columnas especificadas tienen un tipo no compatible con el módulo actual. |
Para obtener una lista de errores específicos de los módulos de Studio (clásico), consulte Machine Learning códigos de error.
Para obtener una lista de excepciones de API, consulte Machine Learning códigos de error de la API REST.
Consulte también
Funciones estadísticas
elementales
Resumen de datos
Lista de módulos A-Z