Cálculo de la correlación lineal

Artículo
05/06/2019

Importante

El soporte técnico de Machine Learning Studio (clásico) finalizará el 31 de agosto de 2024. Se recomienda realizar la transición a Azure Machine Learning antes de esa fecha.

A partir del 1 de diciembre de 2021 no se podrán crear recursos de Machine Learning Studio (clásico). Hasta el 31 de agosto de 2024, puede seguir usando los recursos de Machine Learning Studio (clásico) existentes.

Consulte la información acerca de traslado de proyectos de aprendizaje automático de ML Studio (clásico) a Azure Machine Learning.
Más información sobre Azure Machine Learning.

La documentación de ML Studio (clásico) se está retirando y es posible que no se actualice en el futuro.

Calcula la correlación lineal entre los valores de columna de un conjunto de datos

Categoría: Funciones estadísticas

Nota

Se aplica a: solo Machine Learning Studio (clásico)

Hay módulos para arrastrar y colocar similares en el diseñador de Azure Machine Learning.

Información general sobre el módulo

En este artículo se describe cómo usar el módulo Correlación lineal de proceso en Machine Learning Studio (clásico) para calcular un conjunto de coeficientes de correlación de Pearson para cada posible par de variables del conjunto de datos de entrada.

El coeficiente de correlación de Pearson, a veces denominado prueba R de Pearson, es un valor estadístico que mide la relación lineal entre dos variables. Al examinar los valores de coeficiente, puede deducir algo sobre la intensidad de la relación entre las dos variables y si están correlacionados positivamente o negativamente correlacionados.

Cómo configurar la correlación lineal

Antes de calcular el coeficiente de correlación, hay algunos requisitos previos, como limpiar los datos y comprobar que la relación entre las variables es adecuada para este módulo. También debe quitar o imputar los valores que faltan.

Se aplican las restricciones siguientes al usar este módulo:

El módulo Compute Linear Correlation (Correlación lineal de proceso) solo puede procesar valores numéricos. Todos los demás tipos de valores, incluidos valores faltantes, valores no numéricos y valores de categoría, se tratan como NaN.
La correlación de Pearson se calcula para todas las columnas numéricas del conjunto de datos que se pasan como entrada. Asegúrese de excluir las columnas adecuadas para este análisis.
La correlación lineal de proceso no se puede usar con datos que tengan valores que faltan.

Paso 1: Determinar la linealidad

Si no se espera que las columnas que está probando tengan algún tipo de relación lineal, no hay ningún punto para generar este coeficiente. Por lo tanto, es recomendable probar primero las columnas para ver si tienen el tipo correcto de datos y el tipo correcto de distribución en general.

Hay varias maneras de determinar si la relación entre las columnas es aproximadamente lineal:

Cree un gráfico de dispersión de las variables en Studio (clásico), mediante la opción Visualizar en el conjunto de datos. Haga clic en una de las columnas de variables numéricas, expanda Visualizaciones y haga clic en Comparar con. Seleccione una variable diferente y se generará automáticamente un gráfico de dispersión. Si se genera un tipo diferente de trazado, significa que al menos una columna tiene un tipo de datos diferente (no numérico).
Calcule una ecuación de regresión para las dos variables. Hay muchos paquetes de R que admiten esto, que puede cargar y usar en el módulo Ejecutar script de R .

Paso 2: Limpiar datos

Debe quitar o rellenar los valores que faltan, quitar o recortar valores atípicos y asegurarse de que las columnas tengan el tipo de datos adecuado.

Asegúrese de comprobar los marcadores de posición y reemplazar este valor por otros valores adecuados antes de usar este módulo. Si se insertaron naN para los valores que faltan cuando el conjunto de datos se cargó desde el origen, podría provocar un error. Los valores de marcador de posición como 999 o -1 también pueden provocar resultados incorrectos.

Para preparar los datos, puede usar estos módulos:

Clean Missing Data (limpiar datos faltantes)
Recorte de valores
Aplicación de transformaciones de SQL

Puede ajustar el tipo de datos de las columnas mediante Editar metadatos. Asegúrese de que las columnas que desea analizar están marcadas como columnas de características.

Paso 3: Generación del coeficiente

Agregue el módulo Correlación lineal de proceso al experimento. Puede encontrar este módulo en la categoría Funciones estadísticas en Machine Learning Studio (clásico).
Agregue el conjunto de datos que desea analizar.
Se recomienda agregar un módulo Seleccionar columnas en el conjunto de datos entre el conjunto de datos y el módulo Correlación lineal de proceso para quitar columnas innecesarias. Configure el módulo Seleccionar columnas del conjunto de datos para obtener solo las dos columnas numéricas para las que desea calcular los coeficientes.

De lo contrario, el módulo Correlación lineal de proceso podría generar muchas columnas de NaN.
No hay parámetros que se establezcan para este módulo. Sin embargo, se producirá un error si las columnas que se pasan como entradas no cumplen los requisitos.
Ejecute el experimento.

Resultados de dos columnas

Dados dos columnas de características, el módulo Correlación lineal de proceso devuelve el coeficiente de correlación de momento de producto escalar de Pearson (muestra). El coeficiente de correlación de Pearson (a menudo indicado como r) oscila en el valor de +1 a -1.

+1 indica una relación lineal positiva fuerte
-1 indica una correlación lineal negativa fuerte
0 no indica ninguna relación lineal entre las dos variables.

La interpretación de los coeficientes depende mucho del problema que está modelando y de las variables que está estudiando. Por lo tanto, es importante comprender el contexto de los datos al informar e interpretar el coeficiente de correlación de Pearson.

Si está seguro de que las variables no están relacionadas y, sin embargo, el coeficiente de correlación de Pearson es muy positivo (r.5 > o así), debe investigar más a fondo.
Si usa la correlación lineal en dos variables que sabe que están perfectamente correlacionadas y los valores de coeficiente no son los esperados, podría indicar un problema en los datos.

Resultados de más de dos columnas

Dada una matriz (es decir, más de dos columnas de características), el módulo Correlación lineal de proceso devuelve un conjunto de correlaciones de momentos de producto de Pearson entre cada par de columnas de características.

Por lo tanto, el resultado es una tabla n x n que contiene los coeficientes de cada combinación de las n columnas. Si alguna columna no cumple los criterios, se devuelve un valor NaN ("no un número") .

Por ejemplo, supongamos que ha pasado las dos columnas numéricas wheel-base y curb-weight más una columna de categorías ( make del conjunto de datos Automobile price). El resultado es una tabla de 3x3 de coeficientes para todas las combinaciones posibles de las columnas de entrada:

`make`	`wheel-base`	`curb-weight`
Nan	Nan	Nan
Nan	1	0.776386
Nan	0.776386	1

En esta tabla, se entiende que las filas representan cada una de las variables,makewheel-base , y curb-weight, en ese orden.

El valor r de la correlación de wheel-base a sí mismo es 1.
El valor r de la correlación de wheel-base a curb-weight es 0,776386.
Todas las correlaciones que implican el resultado de la columna make en NaN, incluida la correlación con sí misma, porque make es una característica de cadena.

Se recomienda quitar columnas no numéricas para evitar tablas complejas con muchos valores sin sentido.

Ejemplos

Para ver cómo se usa este módulo en experimentos de aprendizaje automático, consulte la Galería de Azure AI:

Procesamiento y análisis de datos: en este ejemplo se muestran varias técnicas para modificar los datos. La correlación lineal de proceso se usa para identificar posibles columnas de características.

Notas técnicas

Esta sección contiene detalles de implementación, sugerencias y respuestas a las preguntas más frecuentes.

Detalles de la implementación

Si la columna que se pasa como entrada contiene valores escalares, las matrices de entrada (x e y) se tratan como vectores y se devuelve la correlación producto-momento de Pearson, tal como se indica a continuación:

linear correlation formula

En esta fórmula, cada matriz contiene n elementos y los medios de las muestras x e y son μx y μy respectivamente.

En el caso de una matriz, se introduce una matriz de datos (X), en la que cada columna representa un vector de valores. La matriz de datos debe ser n-por-m. La salida es la matriz m-por-m, R que se define por

formula for linear correlation

En esta fórmula, μx representa el valor medio de la columna xi. Los elementos en I,j siempre equivalen a 1, dado que representan la correlación de un vector consigo mismo.

Entradas esperadas

Nombre	Tipo	Descripción
Dataset	Tabla de datos	Conjunto de datos de entrada

Salidas

Nombre	Tipo	Descripción
Conjunto de datos de resultados	Tabla de datos	Matriz de correlaciones

Excepciones

Excepción	Descripción
Error 0003	Se produce una excepción si una o varias de las entradas son NULL o están vacías.
Error 0020	Se produce una excepción si el número de columnas de algunos de los conjuntos de datos que se pasan al módulo es demasiado pequeño.
Error 0021	Se produce una excepción si el número de filas de algunos de los conjuntos de datos que se pasan al módulo es demasiado pequeño.

Para obtener una lista de errores específicos de los módulos de Studio (clásico), consulte códigos de error Machine Learning.

Para obtener una lista de excepciones de API, consulte Machine Learning códigos de error de la API REST.

Consulte también

Funciones estadísticas
Lista de módulos A-Z

Share via