Algoritmo de regresión logística de Microsoft

Se aplica a: SQL Server 2019 y versiones anteriores de Analysis Services Azure Analysis Services Fabric/Power BI Premium

Importante

La minería de datos estaba en desuso en SQL Server 2017 Analysis Services y ahora se ha interrumpido en SQL Server 2022 Analysis Services. La documentación no se actualiza para las características en desuso e interrumpidas. Para más información, consulte Compatibilidad con versiones anteriores de Analysis Services.

La regresión logística es una técnica estadística conocida que se usa para modelar los resultados binarios.

Existen varias implementaciones de regresión logística en la investigación estadística, que utilizan diferentes técnicas de aprendizaje. El algoritmo de regresión logística de Microsoft se ha implementado mediante una variación del algoritmo de red neuronal de Microsoft. Este algoritmo comparte muchas de las cualidades de las redes neurales pero es más fácil de entrenar.

Una de las ventajas de la regresión logística es que el algoritmo es muy flexible, puede tomar cualquier tipo de entrada y admite varias tareas analíticas diferentes:

  • Usar datos demográficos para realizar predicciones sobre los resultados, como el riesgo de contraer una determinada enfermedad.

  • Explorar y ponderar los factores que contribuyen a un resultado. Por ejemplo, buscar los factores que influyen en los clientes para volver a visitar un establecimiento.

  • Clasificar los documentos, el correo electrónico u otros objetos que tengan muchos atributos.

Ejemplo

Imagine un grupo de personas que comparten información demográfica parecida y que adquieren productos de la empresa Adventure Works. Al modelar los datos para relacionarlos con un resultado concreto, como la compra de un producto de destino, podrá ver cómo contribuye la información demográfica a la probabilidad de que alguien adquiera dicho producto de destino.

Cómo funciona el algoritmo

La regresión logística es un método estadístico conocido que se usa para determinar la contribución de varios factores a un par de resultados. La implementación de Microsoft usa una red neuronal modificada para modelar las relaciones entre las entradas y los resultados. Se mide el efecto de cada entrada en el resultado y se ponderan las diversas entradas en el modelo acabado. El nombre regresión logística procede del hecho de que la curva de los datos se comprime mediante una transformación logística para minimizar el efecto de los valores extremos. Para obtener más información sobre la implementación y cómo personalizar el algoritmo, vea Referencia técnica del algoritmo de regresión logística de Microsoft.

Datos requeridos para los modelos de regresión logística

Al preparar los datos para su uso en el entrenamiento de un modelo de regresión logística, conviene comprender qué requisitos son imprescindibles para el algoritmo concreto, incluidos el volumen de datos necesario y la forma en que estos datos se utilizan.

Los requisitos para un modelo de regresión logística son los siguientes:

Una columna de una sola clave : cada modelo debe contener una columna numérica o de texto que identifique cada registro de manera única. No están permitidas las claves compuestas.

Columnas de entrada : cada modelo debe tener al menos una columna de entrada que contenga los valores que se utilizan como factores en el análisis. Puede tener tantas columnas de entrada como desee, pero dependiendo del número de valores existentes en cada columna, la adición de columnas adicionales podría aumentar el tiempo necesario para entrenar el modelo.

Al menos una columna de predicción : el modelo debe contener al menos una columna de predicción de cualquier tipo de datos, incluidos datos numéricos continuos. Los valores de la columna de predicción también se pueden tratar como entradas del modelo, o se puede especificar que solo se utilicen para las predicciones. No se admiten tablas anidadas en las columnas de predicción, pero se pueden usar como entradas.

Para obtener información más detallada sobre los tipos de contenido y los tipos de datos compatibles con los modelos de regresión logística, vea la sección Requisitos de Referencia técnica del algoritmo de regresión logística de Microsoft.

Ver un modelo de regresión logística

Para explorar el modelo, puede usar el Visor de redes neuronales de Microsoft o el Visor de árbol de contenido genérico de Microsoft.

Cuando se ve el modelo con el Visor de redes neuronales de Microsoft, Analysis Services muestra los factores que contribuyen a un resultado determinado, clasificados por su importancia. Puede elegir un atributo y los valores que desea comparar. Para más información, vea Examinar un modelo usando el Visor de redes neuronales de Microsoft.

Si desea obtener más información, puede examinar los detalles del modelo con el Visor de árbol de contenido genérico de Microsoft. El contenido de un modelo de regresión logística incluye un nodo marginal que muestra todas las entradas usadas para el modelo y las subredes de los atributos de predicción. Para obtener más información, vea Contenido del modelo de minería de datos para modelos de regresión logística (Analysis Services - minería de datos).

Crear predicciones

Una vez entrenado el modelo, puede crear consultas en el contenido del modelo para obtener los coeficientes de regresión y otros detalles, o puede usar el modelo para realizar predicciones.

Comentarios

  • No admite la obtención de detalles. Esto se debe a que la estructura de nodos del modelo de minería de datos no tiene por qué corresponder directamente a los datos subyacentes.

  • No admite la creación de dimensiones de minería de datos.

  • Admite el uso de modelos de minería de datos OLAP.

  • No se admite el uso del Lenguaje de marcado de modelos de predicción (PMML) para crear modelos de minería de datos.

Consulte también

Contenido del modelo de minería de datos para los modelos de regresión logística (Analysis Services - Minería de datos)
Referencia técnica del algoritmo de regresión logística de Microsoft
Ejemplos de consultas de modelos de regresión logística