Artículo
09/29/2010

Algoritmo de regresión logística de Microsoft

El algoritmo de regresión logística de Microsoft es una variación del algoritmo de red neuronal de Microsoft. La regresión logística es una técnica estadística conocida que se usa para modelar los resultados binarios, como los resultados sí-no.

La regresión logística es muy flexible; puede tomar cualquier tipo de entrada y admite varias tareas analíticas diferentes:

Usar datos demográficos para realizar predicciones sobre los resultados, como el riesgo de contraer una determinada enfermedad.
Explorar y ponderar los factores que contribuyen a un resultado. Por ejemplo, buscar los factores que influyen en los clientes para volver a visitar un establecimiento.
Clasificar los documentos, el correo electrónico u otros objetos que tengan muchos atributos.

Ejemplo

Imagine un grupo de personas que comparten información demográfica parecida y que adquieren productos de la empresa Adventure Works. Al modelar los datos para relacionarlos con un resultado concreto, como la compra de un producto de destino, podrá ver cómo contribuye la información demográfica a la probabilidad de que alguien adquiera dicho producto de destino.

Cómo funciona el algoritmo

La regresión logística es un método estadístico conocido que se usa para determinar la contribución de varios factores a un par de resultados. La implementación de Microsoft usa una red neuronal modificada para modelar las relaciones entre las entradas y los resultados. Se mide el efecto de cada entrada en el resultado y se ponderan las diversas entradas en el modelo acabado. El nombre regresión logística procede del hecho de que la curva de los datos se comprime mediante una transformación logística para minimizar el efecto de los valores extremos. Para obtener más información sobre la implementación y sobre cómo personalizar el algoritmo, vea Referencia técnica del algoritmo de regresión logística de Microsoft.

Datos requeridos para los modelos de regresión logística

Al preparar los datos para su uso en el entrenamiento de un modelo de regresión logística, conviene comprender qué requisitos son imprescindibles para el algoritmo concreto, incluidos el volumen de datos necesario y la forma en que estos datos se utilizan.

Los requisitos para un modelo de regresión logística son los siguientes:

Una columna de una sola clave: cada modelo debe contener una columna numérica o de texto que identifique cada registro de manera única. No están permitidas las claves compuestas.

Columnas de entrada: cada modelo debe tener al menos una columna de entrada que contenga los valores que se utilizan como factores en el análisis. Puede tener tantas columnas de entrada como desee, pero dependiendo del número de valores existentes en cada columna, la adición de columnas adicionales podría aumentar el tiempo necesario para entrenar el modelo.

Al menos una columna de predicción: el modelo debe contener al menos una columna de predicción de cualquier tipo de datos, incluidos datos numéricos continuos. Los valores de la columna de predicción también se pueden tratar como entradas del modelo, o se puede especificar que sólo se utilicen para las predicciones. No se admiten tablas anidadas en las columnas de predicción, pero se pueden usar como entradas.

Para obtener información más detallada sobre los tipos de contenido y los tipos de datos compatibles con los modelos de regresión logística, vea la sección Requisitos de Referencia técnica del algoritmo de regresión logística de Microsoft.

Ver un modelo de regresión logística

Para explorar el modelo, puede usar el Visor de redes neuronales de Microsoft o el Visor de árbol de contenido genérico de Microsoft.

Cuando se ve el modelo con el Visor de redes neuronales de Microsoft, Analysis Services muestra los factores que contribuyen a un resultado determinado, clasificados por su importancia. Puede elegir un atributo y los valores que desea comparar. Para obtener más información, vea Ver un modelo de minería de datos con el Visor de redes neuronales de Microsoft.

Si desea obtener más información, puede examinar los detalles del modelo con el Visor de árbol de contenido genérico de Microsoft. El contenido de un modelo de regresión logística incluye un nodo marginal que muestra todas las entradas usadas para el modelo y las subredes de los atributos de predicción. Para obtener más información, vea Contenido del modelo de minería de datos para los modelos de regresión logística (Analysis Services - Minería de datos).

Crear predicciones

Una vez entrenado el modelo, puede crear consultas en el contenido del modelo para obtener los coeficientes de regresión y otros detalles, o puede usar el modelo para realizar predicciones.

Para obtener información general sobre cómo crear consultas en un modelo de minería de datos, vea Consultar modelos de minería de datos (Analysis Services - Minería de datos).
Para obtener ejemplos de consultas en un modelo de regresión logística, vea Consultar un modelo de agrupación en clústeres (Analysis Services - Minería de datos).

Notas

No admite la obtención de detalles. Esto se debe a que la estructura de nodos del modelo de minería de datos no tiene por qué corresponder directamente a los datos subyacentes.
No admite la creación de dimensiones de minería de datos.
Admite el uso de modelos de minería de datos OLAP.
No admite el uso del lenguaje de marcado de modelos de predicción (PMML) para crear modelos de minería de datos.