Algoritmos de minería de datos (Analysis Services: Minería de datos)

Artículo
07/30/2013

Un algoritmo de minería de datos es un conjunto de cálculos y reglas heurísticas que permite crear un modelo de minería de datos a partir de los datos. Para crear un modelo, el algoritmo analiza primero los datos proporcionados, en busca de tipos específicos de patrones o tendencias. El algoritmo usa los resultados de este análisis para definir los parámetros óptimos para la creación del modelo de minería de datos. A continuación, estos parámetros se aplican en todo el conjunto de datos para extraer patrones procesables y estadísticas detalladas.

El modelo de minería de datos que crea un algoritmo a partir de los datos puede tomar diversas formas, incluyendo:

Un conjunto de clústeres que describe cómo se relacionan los casos de un conjunto de datos.
Un árbol de decisión que predice un resultado y que describe cómo afectan a este los distintos criterios.
Un modelo matemático que predice las ventas.
Un conjunto de reglas que describen cómo se agrupan los productos en una transacción, y las probabilidades de que dichos productos se adquieran juntos.

Microsoft SQL Server Analysis Services proporciona varios algoritmos que puede usar en las soluciones de minería de datos. Estos algoritmos son implementaciones de algunas de las metodologías más conocidas usadas en la minería de datos. Todos los algoritmos de minería de datos de Microsoft se pueden personalizar y son totalmente programables, bien mediante las API proporcionadas o bien mediante los componentes de minería de datos de SQL Server Integration Services.

También puede usar algoritmos de minería de datos desarrollados por terceros que cumplan la especificación OLE DB para minería de datos, o desarrollar algoritmos personalizados que se pueden registrar como servicios para usarlos a continuación en el marco de la minería de datos de SQL Server.

Elegir el algoritmo correcto

La elección del mejor algoritmo para una tarea analítica específica puede ser un desafío. Aunque puede usar diferentes algoritmos para realizar la misma tarea, cada uno de ellos genera un resultado diferente, y algunos pueden generar más de un tipo de resultado. Por ejemplo, puede usar el algoritmo Árboles de decisión de Microsoft no solo para la predicción, sino también como una forma de reducir el número de columnas de un conjunto de datos, ya que el árbol de decisión puede identificar las columnas que no afectan al modelo de minería de datos final.

Elegir un algoritmo por tipo

Analysis Services incluye los siguientes tipos de algoritmos:

Algoritmos de clasificación, que predicen una o más variables discretas, basándose en otros atributos del conjunto de datos.
Algoritmos de regresión, que predicen una o más variables continuas, como las pérdidas o los beneficios, basándose en otros atributos del conjunto de datos.
Algoritmos de segmentación, que dividen los datos en grupos, o clústeres, de elementos que tienen propiedades similares.
Algoritmos de asociación, que buscan correlaciones entre diferentes atributos de un conjunto de datos. La aplicación más común de esta clase de algoritmo es la creación de reglas de asociación, que pueden usarse en un análisis de la cesta de compra.
Algoritmos de análisis de secuencias, que resumen secuencias o episodios frecuentes en los datos, como un flujo de rutas web.

Sin embargo, no hay ninguna razón por la que deba limitarse a un algoritmo en sus soluciones. Los analistas experimentados usarán a veces un algoritmo para determinar las entradas más eficaces (es decir, variables) y luego aplicarán un algoritmo diferente para predecir un resultado concreto basado en esos datos. La minería de datos de SQL Server le permite generar varios modelos en una única estructura de minería de datos, por lo que en una solución de minería de datos puede usar un algoritmo de clústeres, un modelo de árboles de decisión y un modelo de Bayes naïve para obtener distintas vistas de los datos. También puede usar varios algoritmos dentro de una única solución para realizar tareas independientes: por ejemplo, podría usar la regresión para obtener predicciones financieras, y un algoritmo de red neuronal para realizar un análisis de los factores que influyen en las ventas.

Elegir un algoritmo por tarea

Con el fin de ayudarle a seleccionar un algoritmo para su uso con una tarea específica, la tabla siguiente proporciona sugerencias para los tipos de tareas para las que se usa normalmente cada algoritmo.

Ejemplos de tareas	Algoritmos de Microsoft que se pueden usar
Predecir un atributo discreto Marcar los clientes de una lista de posibles compradores como clientes con buenas o malas perspectivas. Calcular la probabilidad de que un servidor genere un error en los próximos 6 meses. Clasificar la evolución de los pacientes y explorar los factores relacionados.	Algoritmo de árboles de decisión de Microsoft Algoritmo Bayes naive de Microsoft Algoritmo de clústeres de Microsoft Algoritmo de red neuronal de Microsoft
Predecir un atributo continuo Pronosticar las ventas del año próximo. Predecir los visitantes del sitio a partir de tendencias históricas y estacionales proporcionadas. Generar una puntuación de riesgo a partir de datos demográficos.	Algoritmo de árboles de decisión de Microsoft Algoritmo de serie temporal de Microsoft Algoritmo de regresión lineal de Microsoft
Predecir una secuencia Realizar un análisis clickstream del sitio web de una empresa. Analizar los factores que dan como resultado errores en el servidor. Capturar y analizar secuencias de actividades durante las visitas de pacientes externos, para formular las prácticas recomendadas en las actividades comunes.	Algoritmo de clústeres de secuencia de Microsoft
Buscar grupos de elementos comunes en las transacciones Usar el análisis de la cesta de la compra para determinar la posición del producto. Sugerir a un cliente la compra de productos adicionales. Analizar los datos de una encuesta a los visitantes a un evento, para descubrir qué actividades o stands estaban correlacionados con el fin de programar actividades futuras.	Algoritmo de asociación de Microsoft Algoritmo de árboles de decisión de Microsoft
Buscar grupos de elementos similares Crear grupos de pacientes con perfiles de riesgo en función de atributos como datos demográficos y comportamientos. Analizar usuarios mediante patrones de búsqueda y compra de productos. Identificar servidores con características de uso similares.	Algoritmo de clústeres de Microsoft Algoritmo de clústeres de secuencia de Microsoft

Predecir un atributo discreto

Marcar los clientes de una lista de posibles compradores como clientes con buenas o malas perspectivas.
Calcular la probabilidad de que un servidor genere un error en los próximos 6 meses.
Clasificar la evolución de los pacientes y explorar los factores relacionados.

Algoritmo de árboles de decisión de Microsoft

Algoritmo Bayes naive de Microsoft

Algoritmo de clústeres de Microsoft

Algoritmo de red neuronal de Microsoft

Predecir un atributo continuo

Pronosticar las ventas del año próximo.
Predecir los visitantes del sitio a partir de tendencias históricas y estacionales proporcionadas.
Generar una puntuación de riesgo a partir de datos demográficos.

Algoritmo de árboles de decisión de Microsoft

Algoritmo de serie temporal de Microsoft

Algoritmo de regresión lineal de Microsoft

Predecir una secuencia

Realizar un análisis clickstream del sitio web de una empresa.
Analizar los factores que dan como resultado errores en el servidor.
Capturar y analizar secuencias de actividades durante las visitas de pacientes externos, para formular las prácticas recomendadas en las actividades comunes.

Algoritmo de clústeres de secuencia de Microsoft

Buscar grupos de elementos comunes en las transacciones

Usar el análisis de la cesta de la compra para determinar la posición del producto.
Sugerir a un cliente la compra de productos adicionales.
Analizar los datos de una encuesta a los visitantes a un evento, para descubrir qué actividades o stands estaban correlacionados con el fin de programar actividades futuras.

Algoritmo de asociación de Microsoft

Algoritmo de árboles de decisión de Microsoft

Buscar grupos de elementos similares

Crear grupos de pacientes con perfiles de riesgo en función de atributos como datos demográficos y comportamientos.
Analizar usuarios mediante patrones de búsqueda y compra de productos.
Identificar servidores con características de uso similares.

Algoritmo de clústeres de Microsoft

Algoritmo de clústeres de secuencia de Microsoft

Contenido relacionado

En la tabla siguiente se incluyen vínculos a recursos de aprendizaje para cada uno de los algoritmos de minería de datos que se proporcionan en Analysis Services:

Descripción básica del algoritmo	Explica lo que hace que el algoritmo y cómo funciona, y describe los posibles escenarios empresariales donde podría resultar útil.
	Algoritmo de asociación de Microsoft Algoritmo de clústeres de Microsoft Algoritmo de árboles de decisión de Microsoft Algoritmo de regresión lineal de Microsoft Algoritmo de regresión logística de Microsoft Algoritmo Bayes naive de Microsoft Algoritmo de red neuronal de Microsoft Algoritmo de clústeres de secuencia de Microsoft Algoritmo de serie temporal de Microsoft
Referencia técnica	Proporciona detalles técnicos sobre la implementación del algoritmo, con referencias académicas según sea necesario. Muestra los parámetros que pueden establecerse para controlar el comportamiento del algoritmo y personalizar los resultados en el modelo. Describe los requisitos de los datos y proporciona sugerencias de rendimiento si es posible.
	Referencia técnica del algoritmo de asociación de Microsoft Referencia técnica del algoritmo de clústeres de Microsoft Referencia técnica del algoritmo de árboles de decisión de Microsoft Referencia técnica del algoritmo de regresión lineal de Microsoft Referencia técnica del algoritmo de regresión logística de Microsoft Referencia técnica del algoritmo Bayes naive de Microsoft Referencia técnica del algoritmo de red neuronal de Microsoft Referencia técnica del algoritmo de clústeres de secuencia de Microsoft Referencia técnica del algoritmo de serie temporal de Microsoft
Contenido del modelo	Explica cómo está estructurada la información dentro de cada tipo de modelo de minería de datos, y cómo interpretar la información almacenada en cada uno de los nodos.
	Contenido del modelo de minería de datos para los modelos de asociación (Analysis Services - Minería de datos) Contenido del modelo de minería de datos para los modelos de agrupación en clústeres (Analysis Services - Minería de datos) Contenido del modelo de minería de datos para los modelos de árboles de decisión (Analysis Services - Minería de datos) Contenido del modelo de minería de datos para los modelos de regresión lineal (Analysis Services - Minería de datos) Contenido del modelo de minería de datos para los modelos de regresión logística (Analysis Services - Minería de datos) Contenido del modelo de minería de datos para los modelos Bayes naive (Analysis Services - Minería de datos) Contenido del modelo de minería de datos para los modelos de red neuronal (Analysis Services - Minería de datos) Contenido del modelo de minería de datos para los modelos de agrupación en clústeres de secuencia(Analysis Services - Minería de datos) Contenido del modelo de minería de datos para los modelos de serie temporal (Analysis Services - Minería de datos)
Consultas de minería de datos	Proporciona varias consultas que se pueden usar con cada tipo de modelo. Los ejemplos incluyen consultas de contenido que le proporcionan más información sobre los patrones del modelo, así como consultas de predicción para ayudarle a crear predicciones basadas en esos patrones.
	Ejemplos de consultas del modelo de asociación Ejemplos de consultas de modelos de agrupación en clústeres Ejemplos de consultas de modelos de árboles de decisión Ejemplos de consultas de modelos de regresión lineal Ejemplos de consultas de modelos de regresión logística Ejemplos de consultas del modelo Bayes naive Ejemplos de consultas de modelos de red neuronal Ejemplos de consultas de modelos de clústeres de secuencia Ejemplos de consultas de modelos de serie temporal

Tareas relacionadas

Tema	Descripción
Determinar el algoritmo usado por un modelo de minería de datos	Consultar los parámetros usados para crear un modelo de minería de datos
Crear un algoritmo complementario personalizado	Algoritmos de complemento
Explorar un modelo con un visor específico para algoritmos	Visores de modelos de minería de datos
Ver el contenido de un modelo con un formato de tabla genérico	Examinar un modelo usando el Visor de árbol de contenido genérico de Microsoft
Obtener información sobre cómo configurar los datos y usar algoritmos para crear modelos	Estructuras de minería de datos (Analysis Services - Minería de datos) Modelos de minería de datos (Analysis Services - Minería de datos)

Vea también

Conceptos

Herramientas de minería de datos

Compartir a través de

Algoritmos de minería de datos (Analysis Services: Minería de datos)

Elegir el algoritmo correcto

Elegir un algoritmo por tipo

Elegir un algoritmo por tarea

Contenido relacionado

Tareas relacionadas

Vea también

Conceptos

Recursos adicionales