Conceptos de minería de datos (Analysis Services - Minería de datos)
La minería de datos es el proceso de detectar la información procesable de los conjuntos grandes de datos. Utiliza el análisis matemático para deducir los patrones y tendencias que existen en los datos. Normalmente, estos patrones no se pueden detectar mediante la exploración tradicional de los datos porque las relaciones son demasiado complejas o porque hay demasiado datos.
Estos patrones y tendencias se pueden recopilar y definir como un modelo de minería de datos. Los modelos de minería de datos se pueden aplicar a situaciones empresariales como las siguientes:
Predecir ventas
Dirigir correo a clientes específicos
Determinar los productos que se pueden vender juntos
Buscar secuencias en el orden en que los clientes agregan productos a una cesta de compra
La generación de un modelo de minería de datos forma parte de un proceso mayor que incluye desde la formulación de preguntas acerca de los datos y la creación de un modelo para responder dichas cuestiones, hasta la implementación del modelo en un entorno de trabajo. Este proceso se puede definir mediante los seis pasos básicos siguientes:
Definir el problema
Preparar los datos
Explorar los datos
Generar modelos
Explorar y validar los modelos
Implementar y actualizar los modelos
El siguiente diagrama describe las relaciones entre cada paso del proceso y las tecnologías de Microsoft SQL Server que se pueden utilizar para completar cada paso.
Aunque el proceso que se ilustra en el diagrama es circular, esto no significa que cada paso conduzca directamente al siguiente. La creación de un modelo de minería de datos es un proceso dinámico e iterativo. Una vez que ha explorado los datos, puede que descubra que resultan insuficientes para crear los modelos de minería de datos adecuados y que, por tanto, debe buscar más datos. O bien, puede generar varios modelos y descubrir entonces que no responden adecuadamente al problema planteado cuando los definió y que, por tanto, debe volver a definir el problema. Es posible que deba actualizar los modelos una vez implementados debido a que haya más datos disponibles. Puede que haya que repetir cada paso del proceso muchas veces para crear un modelo adecuado.
SQL Server 2008 ofrece un entorno integrado para crear y trabajar con modelos de minería de datos denominado Business Intelligence Development Studio. Este entorno incluye algoritmos y herramientas de minería de datos que facilitan la generación de una solución completa para diversos proyectos. Para obtener más información acerca de cómo usar BI Development Studio, vea Desarrollar e implementar usando Business Intelligence Development Studio.
Después de haber creado una solución de minería de datos, puede mantenerla y examinarla utilizando SQL Server Management Studio. Para obtener más información, vea Administrar estructuras y modelos de minería de datos.
Para obtener un ejemplo de cómo las herramientas de SQL Server se pueden aplicar en un escenario empresarial, vea Tutorial básico de minería de datos.
Definir el problema
El primer paso del proceso de minería de datos, como se resalta en el siguiente diagrama, consiste en definir claramente el problema empresarial y considerar formas de proporcionar una respuesta para el mismo.
Este paso incluye analizar los requisitos empresariales, definir el ámbito del problema, definir las métricas por las que se evaluará el modelo y definir los objetivos concretos del proyecto de minería de datos. Estas tareas se traducen en preguntas como las siguientes:
¿Qué está buscando? ¿Qué tipos de relaciones intenta buscar?
¿Refleja el problema que está intentando resolver las directivas o procesos de la empresa?
¿Desea realizar predicciones a partir del modelo de minería de datos o solamente buscar asociaciones y patrones interesantes?
¿Qué atributo del conjunto de datos desea intentar predecir?
¿Cómo se relacionan las columnas? En caso de que haya varias tablas, ¿cómo se relacionan?
¿Cómo se distribuyen los datos? ¿Los datos son estacionales? ¿Los datos representan con precisión los procesos de la empresa?
Para responder a estas preguntas, puede que deba dirigir un estudio de disponibilidad de datos para investigar las necesidades de los usuarios de la empresa con respecto a los datos disponibles. Si los datos no abarcan las necesidades de los usuarios, podría tener que volver a definir el proyecto.
También debe considerar las maneras en las que los resultados del modelo se pueden incorporar en los indicadores de rendimiento clave (KPI) que se utilizan para medir el progreso comercial.
Preparar los datos
El segundo paso del proceso de minería de datos, como se indica en el siguiente diagrama, consiste en consolidar y limpiar los datos identificados en el paso Definir el problema.
Los datos pueden estar dispersos en la empresa y almacenados en formatos distintos; también pueden contener incoherencias como entradas que faltan o incorrectas. Por ejemplo, los datos pueden mostrar que un cliente adquirió un producto incluso antes que se ofreciera en el mercado o que el cliente compra regularmente en una tienda situada a 2.000 kilómetros de su casa.
La limpieza de datos no solamente implica quitar los datos no válidos, sino también buscar las correlaciones ocultas en los datos, identificar los orígenes de datos que son más precisos y determinar qué columnas son las más adecuadas para usarse en el análisis. Por ejemplo, ¿debería utilizar la fecha de envío o la fecha de pedido? ¿Qué influye más en las ventas: la cantidad, el precio total o un precio con descuento? Los datos incompletos, los datos equivocados y las entradas que parecen independientes, pero que de hecho están estrechamente correlacionadas pueden influir en los resultados del modelo de maneras que no espera. Por consiguiente, antes de empezar a generar los modelos de minería de datos, debería identificar estos problemas y determinar cómo los corregirá.
Normalmente se trabaja con un conjunto de datos muy grande y no se puede comprobar cada transacción. Por consiguiente, tiene que utilizar alguna forma de automatización, como en Integration Services, para explorar los datos y buscar las incoherencias. Microsoft Integration Services contiene todas las herramientas necesarias para completar este paso, incluidas las transformaciones para automatizar la limpieza y consolidación de los datos. Para obtener más información, vea Integration Services en Business Intelligence Development Studio.
Es importante tener en cuenta que los datos que utiliza para la minería de datos no necesitan almacenarse en un cubo de Procesamiento analítico en línea (OLAP), ni siquiera en una base de datos relacional, aunque puede utilizarlos ambos como orígenes de datos. Puede realizar minería de datos mediante cualquier origen de datos definido como origen de datos de Analysis Services. Por ejemplo, archivos de texto, libros de Excel o datos de otros proveedores externos. Para obtener más información, vea Definir orígenes de datos (Analysis Services).
Explorar los datos
El tercer paso del proceso de minería de datos, como se resalta en el siguiente diagrama, consiste en explorar los datos preparados.
Debe conocer los datos para tomar las decisiones adecuadas al crear los modelos de minería de datos. Entre las técnicas de exploración se incluyen calcular los valores mínimos y máximos, calcular la media y las desviaciones estándar, y examinar la distribución de los datos. Por ejemplo, al revisar el máximo, el mínimo y los valores de la media se podría determinar que los datos no son representativos de los clientes o procesos de negocio, y que por consiguiente debe obtener más datos equilibrados o revisar las suposiciones que son la base de sus expectativas. Las desviaciones estándar y otros valores de distribución pueden proporcionar información útil sobre la estabilidad y exactitud de los resultados. Una desviación estándar grande puede indicar que agregar más datos podría ayudarle a mejorar el modelo. Los datos que se desvían mucho de una distribución estándar se podrían sesgar o podrían representar una imagen precisa de un problema de la vida real, pero dificultar el ajustar un modelo a los datos.
Al explorar los datos para conocer el problema empresarial, puede decidir si el conjunto de datos contiene datos defectuosos y, a continuación, puede inventar una estrategia para corregir los problemas u obtener una descripción más profunda de los comportamientos que son típicos de su negocio.
El diseñador de vistas del origen de datos de BI Development Studio contiene varias herramientas que se pueden utilizar para explorar los datos. Para obtener más información, vea Diseñar vistas de origen de datos (Analysis Services) o Explorar datos en una vista de origen de datos (Analysis Services).
Además, al crear un modelo, Analysis Services crea automáticamente resúmenes estadísticos de los datos contenidos en él, que puede consultar para utilizarlos en informes o para continuar el análisis. Para obtener más información, vea Consultar modelos de minería de datos (Analysis Services - Minería de datos).
Generar modelos
El cuarto paso del proceso de minería de datos, como se resalta en el siguiente diagrama, consiste en generar el modelo o modelos de minería de datos. Utilizará los conocimientos adquiridos en el paso Explorar los datos para definir y crear los modelos.
Defina qué datos desea que se utilicen creando una estructura de minería de datos. La estructura de minería de datos define el origen de datos, pero no contiene ningún dato hasta que lo procesa. Al procesar la estructura de minería de datos, Analysis Services genera los agregados y otra información estadística que se puede utilizar para el análisis. Cualquier modelo de minería de datos que esté basado en la estructura puede utilizar esta información. Para obtener más información acerca de cómo se relacionan las estructuras de minería de datos con los modelos de minería de datos, vea Arquitectura lógica (Analysis Services - Minería de datos).
Antes de que se procese el modelo, un modelo de minería de datos simplemente es un contenedor que especifica las columnas que se usan para la entrada, el atributo que está prediciendo y parámetros que indican al algoritmo cómo procesar los datos. El proceso de un modelo también se denomina entrenamiento. El entrenamiento hace referencia al proceso de aplicar un algoritmo matemático concreto a los datos de la estructura para extraer patrones. Los patrones que encuentre en el proceso de entrenamiento dependerán de la selección de los datos de entrenamiento, el algoritmo que elija y cómo se haya configurado el algoritmo. SQL Server 2008 contiene muchos algoritmos diferentes. Cada uno está preparado para un tipo diferente de tarea y crea un tipo distinto de modelo. Para obtener una lista de los algoritmos proporcionados en SQL Server 2008, vea Algoritmos de minería de datos (Analysis Services: Minería de datos).
También puede utilizar los parámetros para ajustar cada algoritmo y puede aplicar filtros a los datos de entrenamiento para utilizar un subconjunto de los datos, creando resultados diferentes. Después de pasar los datos a través del modelo, el objeto de modelo de minería de datos contiene los resúmenes y modelos que se pueden consultar o utilizar para la predicción.
Puede definir un modelo nuevo mediante el Asistente para minería de datos de BI Development Studio o con el lenguaje DMX (Extensiones de minería de datos). Para obtener más información sobre cómo utilizar el Asistente para minería de datos, vea Asistente para minería de datos (Analysis Services - Minería de datos). Para obtener más información sobre cómo utilizar DMX, vea Referencia de Extensiones de minería de datos (DMX).
Es importante recordar que siempre que los datos cambian, debe actualizar la estructura y el modelo de minería de datos. Al actualizar una estructura de minería de datos volviéndola a procesar, Analysis Services recupera los datos del origen, incluido cualquier dato nuevo si el origen se actualiza dinámicamente, y vuelve a rellenar la estructura de minería de datos. Si tiene modelos que están basados en la estructura, puede elegir actualizar estos, lo que significa que se vuelven a entrenar con los nuevos datos, o puede dejar los modelos tal cual. Para obtener más información, vea Procesar objetos de minería de datos.
Explorar y validar los modelos
El quinto paso del proceso de minería de datos, como se resalta en el siguiente diagrama, consiste en explorar los modelos de minería de datos que ha generado y comprobar su eficacia.
Antes de implementar un modelo en un entorno de producción, es aconsejable probar si funciona correctamente. Además, al generar un modelo, normalmente se crean varios con configuraciones diferentes y se prueban todos para ver cuál ofrece los resultados mejores para su problema y sus datos.
Analysis Services proporciona herramientas que ayudan a separar los datos en conjuntos de datos de entrenamiento y pruebas, para que pueda evaluar con precisión el rendimiento de todos los modelos en los mismos datos. El conjunto de datos de entrenamiento se utiliza para generar el modelo y el conjunto de datos de prueba para comprobar la precisión del modelo mediante la creación de consultas de predicción. En SQL Server 2008 Analysis Services, este particionamiento se puede hacer automáticamente mientras se genera el modelo de minería de datos. Para obtener más información, vea Validar modelos de minería de datos (Analysis Services - Minería de datos).
Puede explorar las tendencias y patrones que los algoritmos detectan mediante los visores del diseñador de minería de datos de BI Development Studio. Para obtener más información, vea Ver un modelo de minería de datos. También puede comprobar si los modelos crean predicciones correctamente mediante herramientas del diseñador como el gráfico de elevación y la matriz de clasificación. Para comprobar si el modelo es específico de sus datos o se puede utilizar para realizar inferencias en la población general, puede utilizar la técnica estadística denominada validación cruzada para crear automáticamente subconjuntos de los datos y probar el modelo con cada uno. Para obtener más información, vea Validar modelos de minería de datos (Analysis Services - Minería de datos).
Si ninguno de los modelos que ha creado en el paso Generar modelos funciona correctamente, puede que deba volver a un paso anterior del proceso y volver a definir el problema o volver a investigar los datos del conjunto de datos original.
Implementar y actualizar los modelos
El último paso del proceso de minería de datos, como se resalta en el siguiente diagrama, consiste en implementar los modelos que funcionan mejor en un entorno de producción.
Una vez que los modelos de minería de datos se encuentran en el entorno de producción, puede llevar acabo diferentes tareas, dependiendo de sus necesidades. Las siguientes son algunas de las tareas que puede realizar:
Utilizar los modelos para crear predicciones que pueda utilizar para tomar decisiones empresariales. SQL Server ofrece el lenguaje DMX, que puede utilizar para crear consultas de predicción, y el Generador de consultas de predicción, que le ayuda a generar las consultas. Para obtener más información, vea Referencia de Extensiones de minería de datos (DMX).
Crear consultas de contenido para recuperar estadísticas, reglas o fórmulas del modelo. Para obtener más información, vea Consultar modelos de minería de datos (Analysis Services - Minería de datos).
Incrustar la funcionalidad de minería de datos directamente en una aplicación. Puede incluir Objetos de administración de análisis (AMO), que contiene un conjunto de objetos que la aplicación pueda utilizar para crear, cambiar, procesar y eliminar estructuras y modelos de minería de datos. También puede enviar mensajes XML for Analysis (XMLA) directamente a una instancia de Analysis Services. Para obtener más información, vea Desarrollo (Analysis Services - Minería de datos).
Utilizar Integration Services para crear un paquete en el que se utilice un modelo de minería de datos para dividir de forma inteligente los datos entrantes en varias tablas. Por ejemplo, si una base de datos se actualiza continuamente con clientes potenciales, puede utilizar un modelo de minería de datos junto con Integration Services para dividir los datos entrantes en clientes que probablemente compren un producto y clientes que probablemente no compren un producto. Para obtener más información, vea Usos típicos de Integration Services.
Crear un informe que permita a los usuarios realizar consultas directamente en un modelo de minería de datos existente. Para obtener más información, vea Reporting Services en Business Intelligence Development Studio (SSRS).
Actualizar los modelos después de la revisión y análisis. Cualquier actualización requiere que vuelve a procesar los modelos. Para obtener más información, vea Procesar estructuras y modelos (Analysis Services - Minería de datos).
Actualizar dinámicamente los modelos, cuando entren más datos en la organización, y realizar modificaciones constantes para mejorar la efectividad de la solución debería ser parte de la estrategia de implementación. Para obtener más información, vea Administrar estructuras y modelos de minería de datos