Tutorial: Desarrollo de un modelo de agrupación en clústeres en R con el aprendizaje automático de SQL

Se aplica a: SQL Server 2016 (13.x) y versiones posteriores Azure SQL Managed Instance

En esta serie de tutoriales de cuatro partes, usará R para desarrollar e implementar un modelo de agrupación en clústeres k-means en SQL Server Machine Learning Services o clústeres de macrodatos para categorizar datos de clientes.

En esta serie de tutoriales de cuatro partes, usará R para desarrollar e implementar un modelo de agrupación en clústeres k-means en SQL Server Machine Learning Services para agrupar en clústeres datos de clientes.

En esta serie de tutoriales de cuatro partes, usará R para desarrollar e implementar un modelo de agrupación en clústeres k-means en SQL Server R Services para agrupar en clústeres datos de clientes.

En esta serie de tutoriales de cuatro partes, usará R para desarrollar e implementar un modelo de agrupación en clústeres k-means en Machine Learning Services en Azure SQL Managed Instance para agrupar en clústeres datos de clientes.

En la primera parte de esta serie, configurará los requisitos previos para el tutorial y, después, restaurará un conjunto de datos de ejemplo en una base de datos. En las partes dos y tres, desarrollará scripts de R en un cuaderno de Azure Data Studio para analizar y preparar los datos de ejemplo y entrenar un modelo de Machine Learning. Luego, en la parte cuatro, ejecutará esos scripts de R en una base de datos mediante procedimientos almacenados.

Agrupar en clústeres es organizar datos en grupos, donde los miembros de un grupo son de alguna forma similares. Para esta serie de tutoriales, imagine que es el propietario de un negocio de venta al por menor. Usará el algoritmo k-means para realizar la agrupación de clientes en clústeres en un conjunto de datos de compras y devoluciones de productos. Al agrupar los clientes en clústeres, puede centrar sus actividades de marketing de forma más eficaz al dirigirse a grupos específicos. La agrupación en clústeres k-means es un algoritmo de aprendizaje no supervisado que analiza patrones en datos basándose en similitudes.

En este artículo, aprenderá a:

  • Restauración de una base de datos de ejemplo

En la parte dos, aprenderá a preparar los datos de una base de datos para realizar la agrupación en clústeres.

En la parte tres, aprenderá a crear y entrenar un modelo de agrupación en clústeres k-means en R.

En la parte cuatro, descubrirá cómo crear un procedimiento almacenado en una base de datos que pueda realizar la agrupación en clústeres en R basándose en datos nuevos.

Prerrequisitos

  • Azure Data Studio Usará un cuaderno en Azure Data Studio para SQL. Para obtener más información sobre los cuadernos, vea Uso de los cuadernos en Azure Data Studio.

  • IDE de R: en este tutorial se usa RStudio Desktop.

  • RODBC: este controlador se usa en los scripts de R que va a desarrollar en este tutorial. Si aún no está instalado, instálelo con el comando install.packages("RODBC") de R. Para obtener más información sobre RODBC, vea CRAN: paquete RODBC.

Restauración de la base de datos de ejemplo

El conjunto de datos de ejemplo usado en este tutorial se ha guardado en un archivo de copia de seguridad de base de datos .bak para que pueda descargarlo y usarlo. Este conjunto de datos se basa en el conjunto de datos tpcx-bb proporcionado por Transaction Processing Performance Council (TPC).

Nota

Si usa Machine Learning Services en clústeres de macrodatos, consulte Restauración de una base de datos en la instancia maestra del clúster de macrodatos de SQL Server.

  1. Descargue el archivo tpcxbb_1gb.bak.

  2. Siga las indicaciones de Restauración de una base de datos a partir de un archivo de copia de seguridad en Azure Data Studio con estos datos:

    • Importe el archivo tpcxbb_1gb.bak que ha descargado.
    • Asigne a la base de datos de destino el nombre "tpcxbb_1gb".
  3. Para asegurarse de que el conjunto de datos exista después de restaurar la base de datos, ejecute la siguiente consulta en la tabla dbo.customer:

    USE tpcxbb_1gb;
    SELECT * FROM [dbo].[customer];
    
  1. Descargue el archivo tpcxbb_1gb.bak.

  2. Siga las instrucciones de Restauración de una base de datos en un Instancia administrada en SQL Server Management Studio, con los detalles siguientes:

    • Importe el archivo tpcxbb_1gb.bak que ha descargado.
    • Asigne a la base de datos de destino el nombre "tpcxbb_1gb".
  3. Para asegurarse de que el conjunto de datos exista después de restaurar la base de datos, ejecute la siguiente consulta en la tabla dbo.customer:

    USE tpcxbb_1gb;
    SELECT * FROM [dbo].[customer];
    

Limpieza de recursos

Si no quiere continuar con este tutorial, elimine la base de datos tpcxbb_1gb.

Pasos siguientes

En la parte uno de esta serie de tutoriales, ha completado estos pasos:

  • Instalación de los requisitos previos
  • Restauración de una base de datos de ejemplo

Para preparar los datos para el modelo de aprendizaje automático, siga la parte dos de esta serie de tutoriales: