Tutorial: Desarrollo de un modelo de agrupación en clústeres en R con el aprendizaje automático de SQL
Se aplica a: SQL Server 2016 (13.x) y versiones posteriores Azure SQL Managed Instance
En esta serie de tutoriales de cuatro partes, usará R para desarrollar e implementar un modelo de agrupación en clústeres k-means en SQL Server Machine Learning Services o clústeres de macrodatos para categorizar datos de clientes.
En esta serie de tutoriales de cuatro partes, usará R para desarrollar e implementar un modelo de agrupación en clústeres k-means en SQL Server Machine Learning Services para agrupar en clústeres datos de clientes.
En esta serie de tutoriales de cuatro partes, usará R para desarrollar e implementar un modelo de agrupación en clústeres k-means en SQL Server R Services para agrupar en clústeres datos de clientes.
En esta serie de tutoriales de cuatro partes, usará R para desarrollar e implementar un modelo de agrupación en clústeres k-means en Machine Learning Services en Azure SQL Managed Instance para agrupar en clústeres datos de clientes.
En la primera parte de esta serie, configurará los requisitos previos para el tutorial y, después, restaurará un conjunto de datos de ejemplo en una base de datos. En las partes dos y tres, desarrollará scripts de R en un cuaderno de Azure Data Studio para analizar y preparar los datos de ejemplo y entrenar un modelo de Machine Learning. Luego, en la parte cuatro, ejecutará esos scripts de R en una base de datos mediante procedimientos almacenados.
Agrupar en clústeres es organizar datos en grupos, donde los miembros de un grupo son de alguna forma similares. Para esta serie de tutoriales, imagine que es el propietario de un negocio de venta al por menor. Usará el algoritmo k-means para realizar la agrupación de clientes en clústeres en un conjunto de datos de compras y devoluciones de productos. Al agrupar los clientes en clústeres, puede centrar sus actividades de marketing de forma más eficaz al dirigirse a grupos específicos. La agrupación en clústeres k-means es un algoritmo de aprendizaje no supervisado que analiza patrones en datos basándose en similitudes.
En este artículo, aprenderá a:
- Restauración de una base de datos de ejemplo
En la parte dos, aprenderá a preparar los datos de una base de datos para realizar la agrupación en clústeres.
En la parte tres, aprenderá a crear y entrenar un modelo de agrupación en clústeres k-means en R.
En la parte cuatro, descubrirá cómo crear un procedimiento almacenado en una base de datos que pueda realizar la agrupación en clústeres en R basándose en datos nuevos.
Prerrequisitos
- SQL Server Machine Learning Services con la opción de lenguaje de Python: siga las instrucciones de instalación en la Guía de instalación para Windows o la Guía de instalación para Linux. También puede habilitar Machine Learning Services en clústeres de macrodatos de SQL Server.
- SQL Server Machine Learning Services con la opción de lenguaje de R: siga las instrucciones de instalación en la Guía de instalación para Windows.
Machine Learning Services en Azure SQL Managed Instance. Para obtener información, vea Machine Learning Services de Instancia administrada de Azure SQL (versión preliminar).
SQL Server Management Studio (SSMS): usa SSMS para restaurar la base de datos de ejemplo en Azure SQL Managed Instance. Para hacer la descarga, consulta SQL Server Management Studio.
Azure Data Studio Usará un cuaderno en Azure Data Studio para SQL. Para obtener más información sobre los cuadernos, vea Uso de los cuadernos en Azure Data Studio.
IDE de R: en este tutorial se usa RStudio Desktop.
RODBC: este controlador se usa en los scripts de R que vas a desarrollar en este tutorial. Si aún no está instalado, instálelo con el comando
install.packages("RODBC")
de R. Para obtener más información sobre RODBC, vea CRAN: paquete RODBC.
Restauración de la base de datos de ejemplo
El conjunto de datos de ejemplo usado en este tutorial se ha guardado en un archivo de copia de seguridad de base de datos .bak
para que puedas descargarlo y usarlo. Este conjunto de datos se basa en el conjunto de datos tpcx-bb proporcionado por Transaction Processing Performance Council (TPC).
Nota
Si usa Machine Learning Services en clústeres de macrodatos, consulte Restauración de una base de datos en la instancia maestra del clúster de macrodatos de SQL Server.
Descargue el archivo tpcxbb_1gb.bak.
Siga las indicaciones de Restauración de una base de datos a partir de un archivo de copia de seguridad en Azure Data Studio con estos datos:
- Importe el archivo
tpcxbb_1gb.bak
que ha descargado. - Asigne el nombre
tpcxbb_1gb
a la base de datos de destino.
- Importe el archivo
Para asegurarte de que el conjunto de datos exista después de restaurar la base de datos, ejecuta la siguiente consulta en la tabla
dbo.customer
:USE tpcxbb_1gb; SELECT * FROM [dbo].[customer];
Descargue el archivo tpcxbb_1gb.bak.
Siga las instrucciones de Restauración de una base de datos en un Instancia administrada en SQL Server Management Studio, con los detalles siguientes:
- Importe el archivo
tpcxbb_1gb.bak
que ha descargado. - Asigne el nombre
tpcxbb_1gb
a la base de datos de destino.
- Importe el archivo
Para asegurarte de que el conjunto de datos exista después de restaurar la base de datos, ejecuta la siguiente consulta en la tabla
dbo.customer
:USE tpcxbb_1gb; SELECT * FROM [dbo].[customer];
Limpieza de recursos
Si no quiere continuar con este tutorial, elimine la base de datos tpcxbb_1gb
.
Paso siguiente
En la parte uno de esta serie de tutoriales, ha completado estos pasos:
- Instalación de los requisitos previos
- Restauración de una base de datos de ejemplo
Para preparar los datos para el modelo de aprendizaje automático, siga la parte dos de esta serie de tutoriales: