Tutoriel : Déploiement d’un modèle de clustering en R avec le Machine Learning SQL

Article
05/30/2023

S’applique à : SQL Server 2016 (13.x) et versions ultérieures Azure SQL Managed Instance

Dans cette série de tutoriels en quatre parties, vous allez utiliser R pour développer et déployer un modèle de clustering k-moyennes dans SQL Server Machine Learning Services ou sur des Clusters Big Data pour classer les données clients par catégorie.

Dans cette série de tutoriels en quatre parties, vous allez utiliser R pour développer et déployer un modèle de clustering k-moyennes dans SQL Server Machine Learning Services pour clusteriser les données clients.

Dans cette série de tutoriels en quatre parties, vous allez utiliser R pour développer et déployer un modèle de clustering k-moyennes dans SQL Server R Services pour clusteriser les données clients.

Dans cette série de quatre tutoriels, vous allez utiliser R pour développer et déployer un modèle de clustering k-moyennes dans Azure SQL Managed Instance Machine Learning Services pour clusteriser les données client.

Dans la première partie de cette série, vous allez configurer les prérequis pour le tutoriel, puis restaurer un exemple de jeu de données dans une base de données. Dans les parties 2 et 3, vous allez développer des scripts R dans un notebook Azure Data Studio pour analyser et préparer ces exemples de données et effectuer l’apprentissage d’un modèle Machine Learning. Puis, dans la quatrième partie, vous exécuterez ces scripts R à l’intérieur d’une base de données à l’aide de procédures stockées.

Le clustering permet d’organiser les données dans des groupes dont les membres sont similaires. Pour cette série de tutoriels, imaginez que vous êtes une entreprise de vente au détail. Vous allez utiliser l’algorithme K-moyennes pour effectuer le clustering des clients dans un jeu de données d’achats et de retours de produits. Lorsque vous effectuez le clustering de clients, vous pouvez concentrer plus efficacement vos efforts marketing en ciblant des groupes spécifiques. Le clustering K-myennes est un algorithme d’apprentissage non supervisé qui recherche des modèles dans les données en fonction de similarités.

Dans cet article, vous allez apprendre à :

Restaurer un exemple de base de données

Dans la deuxième partie, vous allez préparer les données à partir d’une base de données pour effectuer le clustering.

Dans la troisième partie, vous apprendrez à créer et à effectuer l’apprentissage d’un modèle de clustering k-moyennes dans R.

Dans la quatrième partie, vous apprendrez à créer une procédure stockée dans une base de données permettant d’effectuer un clustering en R en fonction de nouvelles données.

Prérequis

SQL Server Machine Learning Services avec option de langage Python. Suivez les instructions d’installation du Guide d’installation de Windows ou du Guide d’installation de Linux. Vous pouvez également activer Machine Learning Services sur des clusters Big Data SQL Server.

SQL Server Machine Learning Services avec option de langage R. Suivez les instructions d’installation du Guide d’installation de Windows.

Azure SQL Managed Instance Machine Learning Services. Pour plus d’informations, consultez Présentation de Machine Learning Services dans Azure SQL Managed Instance.
SQL Server Management Studio pour restaurer l’exemple de base de données sur Azure SQL Managed Instance.

Azure Data Studio Vous allez utiliser un notebook dans Azure Data Studio pour SQL. Pour plus d’informations sur les notebooks, consultez Guide pratique pour utiliser des notebooks dans Azure Data Studio.
R IDE : ce tutoriel utilise RStudio Desktop.
RODBC : ce pilote est utilisé dans les scripts R que vous allez développer à l’aide de ce tutoriel. S’il n’est pas déjà installé, installez-le à l’aide de la commande R install.packages("RODBC"). Pour plus d’informations sur RODBC, consultez CRAN - Package RODBC.

Restaurer les exemples de base de données

L’exemple de jeu de données utilisé dans ce tutoriel a été enregistré dans un fichier de sauvegarde de base de données .bak que vous pouvez télécharger et utiliser. Ce jeu de données est dérivé du jeu de données TPCX-BB fourni par le TPC (Transaction Processing Performance Council).

Notes

Si vous utilisez Machine Learning Services sur des clusters Big Data, consultez Restaurer une base de données dans l’instance principale du cluster Big Data SQL Server.

Téléchargez le fichier tpcxbb_1gb. bak.
Suivez les instructions dans Restaurer une base de données à partir d’un fichier de sauvegarde dans Azure Data Studio, en utilisant les informations suivantes :
- Importez à partir du fichier tpcxbb_1gb.bak que vous avez téléchargé
- Nommez la base de données cible « tpcxbb_1gb ».
Vous pouvez vérifier que le jeu de données existe après la restauration de la base de données en interrogeant la table dbo.customer :
```
USE tpcxbb_1gb;
SELECT * FROM [dbo].[customer];
```

Téléchargez le fichier tpcxbb_1gb. bak.
Suivez les instructions de Restauration d’une base de données sur une instance gérée dans SQL Server Management Studio, en utilisant les informations suivantes :
- Importez à partir du fichier tpcxbb_1gb.bak que vous avez téléchargé
- Nommez la base de données cible « tpcxbb_1gb ».
Vous pouvez vérifier que le jeu de données existe après la restauration de la base de données en interrogeant la table dbo.customer :
```
USE tpcxbb_1gb;
SELECT * FROM [dbo].[customer];
```

Nettoyer les ressources

Si vous ne poursuivez pas ce tutoriel, supprimez la base de données tpcxbb_1gb.

Étapes suivantes

Dans la première partie de cette série de tutoriels, vous avez effectué les étapes suivantes :

Installer les prérequis
Restaurer un exemple de base de données

Pour préparer les données pour le modèle Machine Learning, suivez la deuxième partie de cette série de tutoriels :

Préparer des données pour effectuer un clustering