Tutorial: Erstellen eines Clusteringmodells in R mit SQL Machine Learning

Gilt für: SQL Server 2016 (13.x) und höher Azure SQL Managed Instance

In dieser vierteiligen Tutorialreihe verwenden Sie R zum Entwickeln und Bereitstellen eines K-Means-Clustermodells in SQL Server Machine Learning Services oder in Big Data-Clustern zum Kategorisieren von Kundendaten.

In dieser vierteiligen Tutorialreihe verwenden Sie R zum Entwickeln und Bereitstellen eines K-Means-Clustermodells in SQL Server Machine Learning Services zum Clustern von Kundendaten.

In dieser vierteiligen Tutorialreihe verwenden Sie R zum Entwickeln und Bereitstellen eines K-Means-Clustermodells in SQL Server R Services zum Clustern von Kundendaten.

In dieser vierteiligen Tutorialreihe verwenden Sie R zum Entwickeln und Bereitstellen eines K-Means-Clustermodells in Machine Learning Services in Azure SQL Managed Instance zum Clustern von Kundendaten.

Im ersten Teil dieser Reihe richten Sie die Voraussetzungen für das Tutorial ein und stellen dann ein Beispieldataset für eine Datenbank wieder her. Im zweiten und dritten Teil entwickeln Sie R-Skripts in einem Azure Data Studio-Notebook, um diese Beispieldaten zu analysieren und vorzubereiten sowie um ein Machine Learning-Modell zu trainieren. Im vierten Teil führen Sie diese R-Skripts in einer Datenbank mithilfe gespeicherter Prozeduren aus.

Clustering kann als Organisieren von Daten in Gruppen beschrieben werden, in denen Mitglieder einer Gruppe in irgendeiner Weise ähnlich sind. Stellen Sie sich für diese Tutorialreihe vor, dass Sie ein Einzelhandelsgeschäft besitzen. Sie verwenden den K-Means-Algorithmus zum Durchführen des Clusterings von Kunden in einem Dataset von Produktkäufen und -rückgaben. Durch das Clustern von Kunden können Sie Ihre Marketingmaßnahmen effektiver auf bestimmte Gruppen ausrichten. K-Means-Clustering ist ein nicht überwachter Lernalgorithmus, der auf der Grundlage von Ähnlichkeiten nach Mustern in Daten sucht.

In diesem Artikel lernen Sie Folgendes:

  • Wiederherstellen einer Beispieldatenbank

In Teil 2 lernen Sie, wie Sie die Daten aus einer Datenbank für das Clustering vorbereiten.

In Teil 3 erfahren Sie, wie Sie ein K-Means-Clustermodell in R erstellen und trainieren.

In Teil 4 erfahren Sie, wie Sie eine gespeicherte Prozedur in einer Datenbank erstellen, die Clustering auf der Grundlage neuer Daten in R durchführen kann.

Voraussetzungen

  • Azure Data Studio Für SQL verwenden Sie ein Notebook in Azure Data Studio. Weitere Informationen zu Notebooks finden Sie unter Verwenden von Notebooks in Azure Data Studio.

  • R-IDE: In diesem Tutorial wird RStudio Desktop verwendet.

  • RODBC: Dieser Treiber wird in den R-Skripts verwendet, die Sie in diesem Tutorial entwickeln. Installieren Sie ihn mithilfe des R-Befehls install.packages("RODBC"), sofern er noch nicht installiert ist. Weitere Informationen zu RODBC finden Sie unter CRAN – RODBC-Paket.

Wiederherstellen der Beispieldatenbank

Das in diesem Tutorial verwendete Beispieldataset wurde in einer BAK-Datenbanksicherungsdatei gespeichert, die Sie herunterladen und verwenden können. Dieses Dataset wird aus dem tpcx-bb-Dataset abgeleitet, das von TPC (Transaction Processing Performance Council) bereitgestellt wird.

Hinweis

Wenn Sie Machine Learning Services in Big Data-Clustern verwenden, finden Sie Informationen zum Wiederherstellen unter Wiederherstellen einer Datenbank in der Masterinstanz eines Big Data-Clusters für SQL Server.

  1. Laden Sie die Datei tpcxbb_1gb.bak herunter.

  2. Befolgen Sie die Anweisungen unter Wiederherstellen einer Datenbank aus einer Sicherungsdatei in Azure Data Studio, und verwenden Sie hierzu die folgenden Details:

    • Importieren Sie aus der heruntergeladenen Datei tpcxbb_1gb.bak.
    • Geben Sie der Zieldatenbank den Namen „tpcxbb_1gb“.
  3. Nach dem Wiederherstellen der Datenbank können Sie überprüfen, ob das Dataset vorhanden ist, indem Sie die Tabelle dbo.customer abfragen:

    USE tpcxbb_1gb;
    SELECT * FROM [dbo].[customer];
    
  1. Laden Sie die Datei tpcxbb_1gb.bak herunter.

  2. Befolgen Sie die Anweisungen unter Schnellstart: Wiederherstellen einer Datenbank in Azure SQL Managed Instance mit SSMS für die Ausführung in SQL Server Management Studio. Verwenden Sie hierzu die folgenden Details:

    • Importieren Sie aus der heruntergeladenen Datei tpcxbb_1gb.bak.
    • Geben Sie der Zieldatenbank den Namen „tpcxbb_1gb“.
  3. Nach dem Wiederherstellen der Datenbank können Sie überprüfen, ob das Dataset vorhanden ist, indem Sie die Tabelle dbo.customer abfragen:

    USE tpcxbb_1gb;
    SELECT * FROM [dbo].[customer];
    

Bereinigen von Ressourcen

Wenn Sie nicht mit diesem Tutorial fortfahren möchten, löschen Sie die Datenbank „tpcxbb_1gb“.

Nächste Schritte

Im ersten Teil dieser Tutorialreihe haben Sie die folgenden Schritte ausgeführt:

  • Installieren der Voraussetzungen
  • Wiederherstellen einer Beispieldatenbank

Fahren Sie mit dem zweiten Teil dieser Tutorialreihe fort, um die Daten für das Machine Learning-Modell vorzubereiten: