チュートリアル:SQL 機械学習を使用して R でクラスタリングモデルを開発する

[アーティクル]
05/30/2023

適用対象: SQL Server 2016 (13.x) 以降 Azure SQL Managed Instance

この 4 部構成のチュートリアルシリーズでは、R を使用して、ビッグデータクラスター上の SQL Server Machine Learning Services で K-Means クラスタリングモデルを開発および展開して、顧客データを分類します。

この 4 部構成のチュートリアルシリーズでは、R を使用して、SQL Server Machine Learning Services で K-Means クラスタリングモデルを開発および展開して、顧客データをクラスター化します。

この 4 部構成のチュートリアルシリーズでは、R を使用して、SQL Server R Services で K-Means クラスタリングモデルを開発および展開して、顧客データをクラスター化します。

この 4 部構成のチュートリアルシリーズでは、R を使用して、「Azure SQL Managed Instance の Machine Learning Services」で K-Means クラスタリングモデルを開発およびデプロイして、顧客データをクラスター化します。

このシリーズの第 1 部では、チュートリアルの前提条件を設定してから、サンプルデータセットをデータベースに復元します。第 2 部と第 3 部では、Azure Data Studio ノートブックでいくつかの R スクリプトを開発して、このサンプルデータを準備し、機械学習モデルをトレーニングします。その後、第 4 部では、ストアドプロシージャを使用してデータベース内でそれらの R スクリプトを実行します。

クラスター化は、グループのメンバーにある意味で類似点があるグループにデータを編成すること、として説明できます。このチュートリアルシリーズでは、小売事業を営んでいる場合を想定しています。 K-Means アルゴリズムを使用して、製品の購入と返品のデータセット内で、顧客のクラスタリングを実行します。顧客をクラスタリングすることで、特定のグループをターゲットして、マーケティングの取り組みをより効果的に進めることができます。 K-Means クラスタリングは、類似性に基づいてデータのパターンを探す教師なし学習アルゴリズムです。

この記事では、次の方法について学習します。

サンプルデータベースを復元する

第 2 部では、データベースからデータを準備してクラスタリングを実行する方法を学びます。

第 3 部では、R で K-Means クラスタリングモデルを作成し、トレーニングする方法を学びます。

パート 4 では、新しいデータに基づいて R でクラスタリングを実行できるストアドプロシージャをデータベースに作成する方法について学びます。

前提条件

SQL Server Machine Learning Services に Python 言語オプションがあること。Windows インストールガイドまたは Linux インストールガイドに記載されているインストール手順に従ってください。 SQL Server ビッグデータクラスターで Machine Learning Services を有効にすることもできます。

SQL Server Machine Learning Services に R 言語オプションがあること。Windows インストールガイドに記載されているインストール手順に従ってください。

Azure SQL Managed Instance の Machine Learning Services。詳細については、Azure SQL Managed Instance の Machine Learning Services の概要に関するページを参照してください。
サンプルデータベースを Azure SQL Managed Instance に復元するための SQL Server Management Studio。

Azure Data Studio SQL 用の Azure Data Studio では、ノートブックを使用します。ノードブックの詳細については、「Azure Data Studio でノートブックを使用する方法」を参照してください。
R IDE - このチュートリアルでは RStudio Desktop を使用します。
RODBC - このドライバーは、このチュートリアルで開発する R スクリプトで使用します。まだインストールされていない場合は、R コマンド install.packages("RODBC") を使用してインストールします。 RODBC の詳細については、「CRAN-Package RODBC」を参照してください。

サンプルデータベースを復元する

このチュートリアルで使用するサンプルデータセットは、ダウンロードして使用できるように .bak データベースバックアップファイルに保存されています。このデータセットは、トランザクション処理性能評議会 (TPC) によって提供される tpcx-bb データセットから派生しています。

注意

ビッグデータクラスターで Machine Learning Services を使用している場合は、SQL Server ビッグデータクラスターのマスターインスタンスにデータベースを復元する方法に関する記事を参照してください。

tpcxbb_1gb.bak ファイルをダウンロードします。
Azure Data Studio で、以下の詳細情報を使用して、「バックアップファイルからデータベースを復元する」に記載されている手順に従います。
- ダウンロードした tpcxbb_1gb.bak ファイルからインポートします
- ターゲットデータベースに "tpcxbb_1gb" という名前を指定します
dbo.customer テーブルに対してクエリを実行することで、データベースを復元した後にデータセットが存在することを確認できます。
```
USE tpcxbb_1gb;
SELECT * FROM [dbo].[customer];
```

tpcxbb_1gb.bak ファイルをダウンロードします。
次の詳細を使用して、SQL Server Management Studio で Managed Instance へのデータベースの復元の指示に従います。
- ダウンロードした tpcxbb_1gb.bak ファイルからインポートします
- ターゲットデータベースに "tpcxbb_1gb" という名前を指定します
dbo.customer テーブルに対してクエリを実行することで、データベースを復元した後にデータセットが存在することを確認できます。
```
USE tpcxbb_1gb;
SELECT * FROM [dbo].[customer];
```

リソースをクリーンアップする

このチュートリアルを続行しない場合は、tpcxbb_1gb データベースを削除してください。

次のステップ

このチュートリアルシリーズの第 1 部では、これらの手順を完了しました。

必須コンポーネントのインストール
サンプルデータベースの復元

機械学習モデル用にデータを準備するには、このチュートリアルシリーズの第 2 部の手順を実行します。

クラスタリングを実行するためのデータを準備する

チュートリアル:SQL 機械学習を使用して R でクラスタリングモデルを開発する

前提条件

サンプルデータベースを復元する

リソースをクリーンアップする

次のステップ

フィードバック

フィードバック

その他のリソース

チュートリアル:SQL 機械学習を使用して R でクラスタリング モデルを開発する

前提条件

サンプル データベースを復元する

リソースをクリーンアップする

次のステップ

フィードバック

フィードバック

その他のリソース

チュートリアル:SQL 機械学習を使用して R でクラスタリングモデルを開発する

サンプルデータベースを復元する