チュートリアル: 専用 SQL プール用の機械学習モデルスコアリングウィザード

予測機械学習モデルを使用して、専用 SQL プール内のデータを簡単に強化する方法について説明します。データサイエンティストが作成するモデルに、予測分析のためにデータプロフェッショナルが簡単にアクセスできるようになりました。 Azure Synapse Analytics のデータプロフェッショナルは、Azure Synapse SQL プールへのデプロイ用に Azure Machine Learning モデルレジストリからモデルを選択し、予測を起動してデータを強化できます。

このチュートリアルで学習する内容は次のとおりです。

予測機械学習モデルをトレーニングし、モデルを Azure Machine Learning モデルレジストリに登録する。
SQL スコアリングウィザードを使用して、専用 SQL プールで予測を開始する。

Azure サブスクリプションをお持ちでない場合は、開始する前に無料アカウントを作成してください。

[前提条件]

Azure Data Lake Storage Gen2 ストレージアカウントが既定のストレージとして構成されている Azure Synapse Analytics ワークスペース。使用する Data Lake Storage Gen2 ファイルシステムのストレージ BLOB データ共同作成者 である必要があります。
Azure Synapse Analytics ワークスペース内の専用 SQL プール。詳細については、「専用 SQL プールの作成」を参照してください。
Azure Synapse Analytics ワークスペース内の Azure Machine Learning のリンクされたサービス。詳細については、「 Azure Synapse で Azure Machine Learning のリンクされたサービスを作成する」を参照してください。

Azure portal にサインインします。

Azure Machine Learning でモデルをトレーニングする

開始する前に、sklearn のバージョンが 0.20.3 であることを確認します。

ノートブック内のすべてのセルを実行する前に、コンピューティングインスタンスが実行されていることを確認します。

Azure Machine Learning コンピューティングの検証を示すスクリーンショット。

Azure Machine Learning ワークスペースに移動します。
Predict NYC Taxi Tips.ipynb をダウンロードします。
Azure Machine Learning Studio で Azure Machine Learning ワークスペースを開きます。
Notebooks>ファイルをアップロードを開く。次に、ダウンロードした Predict NYC Taxi Tips.ipynb ファイルを選択してアップロードします。
ノートブックをアップロードして開いた後、[ すべてのセルを実行] を選択します。

いずれかのセルが失敗し、Azure に対する認証を求められる場合があります。セルの出力でこれを確認し、リンクに従ってコードを入力してブラウザーで認証します。次に、ノートブックを再実行します。
ノートブックは ONNX モデルをトレーニングし、MLflow に登録します。 [モデル] に移動して、新しいモデルが正しく登録されていることを確認します。
ノートブックを実行すると、テストデータも CSV ファイルにエクスポートされます。 CSV ファイルをローカルシステムにダウンロードします。後で、CSV ファイルを専用 SQL プールにインポートし、データを使用してモデルをテストします。

CSV ファイルは、ノートブックファイルと同じフォルダーに作成されます。すぐに表示されない場合は、ファイルエクスプローラーで[更新]を選択します。

SQL スコアリングウィザードを使用して予測を起動する

Synapse Studio で Azure Synapse ワークスペースを開きます。
Data>リンクされた>ストレージアカウントに移動します。 test_data.csvを既定のストレージアカウントにアップロードします。

開発>SQL スクリプトに移動します。 test_data.csvを専用 SQL プールに読み込む新しい SQL スクリプトを作成します。

注

実行する前に、このスクリプトのファイル URL を更新します。

IF NOT EXISTS (SELECT * FROM sys.objects WHERE NAME = 'nyc_taxi' AND TYPE = 'U')
CREATE TABLE dbo.nyc_taxi
(
    tipped int,
    fareAmount float,
    paymentType int,
    passengerCount int,
    tripDistance float,
    tripTimeSecs bigint,
    pickupTimeBin nvarchar(30)
)
WITH
(
    DISTRIBUTION = ROUND_ROBIN,
    CLUSTERED COLUMNSTORE INDEX
)
GO

COPY INTO dbo.nyc_taxi
(tipped 1, fareAmount 2, paymentType 3, passengerCount 4, tripDistance 5, tripTimeSecs 6, pickupTimeBin 7)
FROM '<URL to linked storage account>/test_data.csv'
WITH
(
    FILE_TYPE = 'CSV',
    ROWTERMINATOR='0x0A',
    FIELDQUOTE = '"',
    FIELDTERMINATOR = ',',
    FIRSTROW = 2
)
GO

SELECT TOP 100 * FROM nyc_taxi
GO

専用 SQL プールにデータを読み込む

Data>Workspace に移動します。専用 SQL プールテーブルを右クリックして、SQL スコアリングウィザードを開きます。モデルを使用して機械学習>の予測を選択します。

注

Azure Machine Learning 用にリンクされたサービスが作成されていない限り、機械学習オプションは表示されません。 (このチュートリアルの冒頭の前提条件を参照してください)。
リンクされた Azure Machine Learning ワークスペースをドロップダウンボックスで選択します。この手順では、選択した Azure Machine Learning ワークスペースのモデルレジストリから機械学習モデルの一覧を読み込みます。現在、ONNX モデルのみがサポートされているため、この手順では ONNX モデルのみが表示されます。
トレーニングしたモデルを選択し、[ 続行] を選択します。
テーブル列をモデル入力にマップし、モデルの出力を指定します。モデルが MLflow 形式で保存され、モデル署名が設定されている場合、名前の類似性に基づくロジックを使用して、マッピングが自動的に行われます。このインターフェイスでは、手動マッピングもサポートされています。

続行を選択します。
生成された T-SQL コードは、ストアドプロシージャ内でラップされます。このため、ストアドプロシージャ名を指定する必要があります。メタデータ (バージョン、説明、およびその他の情報) を含むモデルバイナリは、Azure Machine Learning から専用 SQL プールテーブルに物理的にコピーされます。そのため、モデルを保存するテーブルを指定する必要があります。

[既存のテーブル] または [新規作成] を選択できます。完了したら、[ Deploy model + open script]\(モデルのデプロイと開くスクリプト \) を選択してモデルをデプロイし、T-SQL 予測スクリプトを生成します。
スクリプトが生成されたら、[ 実行 ] を選択してスコア付けを実行し、予測を取得します。