瞭解如何使用預測性機器學習模型,輕鬆擴充專用 SQL 集區中的資料。 資料科學家建立的模型現在可供資料專業人員輕鬆存取以進行預測分析。 Azure Synapse Analytics 中的資料專業人員只要從 Azure Machine Learning 模型登錄中選取模型,以部署在 Azure Synapse SQL 集區中,並啟動預測以擴充資料。
在本教學課程中,您將了解如何:
- 定型預測式機器學習模型與 Azure Machine Learning 模型登錄的登錄模型。
- 使用 SQL 評分精靈啟動專用 SQL 集區的預測。
如果您沒有 Azure 訂用帳戶,請 先建立免費帳戶,再開始。
先決條件
- Azure Synapse Analytics 工作區 ,其 Azure Data Lake Storage Gen2 儲存體帳戶已設定為預設儲存體。 使用 Data Lake Storage Gen2 檔案系統時,您必須是該檔案系統的儲存體 Blob 資料參與者。
- Azure Synapse Analytics 工作區中的專用 SQL 集區。 如需詳細資訊,請參閱 建立專用 SQL 集區。
- Azure Synapse Analytics 工作區中的 Azure Machine Learning 連結服務。 如需詳細資訊,請參閱 在 Azure Synapse 中建立 Azure Machine Learning 連結服務。
登入 Azure 入口網站
登入 Azure 入口網站。
在 Azure Machine Learning 中定型模型
開始之前,請確認您的 sklearn 版本為 0.20.3。
執行筆記本中所有的儲存格前,請檢查計算執行個體是否正在執行。
移至您的 Azure Machine Learning 工作區。
在 Azure Machine Learning Studio 中開啟 Azure Machine Learning 工作區。
移至 Notebooks>上傳檔案。 然後選取您下載的 Predict NYC Taxi Tips.ipynb 檔案並上傳。
上傳並開啟筆記本之後,選取 [執行所有儲存格]。
其中一個儲存格可能會失敗,並要求您向 Azure 進行驗證。 儲存格輸出時,請留意這個項目,並依照連結指示輸入密碼。 然後重新執行筆記本。
筆記本會定型 ONNX 模型,並向 MLflow 註冊。 前往 [模型] 以檢查新模型是否已正確註冊。
執行筆記本也會將測試資料匯出至 CSV 檔案。 將 CSV 檔案下載到本機系統。 稍後,您會將 CSV 檔案匯入專用 SQL 集區,並使用資料來測試模型。
CSV 檔案會建立在與筆記本檔案相同的資料夾中。 如果您沒有立即看到它,請選擇在文件資源管理器中刷新。
使用 SQL 評分精靈啟動預測
使用 Synapse Studio 開啟 Azure Synapse 工作區。
前往 [資料]>[已連結]>[儲存體帳戶]。 上傳
test_data.csv至預設儲存體帳戶。
移至 開發>SQL 指令碼。 建立新的 SQL 指令碼,將
test_data.csv載入至您的專用 SQL 集區。備註
在執行之前,請先更新此指令碼中的檔案 URL。
IF NOT EXISTS (SELECT * FROM sys.objects WHERE NAME = 'nyc_taxi' AND TYPE = 'U') CREATE TABLE dbo.nyc_taxi ( tipped int, fareAmount float, paymentType int, passengerCount int, tripDistance float, tripTimeSecs bigint, pickupTimeBin nvarchar(30) ) WITH ( DISTRIBUTION = ROUND_ROBIN, CLUSTERED COLUMNSTORE INDEX ) GO COPY INTO dbo.nyc_taxi (tipped 1, fareAmount 2, paymentType 3, passengerCount 4, tripDistance 5, tripTimeSecs 6, pickupTimeBin 7) FROM '<URL to linked storage account>/test_data.csv' WITH ( FILE_TYPE = 'CSV', ROWTERMINATOR='0x0A', FIELDQUOTE = '"', FIELDTERMINATOR = ',', FIRSTROW = 2 ) GO SELECT TOP 100 * FROM nyc_taxi GO
前往 Data>Workspace。 以滑鼠右鍵按一下專用 SQL 集區資料表,以開啟 SQL 評分精靈。 選取 機器學習>使用模型進行預測。
備註
除非您已為 Azure Machine Learning 建立連結服務,否則不會顯示機器學習選項。 (請參閱本教學課程開頭的 必要條件 。
在下拉式方塊中選取連結的 Azure Machine Learning 工作區。 此步驟會從所選 Azure Machine Learning 工作區的模型登錄載入機器學習模型清單。 目前僅支援 ONNX 模型,因此此步驟只會顯示 ONNX 模型。
選取您剛定型的模型,然後選取 [繼續]。
將表格直欄對映至模型輸入,並指定模型輸出。 如果模型以 MLflow 格式儲存,且填入模型簽章,則會使用以名稱相似性為基礎的邏輯,自動為您完成對應。 該介面也支援手動映射。
選取繼續。
產生的 T-SQL 程式代碼會包裝在預存程式內。 這就是您需要提供預存程序名稱的原因。 模型二進位檔,連同中繼資料(版本、描述和其他資訊),將會從 Azure Machine Learning 實體複製到專用的 SQL 資料集區資料表。 因此,您需要指定要將模型保存在哪個表中。
您可以選擇 [現有資料表] 或 [建立新資料表]。 完成時,請選取 [部署模型 + 開啟腳本 ] 以部署模型並產生 T-SQL 預測腳本。
產生指令碼之後,請選取 [執行] 以執行評分並取得預測。