將機器學習模型定型

Azure Synapse Analytics 中的 Apache Spark 能以巨量資料實現機器學習服務,有能力從大量的結構化、非結構化和快速移動的資料中,取得寶貴的深度見解分析。 在 Azure Synapse Analytics 中使用 Azure Spark 定型機器學習模型時有數個選項:Apache Spark MLlib、Azure Machine Learning,以及各種其他開放原始碼程式庫。

Apache SparkML 和 MLlib

Azure Synapse Analytics 中的 Apache Spark 是 Microsoft 在雲端中的其中一種 Apache Spark 實作。 其提供統一的開放原始碼平行數據處理架構,可支援記憶體內部處理來提升巨量數據分析。 Spark 處理引擎是專為速度、易用性及精密分析打造的產品。 Spark 的記憶體內分散式計算功能,使其成為機器學習和圖表計算中所使用反覆演算法的絕佳選擇。

有兩個可將演算法模型化功能導入此分散式環境的可調整機器學習服務程式庫:MLlib 與 SparkML。 MLlib 包含建置在 RDD 上的原始 API。 SparkML 是較新的套件,可提供建置在 DataFrames 上的較高階 API 來建構 ML 管線。 SparkML 尚未支援 MLlib 的所有功能,但正在逐漸取代 MLlib 成為 Spark 的標準機器學習程式庫。

注意

您可以遵循本教學課程,深入瞭解如何建立SparkML模型。

Azure Synapse Analytics 中的每個 Apache Spark 集區都隨附一組預先載入且熱門的機器學習連結庫。 這些連結庫提供您可能想要包含在程式或專案中的可重複使用程序代碼。 預設包含的一些相關機器學習連結庫包括:

  • Scikit-learn 是傳統 ML 演算法最熱門的單一節點機器學習連結庫之一。 Scikit-learn 支援大部分的受監督和非監督式學習演算法,也可用於數據採礦和數據分析。

  • XGBoost 是熱門的機器學習連結庫,其中包含定型判定樹和隨機樹系的優化演算法。

  • PyTorchTensorflow 是功能強大的 Python 深度學習連結庫。 在 Azure Synapse Analytics 中的 Apache Spark 集區內,您可以將集區上的執行程式數目設定為零,使用這些連結庫來建置單一計算機模型。 雖然 Apache Spark 在此設定下無法運作,但建立單一計算機模型是簡單且符合成本效益的方式。

您可以檢視已發佈 的 Azure Synapse Analytics 運行時間,以深入瞭解可用的連結庫和相關版本。

MMLSpark

適用於 Apache Spark 的 Microsoft Machine Learning 程式庫為 MMLSpark。 此連結庫的設計目的是讓數據科學家在Spark上更有生產力、提高實驗率,以及利用大型數據集上的尖端機器學習技術,包括深度學習。

建立可調整的 ML 模型時 (例如,編製索引字串),MMLSpark 會在 SparkML 的低階 API 上提供一個層級,將資料強制轉型成機器學習服務演算法預期的版面配置,並組合功能向量。 MMLSpark 程式庫簡化了這些流程,以及在 PySpark 中建立模型的常見工作。

Azure 中的自動化 ML 機器學習 (已淘汰)

Azure 機器學習 是雲端式環境,可讓您定型、部署、自動化、管理和追蹤機器學習模型。 Azure 中的自動化 ML 機器學習 接受定型數據和組態設定,並自動逐一查看不同功能正規化/標準化方法、模型和超參數設定的組合,以達到最佳模型。

在 Azure Synapse Analytics 中使用自動化 ML 時,您可以利用不同服務之間的深度整合來簡化驗證和模型定型。

警告

  • 自 2023 年 9 月 29 日起,Azure Synapse 將會停止對 Spark 2.4 運行時間的官方支援。 在 2023 年 9 月 29 日之後,我們不會處理任何與 Spark 2.4 相關的支援票證。 Spark 2.4 的 Bug 或安全性修正不會有發行管線。 使用Spark 2.4後,支援截止日期會自行承擔風險。 由於潛在的安全性和功能考慮,我們強烈勸阻其繼續使用。
  • 作為 Apache Spark 2.4 淘汰程式的一部分,我們想要通知您 Azure Synapse Analytics 中的 AutoML 也將已被取代。 這包括低程式代碼介面和用來透過程式代碼建立 AutoML 試用版的 API。
  • 請注意,AutoML 功能是透過 Spark 2.4 運行時間獨佔提供的。
  • 對於想要繼續使用 AutoML 功能的客戶,建議您將資料儲存至 Azure Data Lake 儲存體 Gen2 (ADLSg2) 帳戶。 您可以從該處順暢地透過 Azure 機器學習 (AzureML) 存取 AutoML 體驗。 如需此因應措施的詳細資訊,請參閱 這裡

Azure AI 服務

Azure AI 服務 提供機器學習功能來解決一般問題,例如分析文字以進行情感情感,或分析影像來辨識物件或臉部。 您不需要具備機器學習或資料科學的專門知識,即可使用這些服務。 認知服務會在機器學習解決方案中提供部分或所有元件:數據、演算法和定型模型。 這些服務旨在要求對您的數據有一般知識,而不需要機器學習或數據科學的經驗。 您可以在 Azure Synapse Analytics 內自動運用這些預先定型的 Azure AI 服務。

下一步

本文將概述在 Azure Synapse Analytics 的 Apache Spark 集區中訓練機器學習模型的各種選項。 您可以依照下列教學課程來深入瞭解模型定型: