將機器學習模型定型
Apache Spark (Microsoft Fabric 的一部分),可透過巨量資料進行機器學習。 透過 Apache Spark,您可以對大量結構化、非結構化和快速行動的資料中建置寶貴的見解。 您可以使用多種開放原始碼程式庫選項在 Microsoft Fabric 中使用 Apache Spark 來訓練機器學習模型:Apache Spark MLlib、SynapseML 等等。
Apache SparkML 和 MLlib
Apache Spark (Microsoft Fabric 的一部分),提供統一、開放原始碼的平行資料處理架構。 此架構支援記憶體內部處理,可提升巨量資料分析。 Spark 處理引擎是專為速度、易用性及精密分析打造的產品。 Spark 的記憶體內分散式運算功能,使其成為機器學習和圖表運算中所使用反覆演算法的絕佳選擇。
有兩個可將演算法模型化功能匯入此分散式環境的可調整機器學習服務程式庫:MLlib 和 SparkML。 MLlib 包含建置在 RDD 上的原始 API。 SparkML 是較新的套件。 可提供建置在 DataFrame 上的較高階 API 來建構 ML 管線。 SparkML 尚未支援 MLlib 的所有功能,但正在逐漸取代 MLlib 成為 Spark 的標準機器學習程式庫。
注意
如需有關 SparkML 模型建立的詳細資訊,請瀏覽資源:使用 Apache Spark MLlib 訓練模型。
熱門程式庫
適用於 Apache Spark 的 Microsoft Fabric 執行階段包含數個熱門的開放原始碼套件,可用於訓練機器學習模型。 這些程式庫提供您要包含在程式或專案中的可重複使用程式碼。 執行階段包含這些相關的機器學習程式庫,以及其他項目:
Scikit-learn - 經典 ML 演算法最熱門的單一節點機器學習程式庫之一。 Scikit-learn 支援大部分的監督式和非監督式學習演算法,也可處理資料採礦和資料分析。
XGBoost - 熱門的機器學習程式庫,其中包含訓練決策樹和隨機樹系的最佳化演算法。
PyTorch 和 Tensorflow 是功能強大的 Python 深度學習程式庫。 利用這些程式庫,您可以將集區上的執行程式數目設定為零,進而組建單一電腦模型。 雖然該組態不支援 Apache Spark,但建立單一電腦模型是簡單且符合成本效益的方式。
SynapseML
SynapseML 開放原始碼程式庫,(之前稱為 MMLSpark) 可簡化可大規模調整的機器學習 (ML) 管線的建立。 藉此,資料科學家使用 Spark 將更具生產力,因此程式庫不僅可提高實驗率,還可在大型資料集上運用各種尖端機器學習技術,包括深度學習。
SynapseML 會在建置可調整的 ML 模型時,提供 SparkML 低階 API 上方的一層。 這些 API 涵蓋字串索引、特徵向量組件、將資料強制型轉成適用於機器學習演算法的版面配置等等。 SynapseML 程式庫簡化了這些流程,以及在 PySpark 中建立模型的常見工作。
相關內容
本文將概述在 Microsoft Fabric 的 Apache Spark 中訓練機器學習模型的各種可用選項。 如需有關模型訓練的詳細資訊,請瀏覽下列資源: