共用方式為


將機器學習模型定型

Microsoft Fabric 中的 Apache Spark 可讓您使用巨量數據進行機器學習,讓您能夠從大量的結構化、非結構化和快速行動的數據中取得寶貴的見解。 在 Microsoft Fabric 中使用 Apache Spark 來定型機器學習模型時,有幾個選項:Apache Spark MLlib、SynapseML 和其他各種開放原始碼連結庫。

Apache SparkML 和 MLlib

Microsoft Fabric 中的 Apache Spark 提供統一的開放原始碼平行數據處理架構,可支援記憶體內部處理,以提升巨量數據分析。 Spark 處理引擎是專為速度、易於使用且複雜的分析所建置。 Spark 的記憶體內部分散式計算功能使其成為機器學習和圖形計算中使用的反覆式演算法的絕佳選擇。

有兩個可調整的機器學習連結庫可將演算法模型化功能帶入此分散式環境:MLlib 和 SparkML。 MLlib 包含以 RDD 為基礎的原始 API。 SparkML 是較新的套件,可提供建置在 DataFrame 之上的較高層級 API,以建構 ML 管線。 SparkML 尚不支援 MLlib 的所有功能,但將 MLlib 取代為 Spark 的標準機器學習連結庫。

注意

您可以在使用 Apache Spark MLlib 將模型定型一文中,深入瞭解如何建立 SparkML 模型。

適用於 Apache Spark 的 Microsoft Fabric 執行時間包含數個熱門的開放原始碼套件,可用於定型機器學習模型。 這些連結庫提供您可能想要包含在程式或專案中的可重複使用程序代碼。 預設包含的一些相關機器學習連結庫包括:

  • Scikit-learn 是傳統 ML 演算法最熱門的單一節點機器學習連結庫之一。 Scikit-learn 支援大部分的受監督和非監督式學習演算法,也可用於數據採礦和數據分析。

  • XGBoost 是熱門的機器學習連結庫,其中包含定型判定樹和隨機樹系的優化演算法。

  • PyTorchTensorflow 是功能強大的 Python 深度學習連結庫。 您可以將集區上的執行程式數目設定為零,使用這些連結庫來建置單一計算機模型。 雖然 Apache Spark 在此設定下無法運作,但建立單一計算機模型是簡單且符合成本效益的方式。

SynapseML

SynapseML (先前稱為 MMLSpark),是一個開放原始碼連結庫,可簡化大規模可調整機器學習管線的建立。 此連結庫的設計目的是讓數據科學家在Spark上更有生產力、提高實驗率,以及利用大型數據集上的尖端機器學習技術,包括深度學習。

SynapseML 會在建置可調整的 ML 模型時,在 SparkML 的低階 API 之上提供一層,例如編制索引字串、將數據強制轉換成機器學習演算法所預期的版面配置,以及組合特徵向量。 SynapseML 連結庫可簡化在 PySpark 中建置模型的其他常見工作。

本文提供在 Microsoft Fabric 中將 Apache Spark 內機器學習模型定型的各種選項概觀。 您可以遵循下列教學課程,深入瞭解模型定型: