將機器學習模型定型

發行項
11/15/2023

Microsoft Fabric 中的 Apache Spark 可讓您使用巨量數據進行機器學習，讓您能夠從大量的結構化、非結構化和快速行動的數據中取得寶貴的見解。在 Microsoft Fabric 中使用 Apache Spark 來定型機器學習模型時，有幾個選項：Apache Spark MLlib、SynapseML 和其他各種開放原始碼連結庫。

Apache SparkML 和 MLlib

Microsoft Fabric 中的 Apache Spark 提供統一的開放原始碼平行數據處理架構，可支援記憶體內部處理，以提升巨量數據分析。 Spark 處理引擎是專為速度、易於使用且複雜的分析所建置。 Spark 的記憶體內部分散式計算功能使其成為機器學習和圖形計算中使用的反覆式演算法的絕佳選擇。

有兩個可調整的機器學習連結庫可將演算法模型化功能帶入此分散式環境：MLlib 和 SparkML。 MLlib 包含以 RDD 為基礎的原始 API。 SparkML 是較新的套件，可提供建置在 DataFrame 之上的較高層級 API，以建構 ML 管線。 SparkML 尚不支援 MLlib 的所有功能，但將 MLlib 取代為 Spark 的標準機器學習連結庫。

注意

您可以在使用 Apache Spark MLlib 將模型定型一文中，深入瞭解如何建立 SparkML 模型。

SynapseML

SynapseML （先前稱為 MMLSpark），是一個開放原始碼連結庫，可簡化大規模可調整機器學習管線的建立。此連結庫的設計目的是讓數據科學家在Spark上更有生產力、提高實驗率，以及利用大型數據集上的尖端機器學習技術，包括深度學習。

SynapseML 會在建置可調整的 ML 模型時，在 SparkML 的低階 API 之上提供一層，例如編制索引字串、將數據強制轉換成機器學習演算法所預期的版面配置，以及組合特徵向量。 SynapseML 連結庫可簡化在 PySpark 中建置模型的其他常見工作。

本文提供在 Microsoft Fabric 中將 Apache Spark 內機器學習模型定型的各種選項概觀。您可以遵循下列教學課程，深入瞭解模型定型：

使用 AI 範例來建置機器學習模型：使用 AI 範例
使用實驗追蹤機器學習執行：機器學習實驗

共用方式為

將機器學習模型定型

Apache SparkML 和 MLlib

熱門連結庫

SynapseML

意見反應

意見反應

其他資源

共用方式為

將機器學習模型定型

Apache SparkML 和 MLlib

熱門連結庫

SynapseML

相關內容

意見反應

意見反應

其他資源