什麼是 Microsoft Fabric 中的資料科學?
Microsoft Fabric 提供資料科學體驗,讓使用者能夠完成端對端資料科學工作流程,以取得資料擴充和商業見解。 您可以完成整個資料科學程序的各種活動,從資料探索、準備和清理到實驗、模型化、模型評分,以及為 BI 報表提供預測性深入解析。
Microsoft Fabric 使用者可以存取資料科學首頁。 在這裡,他們可以探索及存取各種相關資源。 例如,他們可以建立機器學習實驗、模型和筆記本。 他們也可以將現有筆記本匯入到資料科學首頁上。
您可能知道典型資料科學程序的運作方式。 即為一個大部分機器學習專案都遵循的知名程序。
概括而言,此程序牽涉到下列步驟:
- 問題公式和構想
- 資料探索和預先處理
- 實驗和模型化
- 擴充和運作
- 獲得深入解析
本文從資料科學程序觀點,說明 Microsoft Fabric 資料科學功能。 針對資料科學程序中的每個步驟,本文會摘要說明可協助的 Microsoft Fabric 功能。
問題公式和構想
Microsoft Fabric 中的資料科學使用者與商務使用者和分析員在相同的平台上運作。 因此,跨不同角色的資料共用和共同作業會變得更順暢。 分析員可以輕鬆地與資料科學從業人員共用 Power BI 報表和資料集。 在 Microsoft Fabric 中跨角色的共同作業,讓問題制定階段的交接變得更容易。
資料探索和預先處理
Microsoft Fabric 使用者可以使用 Lakehouse 項目與 OneLake 中的資料互動。 Lakehouse 可以輕鬆地連結至筆記本,以瀏覽資料並與其互動。
使用者可以輕鬆地將資料從 Lakehouse 直接讀取到 Pandas DataFrame。 對於探索而言,這可讓您順暢地從 OneLake 讀取資料。
一組功能強大的工具可用於資料擷取和資料協調流程管線,以及資料整合管線,這是 Microsoft Fabric 的原生整合部分。 輕鬆地建置資料管線可存取資料,並將資料轉換為機器學習的可取用的格式。
資料探索
機器學習程序的重要部分是透過探索和視覺效果來了解資料。
根據資料儲存位置而定,Microsoft Fabric 會提供一組不同的工具來探索並準備資料,以用於分析和機器學習。 Notebooks 會成為開始使用資料探索的最快速方式之一。
適用於資料準備的 Apache Spark 和 Python
Microsoft Fabric 提供大規模轉換、準備及探索資料的功能。 藉助 Spark,使用者可以利用 PySpark/Python、Scala 和 SparkR/SparklyR 工具大規模地進行資料預先處理。 功能強大的開放原始碼視覺效果程式庫,可以增強資料探索體驗,以協助您進一步了解資料。
適用於無縫資料清理的 Data Wrangler
Microsoft Fabric 筆記本體驗新增了一項功能,可使用 Data Wrangler,這是準備資料並產生 Python 程式碼的程式碼工具。 此體驗可讓您輕鬆地加速繁瑣乏味的工作,例如資料清理,以及透過產生的程式碼建置可重複性和自動化。 在本文件中的 Data Wrangler 一節,深入了解 Data Wrangler。
實驗和 ML 模型
使用 PySpark/Python、SparklyR/R 等工具,筆記本可以處理機器學習模型訓練。
ML 演算法和程式庫可協助訓練機器學習模型。 程式庫管理工具可以安裝這些程式庫和演算法。 因此,使用者可以選擇利用各種不同的熱門機器學習程式庫,在 Microsoft Fabric 中完成其 ML 模型訓練。
此外,也可以使用 Scikit Learn 等熱門程式庫來開發模型。
MLflow 實驗和執行可以追蹤 ML 模型訓練。 Microsoft Fabric 提供內建的 MLflow 體驗,使用者可以與其互動,以記錄實驗和模型。 深入了解如何使用 MLflow 來追蹤 Microsoft Fabric 中的實驗和管理模型。
SynapseML
Microsoft 擁有和維護的 SynapseML (先前稱為 MMLSpark) 是開放原始碼程式庫,能夠簡化大規模可調整的機器學習管線建立。 作為工具生態系統,其可在數個新方向展開 Apache Spark 架構。 SynapseML 將數個現有的機器學習架構和新 Microsoft 演算法統一為單一、可調整的 API。 開放原始碼 SynapseML 程式庫包含豐富的 ML 工具生態系統,可用於開發預測模型,以及利用來自 Azure AI 服務的預先訓練的 AI 模型。 深入了解 SynapseML。
擴充和運作
Notebooks 可以使用用於預測的開放原始碼程式庫,或 Microsoft Fabric 可調整的通用 Spark Predict 函式,來處理機器學習模型批次評分,其支援 Microsoft Fabric 模型登錄中的 MLflow 封裝模型。
獲得深入解析
在 Microsoft Fabric 中,您可以使用 Power BI Direct Lake 模式輕鬆地將預測值寫入 OneLake,並順暢地從 Power BI 報表取用。 這可讓資料科學從業人員輕鬆地與利害關係人分享其工作的結果,同時也簡化了運作。
Notebooks 包含批次評分,可以使用筆記本排程功能排程來執行。 批次評分也可以排程為資料管線活動或 Spark 工作的一部分。 Power BI 會自動取得最新的預測,而不需要載入或重新整理資料,這要歸功於 Microsoft Fabric 中的 Direct Lake 模式。
利用語意連結 (預覽版) 的資料探索
重要
這項功能處於預覽狀態。
資料科學家和商務分析師花了大量時間嘗試了解、清理和轉換資料,然後才能開始任何有意義的分析。 商務分析師通常會使用語意模型,並將其網域知識和商務邏輯編碼為 Power BI 量值。 另一方面,資料科學家可以使用相同的資料,但通常是在不同的程式碼環境或語言中。
語意連結 (預覽版) 可讓資料科學家透過 SemPy Python 程式庫,在 Microsoft Fabric 體驗中建立 Power BI 語意模型與 Synapse 資料科學之間的連線。 當使用者對語意模型執行各種轉換時,SemPy 可藉由擷取及利用資料語意來簡化資料分析。 藉由利用語意連結,資料科學家可以:
- 不必在其程式碼中重新實作商務邏輯和網域知識
- 在其程式碼中輕鬆存取和使用 Power BI 量值
- 使用語意來提供全新體驗,例如語意函式
- 探索和驗證資料之間的功能相依項和關聯性
透過使用 SemPy,組織可以期望看到:
- 對於對相同資料集進行操作的團隊,提高其生產力並實現更快速的共同作業
- 加強商業智慧和 AI 團隊之間的共同作業
- 在上線至新的模型或資料集時,減少模棱兩可和較簡單的學習曲線
如需有關語意連結的詳細資訊,請參閱什麼是語意連結 (預覽版)?。
相關內容
- 開始使用端對端資料科學範例,請參閱資料科學教學課程
- 深入了解使用 Data Wrangler 進行資料準備和清理,請參閱 Data Wrangler
- 深入了解追蹤實驗,請參閱機器學習實驗
- 深入了解管理模型,請參閱機器學習模型
- 深入了解使用 Predict 進行批次評分,請參閱使用 PREDICT 為模型評分
- 使用 Direct lake 模式,從 Lakehouse 向 Power BI 提供預測