針對數據擴充和商務深入解析,Microsoft Fabric 提供數據科學體驗,讓用戶能夠建置端對端數據科學工作流程。 要開始,請參閱 資料科學的端對端教學。
您可以在整個資料科學流程中完成各種不同的任務:
Microsoft Fabric 使用者可以存取數據科學首頁。 然後,他們可以探索及存取各種相關資源,如下列螢幕快照所示:
大部分的機器學習專案都遵循數據科學程式。 概括而言,該程式牽涉到下列步驟:
本文從資料科學程序觀點,說明 Microsoft Fabric 資料科學功能。 針對資料科學程序中的每個步驟,本文會摘要說明可協助的 Microsoft Fabric 功能。
問題公式和構想
Microsoft Fabric 中的資料科學使用者與商務使用者和分析員在相同的平台上運作。 因此,跨不同角色的資料共用和共同作業會變得更順暢。 分析員可以輕鬆地與資料科學從業人員共用 Power BI 報表和資料集。 Microsoft Fabric 中跨角色的共同作業讓問題制定階段的交接變得更容易。
數據探索和前置處理
Microsoft Fabric 使用者可透過 Lakehouse 資源與 OneLake 中的資料互動。 為了流覽及與數據互動,Lakehouse 可以輕鬆地附加至筆記本。 使用者可以輕鬆地將資料從 Lakehouse 直接讀取到 Pandas DataFrame。 在探索中,從 OneLake 讀取數據變得順暢而可能。
一組功能強大的工具可用於資料擷取和資料協調流程管線,以及資料整合管線,這是 Microsoft Fabric 的原生整合部分。 易於建置的管線可以存取資料並將其轉換為機器學習可以使用的格式。
資料探索
機器學習程式的一個重要部分是透過探索和視覺效果來了解數據。
根據數據儲存位置,Microsoft Fabric 提供工具來探索和準備數據以進行分析和機器學習。 筆記本本身會變得有效率、有效的數據探索工具。
適用於資料準備的 Apache Spark 和 Python
Microsoft Fabric 可以大規模轉換、準備及探索您的數據。 透過Spark,使用者可以使用 PySpark/Python、Scala 和 SparkR/SparklyR 工具大規模前置處理數據。 功能強大的開放原始碼視覺效果連結庫可以增強數據探索體驗,以進一步了解數據。
適用於無縫資料清理的 Data Wrangler
為了使用 Data Wrangler,Microsoft網狀架構筆記本體驗新增了程式代碼工具功能,可準備數據併產生 Python 程式代碼。 此體驗可讓您輕鬆地加速乏味和平凡的工作,例如數據清理。 透過它,您也可以透過產生的程式代碼來建置自動化和可重複性。 在本文件中的 Data Wrangler 一節,深入了解 Data Wrangler。
實驗和 ML 模型
使用 PySpark/Python 和 SparklyR/R 等工具,筆記本可以處理機器學習模型定型。 機器學習演算法和連結庫可協助定型機器學習模型。 程式庫管理工具可以安裝這些程式庫和演算法。 用戶接著可以使用熱門的機器學習連結庫,在 Microsoft Fabric 中完成 ML 模型定型。 此外,也可以使用 Scikit Learn 等熱門程式庫來開發模型。
MLflow 實驗和執行可以追蹤 ML 模型定型。 若要記錄實驗和模型,Microsoft Fabric 提供支援互動的內建 MLflow 體驗。 深入瞭解如何使用 MLflow 來追蹤Microsoft Fabric 中的實驗和管理模型。
SynapseML
Microsoft 擁有並營運 SynapseML(前稱 MMLSpark)開源函式庫。 它簡化了大規模可擴展的機器學習流程的建立。 作為工具生態系統,其可在數個新方向展開 Apache Spark 架構。 SynapseML 將多個現有的機器學習框架與新的 Microsoft 演算法整合成單一且可擴展的 API。 開放原始碼 SynapseML 連結庫包含豐富的 ML 工具生態系統,可用於預測模型開發,並使用來自 Azure AI 服務的預先定型 AI 模型。 如需詳細資訊,請流覽 SynapseML 資源。
擴充和運作
筆記本可以使用開放原始碼連結庫來處理機器學習模型批次評分,以進行預測。 它們也可以處理Microsoft Fabric 可調整的通用Spark Predict函式。 此函式支援 Microsoft Fabric 模型登錄中的 MLflow 封裝模型。
獲得深入解析
在 Microsoft Fabric 中,您可以輕鬆地將預測值寫入 OneLake。 從那裏,Power BI 報表能夠順暢地使用 Power BI Direct Lake 模式來取用它們。 然後,數據科學從業者可以輕鬆地與專案關係人共用其工作的結果,並簡化作業化。
您可以使用筆記本的排程功能來安排執行包含批次評分的筆記本。 您還可以將批次評分排程整合為管線活動或 Spark 作業的一部分。 在 Microsoft Fabric 中使用 Direct Lake 模式,Power BI 會自動取得最新的預測,而不需要載入或重新整理數據。
使用語意鏈接進行數據探索
數據科學家和商務分析師花了很多時間嘗試瞭解、清理和轉換數據,然後才可開始有意義的分析。 商業分析師通常使用語意模型,並將領域知識與商業邏輯編碼進 Power BI 的衡量標準中。 另一方面,資料科學家可以處理相同的資料,但通常使用不同的程式碼環境或語言。 透過語意連結,數據科學家可以透過 SemPy Python 連結庫,在 Microsoft Fabric 體驗中建立 Power BI 語意模型與 Synapse Data Science 之間的連線。 為了簡化數據分析,SemPy 會在使用者對語意模型執行各種轉換時擷取和使用數據語意。 當數據科學家使用語意連結時,他們可以
- 避免在其程式代碼中重新實作商業規則和領域知識
- 在其程式碼中輕鬆存取和使用 Power BI 量值
- 使用語意來提供新的體驗 - 例如語意函式
- 探索和驗證資料之間的功能相依項和關聯性
當組織使用 SemPy 時,他們可以期待
- 對於對相同資料集進行操作的團隊,提高其生產力並實現更快速的共同作業
- 加強商業智慧和 AI 團隊之間的共同作業
- 在導入新的模型或數據集時,降低不確定性,並提供更簡單的學習曲線。
欲了解更多關於語意連結的資訊,請參閱 「什麼是語意連結?」。
相關內容
- 瀏覽 數據科學教學課程 以開始使用端對端數據科學範例
- 如需使用 Data Wrangler 準備和清除資料的詳細資訊,請流覽 Data Wrangler
- 請瀏覽 機器學習實驗 以深入瞭解追蹤實驗
- 請瀏覽 機器學習模型 以深入瞭解模型管理
- 若要深入瞭解使用 Predict 進行批次評分,請流覽使用 PREDICT 評分模型
- 使用 Direct Lake 向 Power BI 提供 Lakehouse 預測