資料科學端對端案例:簡介和架構
這組教學課程示範 Fabric 資料科學體驗中的範例端對端案例。 您可實作從資料擷取、清理和準備,到訓練機器學習模型和產生深入解析的每個步驟,然後使用 Power BI 等視覺效果工具來取用這些深入解析。
如果您不熟悉 Microsoft Fabric,請參閱什麼是 Microsoft Fabric?。
簡介
資料科學專案的生命週期通常包含下列步驟 (往往反覆運作):
- 商務了解
- 資料擷取
- 資料探索、清理、準備和視覺化
- 模型訓練和實驗追蹤
- 模型評分和產生深入解析。
每個階段的目標和成功準則取決於共同作業、資料共用和文件。 Fabric 資料科學體驗包含多個原生建置的功能,可無縫地進行共同作業、資料擷取、共用和取用。
在這些教學課程中,您會扮演資料科學家的角色,為該角色提供了探索、清理及轉換包含銀行 10,000 名客戶流失狀態的資料集。 然後,您將建置機器學習模型來預測哪些銀行客戶可能會離開。
您將了解如何執行下列活動:
- 使用適用於資料科學案例的 Fabric 筆記本。
- 使用 Apache Spark 將資料擷取至 Fabric Lakehouse。
- 透過 Lakehouse Delta 資料表載入現有的資料。
- 使用 Apache Spark 和 Python 工具來清理和轉換資料。
- 建立實驗和執行來訓練不同的機器學習模型。
- 使用 MLflow 和 Fabric UI 來註冊並追蹤訓練的模型。
- 大規模執行評分,並將預測和推斷結果儲存至 Lakehouse。
- 使用 DirectLake 來視覺化預測。
架構
在本教學課程系列中,我們將展示簡化的端對端資料科學案例,其中涉及:
資料科學案例的不同元件
資料來源 - Fabric 可輕鬆、快速地連線至 Azure Data Services、其他雲端平台和內部部署資料來源,以從中擷取資料。 使用 Fabric 筆記本,您可從內建 Lakehouse、資料倉儲、語意模型,以及各種 Apache Spark 和 Python 支援的自訂資料來源擷取資料。 本教學課程系列著重於從 Lakehouse 擷取和載入資料。
探索、清理和準備 - Fabric 上的資料科學體驗支援在 Spark 上使用內建體驗,以進行資料清理、轉換、探索和特徵化,以及 Data Wrangler 和 SemPy Library 等以 Python 為基礎的工具。 本教學課程展示如何使用 Python 程式庫 seaborn
進行資料探索,以及如何使用 Apache Spark 進行資料清理。
模型和實驗 - Fabric 可讓您使用內建實驗和模型項目來訓練、評估和評分機器學習模型,並與 MLflow 無縫整合,以進行實驗追蹤和模型註冊/部署。 Fabric 還具有大規模模型預測的功能 (PREDICT),以取得並分享商業見解。
儲存 - Fabric 會在 Delta Lake 上標準化,這意味著 Fabric 的所有引擎都可與儲存在 Lakehouse 中的相同資料集互動。 此儲存層可讓您同時儲存支援檔案為儲存基礎和表格式格式的結構化和非結構化資料。 儲存的資料集和檔案可透過筆記本和管線等所有 Fabric 體驗項目輕鬆存取。
公開分析和深入解析 - 業界領先的商業智慧工具 Power BI 可取用來自 Lakehouse 的資料,用於報告和視覺效果。 還可使用 Spark 或 Python 原生視覺效果程式庫,例如 matplotlib
、seaborn
、plotly
等,在筆記本中視覺化保存在 Lakehouse 中的資料。 此外,還可以使用 SemPy 程式庫來可視化資料,該程式庫支援豐富的內建、工作特定視覺效果,適用於語意資料模型、相依項及其違規項,以及分類和迴歸使用案例。