什麼是 Microsoft Fabric 中的數據工程?
Microsoft Fabric 中的數據工程可讓用戶設計、建置和維護基礎結構與系統,讓組織能夠收集、儲存、處理和分析大量數據。
Microsoft Fabric 提供各種數據工程功能,以確保您的數據易於存取、組織良好且高品質。 從資料工程首頁,您可以:
使用 Lakehouse 建立和管理您的數據
設計管線以將數據複製到 Lakehouse
使用 Spark 作業定義將批次/串流作業提交至 Spark 叢集
使用筆記本撰寫程式代碼來擷取、準備和轉換
Lakehouse
Lakehouses 是數據架構,可讓組織使用各種工具和架構,在單一位置儲存和管理結構化和非結構化數據,以處理和分析這些數據。 這些工具和架構可以包含以 SQL 為基礎的查詢和分析,以及機器學習和其他進階分析技術。
Apache Spark 工作定義
Spark 作業定義是一組指示,可定義如何在 Spark 叢集上執行作業。 其中包含輸入和輸出數據源、轉換和Spark應用程式的組態設定等資訊。 Spark 作業定義可讓您將批次/串流作業提交至 Spark 叢集、將不同的轉換邏輯套用至 Lakehouse 上裝載的數據,以及其他許多專案。
Notebook
筆記本是互動式運算環境,可讓使用者建立及共用包含即時程序代碼、方程式、視覺效果和敘事文字的檔。 他們允許使用者以各種程式設計語言撰寫和執行程序代碼,包括 Python、R 和 Scala。 您可以使用筆記本進行數據擷取、準備、分析和其他數據相關工作。
資料管線
數據管線是一系列步驟,可將數據從原始形式收集、處理及轉換到可用於分析和決策的格式。 它們是數據工程的重要元件,因為它們提供一種方式,以可靠、可調整且有效率的方式將數據從來源移至目的地。
註冊 Fabric 試用版時,您可以免費在 Microsoft Fabric 中使用 資料工程師。 您也可以購買 Microsoft Fabric 容量 或 網狀架構保留容量
相關內容
開始使用 資料工程師 體驗:
- 若要深入瞭解 Lakehouses,請參閱 什麼是 Microsoft Fabric 中的 Lakehouse?
- 若要開始使用 Lakehouse,請參閱 在 Microsoft Fabric 中建立 Lakehouse。
- 若要深入瞭解 Apache Spark 作業定義,請參閱 什麼是 Apache Spark 作業定義?
- 若要開始使用 Apache Spark 作業定義,請參閱 如何在 Fabric 中建立 Apache Spark 作業定義。
- 若要深入了解筆記本,請參閱 撰寫和執行筆記本。
- 若要開始使用管線複製活動,請參閱 如何使用複製活動複製數據。
意見反應
https://aka.ms/ContentUserFeedback。
即將登場:在 2024 年,我們將逐步淘汰 GitHub 問題作為內容的意見反應機制,並將它取代為新的意見反應系統。 如需詳細資訊,請參閱:提交並檢視相關的意見反應