什麼是 Microsoft Fabric 中的數據工程?

Microsoft Fabric 中的數據工程可讓用戶設計、建置和維護基礎結構與系統,讓組織能夠收集、儲存、處理和分析大量數據。

Microsoft Fabric 提供各種數據工程功能,以確保您的數據易於存取、組織良好且高品質。 從資料工程首頁,您可以:

  • 使用 Lakehouse 建立和管理您的數據

  • 設計管線以將數據複製到 Lakehouse

  • 使用 Spark 作業定義將批次/串流作業提交至 Spark 叢集

  • 使用筆記本撰寫程式代碼來擷取、準備和轉換

    顯示 資料工程師 物件的螢幕快照。

Lakehouse

Lakehouses 是數據架構,可讓組織使用各種工具和架構,在單一位置儲存和管理結構化和非結構化數據,以處理和分析這些數據。 這些工具和架構可以包含以 SQL 為基礎的查詢和分析,以及機器學習和其他進階分析技術。

Apache Spark 工作定義

Spark 作業定義是一組指示,可定義如何在 Spark 叢集上執行作業。 其中包含輸入和輸出數據源、轉換和Spark應用程式的組態設定等資訊。 Spark 作業定義可讓您將批次/串流作業提交至 Spark 叢集、將不同的轉換邏輯套用至 Lakehouse 上裝載的數據,以及其他許多專案。

Notebook

筆記本是互動式運算環境,可讓使用者建立及共用包含即時程序代碼、方程式、視覺效果和敘事文字的檔。 他們允許使用者以各種程式設計語言撰寫和執行程序代碼,包括 Python、R 和 Scala。 您可以使用筆記本進行數據擷取、準備、分析和其他數據相關工作。

資料管線

數據管線是一系列步驟,可將數據從原始形式收集、處理及轉換到可用於分析和決策的格式。 它們是數據工程的重要元件,因為它們提供一種方式,以可靠、可調整且有效率的方式將數據從來源移至目的地。

註冊 Fabric 試用版,您可以免費在 Microsoft Fabric 中使用 資料工程師。 您也可以購買 Microsoft Fabric 容量網狀架構保留容量

開始使用 資料工程師 體驗: