Fabric Lakehouse 數據資產的數據品質
本文內容
註冊網狀架構 OneLake
設定數據對應掃描
Fabric Lakehouse 資料質量掃描必要條件
分析和數據品質 (DQ) 在 Fabric Lakehouse 中掃描數據
限制
資源
顯示其他 2 個
Fabric OneLake 是整個組織的單一、統一邏輯數據湖。 Data Lake 會處理來自各種來源的大量數據。 如同 Microsoft OneDrive,OneLake 會自動隨附於每個 Microsoft Fabric 租使用者,並設計為所有分析數據的單一位置。 OneLake 為客戶帶來:
整個組織的一個數據湖
一份用於多個分析引擎的數據複本
OneLake 旨在為您提供單一數據複本中最大價值,而不需要數據移動或重複。 您不再需要複製數據,只要將數據與另一個引擎搭配使用,或是細分尋址接收器,即可使用來自其他來源的數據來分析數據。 您可以使用 Microsoft Purview 來編目網狀架構數據資產,並測量數據品質來治理和推動改進動作。
您可以使用快捷方式來參考儲存在其他檔案位置的數據。 這些檔案位置可以在相同工作區內或跨不同工作區、在 OneLake 內或在 Azure Data Lake Storage (ADLS) 的 OneLake 外部、Amazon Web Services (AWS) S3,或是即將推出更多目標位置的 Dataverse。 數據源位置並不重要,OneLake 快捷方式會讓檔案和資料夾看起來像是儲存在本機。 當小組在不同的工作區中獨立工作時,快捷方式可讓您將不同商務群組和網域的數據結合成虛擬數據產品,以符合使用者的特定需求。
您可以使用鏡像將來自各種來源的數據整合到 Fabric 中。 Fabric 中的鏡像是低成本且低延遲的解決方案,可將各種系統的數據整合到單一分析平臺中。 您可以持續將現有的數據資產直接復寫到 Fabric 的 OneLake,包括來自 Azure SQL Database、Azure Cosmos DB 和 Snowflake 的數據。 使用 OneLake 中可查詢格式的最最新數據,您現在可以在 Fabric 中使用所有不同的服務。 例如,使用Spark執行分析、執行筆記本、資料工程、透過Power BI報表可視化等等。 然後,Delta 數據表可在 Fabric 的任何地方使用,讓用戶能夠加速其進入 Fabric 的旅程。
若要設定數據對應掃描,您必須先註冊您想要掃描的數據源。 若要掃描 Fabric 工作區,將網狀架構租用戶註冊為數據源的現有體驗沒有任何變更。 若要註冊新的數據源,請遵循下列步驟:
在 Microsoft Purview 入口網站中,移至 [數據對應] 。
選取 [登錄]。
在 [ 註冊 來源] 上,選取 [ 網狀架構] 。
請參閱 相同的租 使用者和 跨租用戶 設定指示。
若要掃描 Lakehouse 子藝術師,數據對應中現有的體驗不會有任何變更可設定掃描。 還有另一個步驟可授與在 Fabric 工作區中至少具有 參與者 角色的掃描認證,以從支援的檔格式擷取架構資訊。
目前僅支援服務主體作為驗證方法 。 MSI 支援仍在待處理專案中。
請參閱 相同的租 使用者和 跨租用戶 設定指示。
設定 Fabric Lakehouse 掃描的連線
將 Fabric Lakehouse 註冊為來源之後,您可以從 [數據對應] 中已註冊的數據源清單中選取 [網狀架構],然後選取 [ 新增掃描] 。 新增 數據源標識碼 ,然後遵循下列步驟:
建立安全組和服務主體
請務必將此服務主體和 Purview 受控識別新增至此安全組,然後提供此安全組。
建立安全組與 Fabric 租用戶的關聯
登入網狀架構管理入口網站。
選取 [租用戶設定] 頁面。
您必須是網狀架構 管理員 才能查看租用戶設定頁面。
選 管理員 API 設定 > 允許服務主體使用唯讀系統管理員 API。
選取 [特定安全組]。
選取 [管理員 API 設定 > 使用詳細元數據增強系統管理員 API 回應],並使用 DAX 和混搭表達>式增強系統管理員 API 回應 啟用切換以允許 Microsoft Purview 資料對應 在其掃描過程中自動探索 Fabric 數據集的詳細元數據。
更新 Fabric 租使用者上的 管理員 API 設定之後,請等候大約 15 分鐘,然後再註冊掃描和測試連線。
為此安全組提供 管理員 API 設定唯讀 API 許可權。
將 SPN 新增至 [認證] 欄 位。
新增 Azure 資源名稱。
新增 租用戶標識碼 。
新增 服務主體標識碼 。
新增 金鑰保存庫 連線 。
新增 秘密名稱 。
完成數據對應掃描之後,請在 整合式目錄 中找出 Lakehouse 實例。
在 Microsoft Purview 入口網站中,開啟 [整合式目錄 ]。
依序選 取 [探索 ]、[ 數據資產] 。
在 [ 數據資產] 頁面上,選 取 [Microsoft Fabric] 。
選取 [網狀架構工作區] ,然後從清單中選取工作區。
在工作區的頁面上,於 [項目名稱] 底下尋找 Lakehouse 實例 。
若要流覽 Lakehouse 資料表:
在工作區頁面上,選取專案名稱 [數據表] 。
選取 [ 項目名稱 ] 下所列的 Lakehouse 數據表資產。
檢視資產的詳細數據頁面,以尋找架構、譜系和屬性等元數據。
Fabric Lakehouse 資料質量掃描必要條件
快捷方式、鏡像或以差異格式將數據載入 Fabric Lakehouse。
重要
如果您已透過鏡像或快捷方式,將新的數據表、檔案或新數據集新增至 Fabric Lakehouse,則必須先執行數據對應範圍掃描,以將這些新數據集編目,再將這些數據資產新增至數據產品以進行數據質量評估。
授與 Purview MSI 工作區的參與者許可權
將已掃描的數據資產從 Lakehouse 新增至治理網域的數據產品。 在數據產品的 整合式目錄 頁面上,找出 [數據資產 ],然後選取 [新增數據資產] 。 數據分析和數據質量掃描只能針對與控管網域下的數據產品相關聯的數據資產進行。
針對數據分析和數據質量掃描,您必須建立數據源連線,因為使用不同的連接器來連接數據源,以及掃描數據以擷取數據品質事實和維度。 若要設定連線:
在 [整合式目錄] 中,選取 [健康情況管理] ,然後選取 [數據品質] 。
選取治理網域,然後從 [管理 ] 下拉式清單中選取 [Connections] 。
選 取 [新增 ] 以開啟聯機組態頁面。
新增連線顯示名稱和描述。
新增來源類型 Fabric 。
新增 租用戶標識碼 。
新增 工作區標識碼
新增 Lakehouse 識別符
新增 Credential - Microsoft Purview MSI 。
測試連線以確定已設定的連線成功。
重要
若要進行數據質量掃描,Microsoft Purview MSI 必須具有 Fabric 工作區的參與者存取權,才能連線到 Fabric 工作區。 若要授與參與者存取權,請開啟您的 Fabric 工作區,選取三個點 (...) ,依序選 取 [工作區存取權 ]、[ 新增人員或群組] ,然後新增 Purview MSI 作為 參與者 。
網狀架構數據表必須是 Delta 格式或 Iceberg 格式。
分析和數據品質 (DQ) 在 Fabric Lakehouse 中掃描數據
成功完成連線設定之後,您可以分析、建立和套用規則,以及執行數據品質 (DQ) Fabric Lakehouse 中的數據掃描。 請遵循下列所述的逐步指導方針:
將 Lakehouse 數據表與數據產品建立關聯,以進行策劃、探索和訂閱。 瞭解如何 建立和管理數據產品 。
Profile Fabric Lakehouse 數據表。 瞭解如何 設定及執行數據資產的數據分析 。
設定並執行數據質量掃描,以測量 Fabric Lakehouse 數據表的數據品質。 瞭解如何 設定及執行數據質量掃描 。
重要
請確定您的數據是 Delta 格式或 Iceberg 格式。
請確定數據對應掃描已成功執行。 如果沒有,請重新執行掃描。
Parquet 檔案的數據質量是設計來支援:
具有 Parquet 元件檔案的目錄。 例如: ./Sales/{Parquet Part Files} 。 完整名稱必須遵循 https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}
。 請確定目錄/子目錄結構中沒有 {n} 模式;它必須是導致 {SparkPartitions} 的直接 FQN。
具有數據分割 Parquet 檔案的目錄,由數據集內的數據行分割,例如依年份和月份分割的銷售數據。 例如: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files} 。
這兩個基本案例都支持呈現一致的 parquet 數據集架構。
限制:它不是設計成或不支援使用 Parquet 檔案的 N 個任意目錄階層。 我們建議客戶以 (1) 或 (2) 建構結構呈現數據。 因此,建議客戶遵循支援的 parquet 標準,或將其數據 遷移至 ACID 相容的差異格式。
提示
針對數據對應
確定SPN具有工作區許可權。
請確定掃描連線使用SPN。
如果您是第一次設定 Lakehouse 掃描,建議您執行完整掃描。
檢查內嵌的資產是否已更新/重新整理
整合式目錄
DQ 連線需要使用 MSI 認證。
最好是第一次測試 Lakehouse 數據 DQ 掃描時建立新的數據產品
新增內嵌的數據資產,檢查數據資產是否已更新。
嘗試執行配置檔 ,如果成功,請嘗試執行 DQ 規則。 如果失敗,請嘗試重新整理資產架構 (架構> 管理匯入架構)
有些使用者也必須建立新的 Lakehouse 和範例數據,才能檢查一切從頭開始運作。 在某些情況下,使用先前在數據對應中內嵌的資產體驗並不一致。