元數據標準
元數據管理在數據架構中扮演重要角色。 元數據是其他數據的相關數據。 其描述數據,提供可協助您尋找、保護及控制數據的參考。 元數據也會將數據系結在一起。 它可用來驗證數據的完整性和品質、路由或將數據復寫至新的位置、轉換數據,以及了解數據的意義。 元數據在透過自助入口網站將數據大眾化方面也很重要。
良好的元數據管理策略會有機成長。 它會先識別最重要的區域,以簡單且小型的方式啟動。 服務與清楚的程式也支援良好的元數據管理策略。 若要開始使用,最好注意不同的元數據類別:
- 商務元數據 描述用於治理、尋找及了解數據的所有層面。 一些已知的範例包括商務詞彙和定義,以及有關數據擁有權、使用方式和起源的資訊。
- 技術元數據 描述設計時間數據的結構層面。 一些已知的範例包括架構資訊、數據格式和通訊協議資訊,以及加密和解密密鑰。
- 作業元數據 描述在運行時間處理數據的層面。 一些已知的範例包括進程資訊、運行時間、進程失敗資訊和作業標識碼。
- 社交元數據 會從其取用者描述數據的用戶觀點。 一些已知的範例包括使用和使用者追蹤資訊、搜尋結果數據、篩選和點擊、檢視時間、配置檔點擊和批注。
在分散式數據架構中,元數據管理是一項組織挑戰,需要尋找集中管理的元數據與同盟受控元數據之間的平衡。 當您規劃元數據管理時,請務必瞭解 Azure 中雲端規模分析的小組和功能。 使用共同作業數據管理做法可改善小組之間的通訊、整合和數據流自動化。 您可以藉由在中央治理與網域擁有權之間取得正確的平衡,來解決一些元數據管理的複雜性。
當您決定要集中管理或同盟至 數據域 並開始實作的元數據時,請問自己:
- 哪些商務元數據很重要?
- 互操作性需要哪些技術元數據?
- 哪些進程和數據流會擷取數據?
- 模型或架構的建立和維護位置為何?
- 哪些資訊小組需要集中提供,才能讓數據控管部門正確執行其工作?
使用這些問題的答案,對應每個元數據數據流的內容生命週期,並判斷所有相依性。 接著,您有一個元數據模型,可將商務領域、流程、技術和數據連線。
一旦您知道您需要哪些元數據,您必須選擇要儲存和處理它的位置。 您可以使用 Azure Purview 來執行此動作。
使用 Azure Purview 來管理您的數據資產
Azure Purview 是統一的數據控管解決方案,可協助您管理和控管內部部署、多重雲端和軟體即服務 (SaaS) 數據。 其會大規模進行元數據管理,因為它是一項完全自動化的服務,可智慧地執行數據探索、數據掃描和存取管理。 它也提供許多有關數據網格架構之深入解析的整體地圖。
實作 Azure Purview 時,不會快速導入太多變更和複雜度。 技術元數據是 Azure Purview 的基礎。 您必須先收集和組織元數據,才能瞭解元數據。
擁有元數據之後,請從基本概念開始:
- 商務詞彙
- 授權數據源的清單
- 資料庫清單
- 架構資訊
- 資料擁有權
- 數據管理
- 安全性
然後,藉由慢慢地涉及更多網域擁有者和數據管理人,以及新增更多分類和敏感度卷標來調整規模。 這些新增專案可改善搜尋體驗,並允許更好的數據存取管理。
針對自定義元數據屬性,例如網域清單和應用程式元數據,請考慮在 Azure Purview 中建立額外的 類型定義 。
針對網域導向的架構,請將 Azure Purview 集合和詞彙與您的數據網域對齊。 Azure Purview 集合會組織資產和來源。 您可以使用集合作為資產和來源的界限,並將其與特定網域對齊。 您可以使用詞彙來執行相同的動作。 在詞彙中建立階層結構,並將其與您的網域對齊。 要求您的網域取得擁有權,以建立詞彙和集合屬性之間的關聯性。 這會建立數據擁有權透明度,並改善您的數據語意。
使用 Azure Cosmos DB 建立組織的 Knowledge Graph
業界趨勢日益增強,使用更密集使用元數據的入口網站,讓數據分析師和科學家更接近數據分析師和科學家。 此趨勢稱為 數據可觀察性。 數據可觀察性會使用元數據湖、知識圖表或元數據圖表等概念來描述元數據集中的平臺。 這是一個好方法,可讓您在使用分散式數據網格時,建立統一檢視,說明如何在組織中使用和來源數據。
數據深入解析解決方案必須說明如何使用數據,以及源數據與數據產品等實體之間的關係,以及某個網域中的數據產品與另一個網域相依產品之間的關聯性。 您可以使用圖形資料庫或自訂使用者介面來建立這些關聯模型的模型。
若要使用自定義用戶體驗來建置組織數據的統一檢視,請查看 Azure Cosmos DB。 Azure Cosmos DB 是具有 NoSQL 端點的全域分散式多模型資料庫服務。 它透過適用於Apache Gremlin的 Azure Cosmos DB 提供圖形資料庫服務,以儲存具有數十億個頂點和邊緣的大型圖形。
Azure Cosmos DB 架構的最終結果是整個組織的圖表,可讓您使用端對端內容來統一檢視組織中的所有數據。 元數據湖不只與儲存信息有關。 它也會透過將元數據與其他服務和工具連線,主動將元數據組織為圖形。 這個有組織的圖表可讓您交叉關聯許多主題區域,包括:
- 網域
- 資料品質
- 資料使用量
- 商務功能
- 應用程式函式
- 技術架構資訊
- 運作事件
- 組織元數據
- 應用程式擁有權元數據
- 位置資訊
- 應用程式生命週期管理資訊
下一步
意見反應
https://aka.ms/ContentUserFeedback。
即將登場:在 2024 年,我們將逐步淘汰 GitHub 問題作為內容的意見反應機制,並將它取代為新的意見反應系統。 如需詳細資訊,請參閱:提交並檢視相關的意見反應