次の方法で共有


メタデータ標準

メタデータ管理は、データ アーキテクチャにおいて重要な役割を果たします。 メタデータとは、他のデータに関するデータのことです。 メタデータは、データについて記述するもので、データの検索、セキュリティ保護、制御に役立つ参照を提供します。 メタデータでは、データのバインドも行われます。 これは、データの整合性と品質の検証、新しい場所へのデータのルーティングやレプリケート、データの変換、データの意味の把握に使用できます。 メタデータは、セルフサービス ポータルを使用してデータを民主化する場合にも不可欠です。

優れたメタデータ管理戦略は、有機的に成長します。 これは、最も重要な領域をまず特定することにより、シンプルかつ小規模に始まります。 優れたメタデータ管理戦略は、サービスと明確なプロセスでもサポートされています。 開始するにあたって、さまざまなメタデータのカテゴリを意識するのはよいことです。

  • ビジネス メタデータは、ガバナンス、データの検出と解釈に使用されるすべての側面について記述したものです。 よく知られている例としては、ビジネス用語と定義、データの所有権、使用状況、および発生元に関する情報などがあります。
  • 技術メタデータは、デザイン時のデータの構造面について記述したものです。 よく知られている例としては、スキーマ情報、データ形式とプロトコル情報、暗号化キーと復号化キーなどがあります。
  • 運用メタデータは、実行時のデータ処理の側面について記述したものです。 よく知られている例としては、プロセス情報、実行時間、プロセス エラー情報、ジョブ ID などがあります。
  • ソーシャル メタデータは、コンシューマーの側から、データのユーザーの観点について記述したものです。 よく知られている例としては、使用情報とユーザー追跡情報、検索結果データ、フィルターとクリック、表示時間、プロファイル ヒット、コメントなどがあります。

分散データ アーキテクチャでは、メタデータ管理は、一元管理されたメタデータとフェデレーション管理されたメタデータの間でバランスを取ることが必要となる組織の課題です。 メタデータ管理を計画する際に、Azure でのクラウド規模の分析のためのチームと機能について理解することが重要です。 データ管理を共同作業で行うと、チーム間のコミュニケーション、統合、データ フローの自動化が改善されます。 中央ガバナンスとドメイン所有権の適切なバランスを取ることで、メタデータ管理の複雑さの一部に対処できます。

どのメタデータを一元管理し、どのメタデータをデータ ドメインにフェデレーションして実装を開始するかを決定するにあたって、次の点を自問できます。

  • 重要なビジネス メタデータはどれか
  • 相互運用性に必要な技術メタデータはどれか
  • どのプロセスおよびストリームでデータをキャプチャするか
  • モデルやスキーマはどこで作成および管理されるか
  • データ ガバナンス部門が作業を正しく行えるようにするために、情報チームは何を一元的に提供する必要があるか

これらの質問に対する回答を使って、各メタデータ ストリームのコンテンツ ライフ サイクルを計画し、すべての依存関係を決定します。 そのようにすることで、ビジネス ドメイン、プロセス、テクノロジ、データをつなぐメタデータ モデルを作成できます。

必要なメタデータがわかったら、そのデータを保存および処理する場所を選択する必要があります。 これは Azure Purview を使用して行うことができます。

Azure Purview を使用して大規模にデータ資産を管理する

Azure Purview は、オンプレミスのマルチクラウド SaaS (サービスとしてのソフトウェア) データの管理とガバナンスに役立つ統合データ ガバナンス ソリューションです。 これは、データ検出、データ スキャン、アクセス管理をインテリジェントに実行する完全に自動化されたサービスであるため、大規模にメタデータ管理を行います。 また、使用しているデータ メッシュ アーキテクチャに関する多くの分析情報の包括的なマップも提供します。

Azure Purview を実装する場合は、あまりにも多くの変更や複雑さをすぐに導入することは避けてください。 技術メタデータは、Azure Purview の基盤です。 メタデータを理解するには、メタデータを収集して整理しておく必要があります。

メタデータを取得したら、次の基本から始めます。

  • ビジネス用語
  • 権限のあるデータ ソースの一覧
  • データベースの一覧
  • スキーマ情報
  • データ所有権
  • データ スチュワードシップ
  • セキュリティ

次に、より多くのドメイン所有者とデータ スチュワードをゆっくりと含め、分類と秘密度ラベルをさらに追加することでスケーリングします。 これらを追加することにより、検索エクスペリエンスが向上し、データ アクセス管理が向上します。

ドメインやアプリケーション メタデータの一覧などのカスタム メタデータ属性については、Azure Purview で追加の型定義を作成することを検討します。

ドメイン指向アーキテクチャの場合は、Azure Purview コレクションと用語集をデータ ドメインに合わせて調整します。 Azure Purview コレクションは、資産とソースを整理します。 ユーザーは、コレクションを資産とソースの境界として使用し、特定のドメインに合わせて調整できます。 用語集でも同じことを行えます。 用語集内に階層構造を作成し、その階層構造をドメインに合わせて調整することができます。 用語集の用語とコレクション属性の間にリレーションシップを作成するための所有権を取得できるよう、ドメインに依頼します。 これにより、データ所有権の透明性が生み出され、データ セマンティクスが向上します。

Azure Cosmos DB を使用して組織のナレッジ グラフを作成する

より多くのメタデータを集中的に使用するポータルを使用して、データ アナリストやデータ科学者にデータ分析情報を近づける傾向が業界で高まっています。 この傾向は、"データ監視" と呼ばれます。 データ監視では、メタデータ レイク、ナレッジ グラフ、メタデータ グラフなどの概念を使用して、メタデータが一元化されているプラットフォームについて記述します。 これは、分散データ メッシュを使用する場合に組織全体でデータがどのように使用およびソース化されるかを示す統合ビューを構築するための優れた方法です。

データ分析情報ソリューションでは、データの使用方法、ソース データやデータ製品などのエンティティ間の関係、およびあるドメインのデータ製品と別のドメインの依存製品の間の関係について記述する必要があります。 グラフ データベースやカスタム ユーザー インターフェイスを使用して、これらの関係をモデル化できます。

カスタム ユーザー エクスペリエンスを使用して組織のデータの統合ビューを構築するには、Azure Cosmos DB を使用します。 Azure Cosmos DB は、NoSQL エンドポイントを使用した、グローバル分散型のマルチモデル データベース サービスです。 このサービスは、Azure Cosmos DB for Apache Gremlin を使用してグラフ データベース サービスを提供し、何十億もの頂点と辺のある大規模なグラフを保存します。

Azure Cosmos DB アーキテクチャでは、最終的に、エンドツーエンド コンテキストを使用して組織内のすべてのデータを一元的に表示できる組織全体のグラフを作成できます。 メタデータ レイクの役割は、情報を格納することだけではありません。 メタデータ レイクは、他のサービスやツールと接続することにより、メタデータをグラフとしてアクティブに整理します。 整理されたこのグラフを使用することにより、次のような多くのサブジェクト領域を相互に関連付けることができます。

  • ドメイン
  • データ品質
  • データ使用量
  • ビジネス機能
  • アプリケーションの機能
  • 技術アーキテクチャ情報
  • 操作イベント
  • 組織のメタデータ
  • アプリケーション所有権のメタデータ
  • 場所情報
  • アプリケーション ライフ サイクル管理情報

次のステップ