データメッシュとは

2024-11-27

データメッシュは、大規模かつ複雑な組織にエンタープライズデータプラットフォームを実装するためのアーキテクチャパターンです。データメッシュは、1 つのプラットフォームと 1 つの実装チームを超える範囲で分析の導入をスケーリングするのに役立ちます。

バックグラウンド

分析の需要は最近の開発ではありません。組織は、創業以来、一貫してビジネスパフォーマンスを評価し、この目的のためにコンピューターを使用する必要があります。 1980 年代頃、組織は、意思決定支援専用のデータベースを使用してデータウェアハウスソリューションの構築を開始しました。これらのデータウェアハウスソリューションは、長期間組織の役に立ちました。

ただし、ビジネスが変化して、ますます多様なデータが生成されるようになると、リレーショナルデータベースを使用するデータウェアハウスソリューションが必ずしも最適なソリューションであるとは限らない場合があります。 2000 年代には、ビッグデータが一般的な用語になりました。企業は、高速に生成される可能性がある大量で多様なデータの分析を可能にする新しいソリューションを採用しました。これらのソリューションには、データレイクなどのテクノロジや、大量のデータを分析するスケールアウトソリューションが含まれます。

近年、多くの組織は、データウェアハウステクノロジと最新のビッグデータテクノロジを組み合わせた、最新のアーキテクチャおよび分析のパターンを使用することに成功しています。

ただし、一部の組織では、分析パターンを使用する分析ソリューションをデプロイするときに問題が発生します。これらのソリューションは一般に、今でもモノリシックソリューションとして実装されます。この場合、1 つのチームがプラットフォームプロバイダーであり、データ統合を行うチームでもあります。より小規模な組織や、チーム構成の観点で高度に集中化されている組織は、単一のチームを使用できます。しかし、より大規模な組織では、単一チームのみを使用すると、多くの場合ボトルネックが生じます。このボトルネックによって巨大なバックログが発生し、組織の一部が、データ統合サービスや分析ソリューションを待機する事態をもたらします。

このパターンは、組織が最新のデータサイエンスソリューションを採用するにつれて、ますます一般的になっています。多くの最新のデータサイエンスソリューションでは、従来のビジネスインテリジェンスソリューションがかつて必要としたよりも多くのデータが必要です。

近年、マイクロサービスをアプリケーション開発パターンとして使用するようになりましたが、それによってデータソースの数が増加するため、データ統合に関するバックログ増大のもう 1 つの要因になっています。

大きな組織で、単一チームが単一プラットフォームですべてのデータインジェストを処理することも、問題になる可能性があります。 1 つのチームにあらゆるデータソースの専門家がいることはまれです。ほとんどの組織は、ビジネスの観点から見ると、一元化されておらず分散されています。事業単位や部署が異なると、業務の異なる部分を扱うため、データの専門家は通常、さまざまな部門にわたって散在しています。

これらの問題を解決するために、データメッシュと呼ばれるパターンが導入されました。データメッシュの目標は、分散配置されているチームが、一元化されていない機敏な方法で情報の操作と共有を実施できるようにすることです。

データメッシュは、組織面の変更も必要になる技術的なパターンです。データメッシュアプローチの利点は、データ製品を公開して使用する、さまざまな分野にわたるチームを構築することによって実現されます。

データメッシュアーキテクチャを理解するうえで、基盤となる概念は以下のとおりです。

データドメイン
データ製品
セルフサービスプラットフォーム
フェデレーションガバナンス

データドメイン

データドメインはデータメッシュの基盤です。データドメインの概念は、複雑なソフトウェアソリューションをモデル化するためにソフトウェア開発でよく使用されるパラダイムであるドメイン駆動開発 (DDD) に由来します。データメッシュにおいて、データドメインはエンタープライズデータの周辺に境界を定義するための方法です。ドメインは組織によって変わる可能性があり、場合によっては組織の周囲にドメインを定義できます。その他の場合には、ビジネスプロセスやソースのシステムに基づいてデータドメインをモデル化することを選択できます。

データドメインには以下の 3 つの側面があります。

境界を選択することは、境界を長期的な所有権に委ねることになります。これらは長期間にわたって存在しており、所有者を識別してきています。
ドメインは、理論上の概念だけでなく、現実と合致している必要があります。
ドメインにはアトミック整合性が備わっている必要があります。領域間にお互いの関係がない場合は、それらをドメイン内で一緒に組み合わせないでください。

データドメインと、それらをどのように定義する必要があるかの詳細については、「データドメイン」を参照してください。

データ製品

データ製品は、データメッシュのもう 1 つの重要なコンポーネントです。データ製品の目的は、データの世界に製品の考え方を取り入れることです。データ製品の導入を成功させるには、意図したユーザーに長期的なビジネス価値を提供する必要があります。データメッシュでは、1 つのデータ製品には、データ、コード資産、メタデータ、および関連するポリシーが含まれます。データ製品は、API、レポート、テーブル、またはデータレイク内のデータセットとして提供できます。

成功を収めるにはデータ製品が以下のようなものである必要があります。

使用できる: データドメインの直近に製品のユーザーが存在する必要があります。
価値がある: 製品に、時間が経過しても維持される価値がある必要があります。長期的な価値がない場合には成功しません。
実現可能である: 製品は実現可能な必要があります。実際に構築できない場合、製品は成功しません。製品は、データ可用性と技術的観点の両方から、実現可能である必要があります。

データ製品のコード資産には、それを生成するコードと、それを提供するコードが含まれます。コード資産には、製品と、製品の最終レポートの作成に使用されるパイプラインが含まれます。

データ製品に関する詳細については、「Azure でのクラウド規模の分析データ製品」を参照してください。

データメッシュの使用に関する具体的なガイダンスについては、「データ製品とは」を参照してください。

セルフサービスプラットフォーム

データメッシュの中核となっているのは、データドメインが独自にデータ製品を構築できるプラットフォームを備えていることです。データドメインは、中央プラットフォームや中央プラットフォームチームに強く依存することなく、ユーザーにとって適切なツールとプロセスを使用してデータ製品を定義する必要があります。データメッシュ内には、自律的な製品の開発と管理を行う自律的なチームがあります。

分散化を進め、データについて理解しているビジネスユーザーと緊密に協力する一方で、ゼネラリストも自社のプラットフォーム上で作業することを念頭においてください。ゼネラリストが存在するため、運用に専門的な知識を必要とする特殊なツールを、メッシュベースのプラットフォームの中核的基盤にすることはできません。

「セルフサービスデータプラットフォームの設計に関する考慮事項」で概要が説明されている実施方法を採用することで、セルフサービスプラットフォームを正しく実装できます。

フェデレーションガバナンス

セルフサービス分散データプラットフォームを採用するときには、ガバナンスにいっそうの重点を置く必要があります。ガバナンスの欠如は、データドメイン全体にわたるサイロ化やデータの重複につながります。ドメインに所属するチーム内およびデータ所有者の中に、ガバナンスの必要性を理解している人が存在するように、ガバナンスのフェデレーションを行います。

フェデレーションガバナンスを作成するには、プラットフォームとデータニーズの両方に関連する自動ポリシーを実装します。テストと監視には、高度な自動化を利用します。標準、ポリシー、データ製品、コードとしてのプラットフォームのデプロイを処理するため、コード優先の実装戦略を採用します。

フェデレーションガバナンスの側面を実装することの詳細については、「データガバナンスの概要」を参照してください。

まとめ

データメッシュは、エンタープライズデータプラットフォームを実装するうえで効果的な方法ですが、すべての組織にとって最適なソリューションではありません。データメッシュを導入するには、独立して作業することができる自律的なチームが必要です。データメッシュは、独立した事業単位があり、単一のプラットフォームと実装チームを超えて分析の導入をスケーリングする必要がある、大規模で複雑な組織で最適に機能します。

データメッシュを使用する場合は、サイロを作成しないように、ガバナンスの実装時に特に注意を払ってください。確実に成功を収めるには、実装の中心にデータに対する製品の考え方が常に備わっているようにします。

次のステップ

データドメイン

次の方法で共有

データ メッシュとは

バックグラウンド

データ ドメイン

データ製品

セルフサービス プラットフォーム

フェデレーション ガバナンス

まとめ

次のステップ

フィードバック

その他のリソース

データメッシュとは

データドメイン

セルフサービスプラットフォーム

フェデレーションガバナンス