データウェアハウスのアーキテクチャについて説明する

3 分

大規模データ分析アーキテクチャはさまざまであり、その実装に使われる具体的なテクノロジもさまざまです。ただし、一般に次の要素が含まれています。

Diagram showing data ingestion and processing, an analytical data store, an analytical data model, and data visualization.

データインジェストと処理 – 1 つ以上のトランザクション対応のデータストア、ファイル、リアルタイムストリーム、その他のソースからのデータが、データレイクまたはリレーショナルデータウェアハウスに読み込まれます。読み込み操作には、通常、"抽出、変換、読み込み" (ETL) または "抽出、読み込み、変換" (ELT) のプロセスが含まれ、それによってデータは分析用にクリーンアップ、フィルター処理、再構築されます。 ETL プロセスでは、データは分析ストアに読み込まれる前に変換されますが、ELT プロセスでは、データはストアにコピーされてから変換されます。どちらの方法でも、結果のデータ構造は分析クエリ用に最適化されます。データ処理は、多くの場合、マルチノードクラスターを使用して大量のデータを並列処理できる分散システムによって実行されます。データインジェストには、静的データのバッチ処理と、ストリーミングデータのリアルタイム処理の両方が含まれます。
分析データストア – 大規模な分析用のデータストアには、リレーショナル "データウェアハウス"、ファイルシステムベースの "データレイク"、データウェアハウスとデータレイクの機能を組み合わせたハイブリッドアーキテクチャ ("データレイクハウス" または "レイクデータベース" と呼ばれることもあります) が含まれます。これらについては、後で詳しく説明します。
分析データモデル – データアナリストやデータ科学者は、分析データストア内のデータを直接操作できますが、普通は、レポート、ダッシュボード、対話型視覚エフェクトを簡単に生成できるように、データを事前に集計する 1 つ以上のデータモデルを作成します。多くの場合、これらのデータモデルは "キューブ" として記述されており、数値データ値は 1 つ以上のディメンションにわたって集計されます (たとえば、製品別と地域別に総売上を調べるため)。このモデルには、"ドリルアップ/ドリルダウン" 分析をサポートするために、データ値とディメンションエンティティの間のリレーションシップがカプセル化されています。
データの視覚化 – データアナリストは、分析モデルのデータと、直接分析ストアからのデータを使用して、レポート、ダッシュボード、その他の視覚エフェクトを作成します。さらに、テクノロジプロフェッショナルではない組織内のユーザーは、セルフサービスデータ分析やレポート作成を実行することがあります。データからの視覚化では、ビジネスや他の組織のために、傾向、比較、主要業績評価指標 (KPI) が示されます。また、ドキュメントや PowerPoint プレゼンテーション、Web ベースのダッシュボード、およびユーザーがデータを視覚的に調査できる対話型の環境で、印刷されたレポート、グラフ、チャートを使用することもできます。

続行

データ ウェアハウスのアーキテクチャについて説明する

フィードバック