データレイクのゾーンとコンテナー

[アーティクル]
03/08/2023

データ構造をデータレイクに配置する前に、そのデータ構造を計画することが重要です。計画があれば、セキュリティ、パーティション分割、処理を効果的に使用できます。

データレイクの概要については、「クラウド規模の分析での Azure Data Lake Storage の概要」を参照してください。

概要

3 つのデータレイクアカウントは、一般的なデータレイクのレイヤーに合わせる必要があります。

レイク番号	レイヤー	コンテナー番号	コンテナー名
1	Raw	1	ランディング
1	Raw	2	準拠
2	強化	1	標準化
2	Curated	2	データ製品
3	開発	1	分析サンドボックス
3	開発	#	Synapse プライマリストレージ番号

上の表は、データランディングゾーンごとの推奨される標準的なコンテナー数を示しています。このレコメンデーションの例外は、コンテナー内のデータに異なる論理的な削除ポリシーが必要な場合です。これらの要件によって、より多くのコンテナーが必要かどうかが決まります。

注意

各データランディングゾーンには、3 つのデータレイクが示されています。データレイクは 3 つのデータレイクアカウント、複数のコンテナー、フォルダーにまたがっていますが、これはデータランディングゾーンの 1 つの論理データレイクを表しています。

要件によっては、生、強化、キュレーションのレイヤーを 1 つのストレージアカウントに統合することもできます。データコンシューマーが他の有用なデータ製品を持ち込むための、"development" という名前の別のストレージアカウントを維持してください。

データレイクアカウントの分離の詳細については、「論理データレイク内のストレージアカウント」を参照してください。

階層型名前空間の機能を使用して Azure Storage を有効にします。これにより、ファイルを効率的に管理できます。階層型名前空間機能により、アカウント内のオブジェクトとファイルが、ディレクトリおよび入れ子になったサブディレクトリの階層に編成されます。この階層は、コンピューター上のファイルシステムと同じ方法でまとめられます。

データに依存しないインジェストエンジンまたはオンボードアプリケーションが新しいレコードシステムを登録すると、生、エンリッチ、標準化データレイヤーのコンテナー内に必要なフォルダーが作成されます。ソースアライン済みデータアプリケーションがデータを取り込む場合、データアプリケーションチームがフォルダーとセキュリティグループを作成するには、データランディングゾーンチームが必要です。サービスプリンシパル名またはマネージド ID を正しいグループに配置し、アクセス許可レベルを割り当てます。データランディングゾーンチームとデータアプリケーションチームのために、このプロセスをドキュメント化します。

チームの詳細については、「Azure でのクラウド規模の分析のチームについて理解する」を参照してください。

各データ製品には、データ製品チームが所有するデータ製品コンテナー内に 2 つのフォルダーが必要です。

標準化コンテナーのエンリッチされたレイヤーには、ソースシステムごとに 2 つのフォルダーがあり、分類別に分かれています。この構造により、チームはセキュリティとデータ分類が異なるデータを個別に格納し、異なるセキュリティアクセスを割り当てることができます。

標準化コンテナーには、機密以下のデータ用の一般的なフォルダーと、個人データ用の機密フォルダーが必要です。アクセス制御リスト (ACL) を使用して、これらのフォルダーへのアクセスを制御します。すべての個人データを削除してデータセットを作成し、一般的なフォルダーに保存できます。個人データ用の "機密" フォルダー内に、すべての個人データが含まれる別のデータセットを作成できます。

ACL と Microsoft Entra グループの組み合わせにより、データアクセスを制限します。これらのリストとグループでは、他のグループがアクセスできるものとできないものをコントロールします。データ所有者とデータアプリケーションチームは、データ資産へのアクセスを承認または拒否できます。

詳細については、データアクセス管理に関するページと「制限付きデータ」を参照してください。

警告

一部のソフトウェア製品では、データレイクコンテナーのルートをマウントすることがサポートされていません。この制限のため、生、キュレーション、強化、開発の各レイヤーの各データレイクコンテナーには、複数のフォルダーに分岐する単一のフォルダーが含まれている必要があります。フォルダーのアクセス許可は慎重に設定してください。ルートから新しいフォルダーを作成するときに、親ディレクトリの既定値の ACL によって、子ディレクトリの既定値の ACL とアクセス ACL が決まります。子ファイルの ACL には既定の ACL がありません。

詳細については、Azure Data Lake Storage Gen2 でのアクセス制御 (ACL) に関するページを参照してください。

生レイヤーまたはデータレイク 1

生レイヤーは、自然な元の状態でデータを保存する貯留層に例えられます。ろ過されておらず、浄化されていません。データを、JSON や CSV などの元の形式で格納することができます。または、Avro、Parquet、Databricks Delta Lake などの圧縮ファイル形式でファイルの内容を列として格納すると、コスト効率が高い場合があります。

この生データは変更不可です。生データはロックダウンしたままにしておきます。また、コンシューマーにアクセス許可を (自動または手動で) 付与する場合は、読み取り専用になっていることを確認します。このレイヤーは、ソースシステムごとに 1 つずつフォルダーを使用してまとめることができます。各インジェストプロセスに、それに関連付けられているフォルダーのみへの書き込みアクセス権を付与します。

ソースシステムから生ゾーンにデータを読み込む場合は、以下を行うことを選択できます。

完全なデータセットを抽出するための完全な読み込み。
変更されたデータのみを読み込むための差分読み込み。

選択した読み込みパターンをフォルダー構造で示すことにより、データコンシューマーの使用を簡略化します。

各ソースアライン済みデータアプリケーションまたは自動インジェストエンジンソースのソースシステムからの生データは、全体フォルダーまたは差分フォルダーに配置されます。各インジェストプロセスには、関連付けられているフォルダーのみへの書き込みアクセス権が必要です。

完全な読み込みと差分読み込みの違いは次のとおりです。

完全読み込み - 次の場合、ソースからの完全なデータをオンボードします。
- ソース側のデータボリュームが小さい。
- ソースシステムで、データが追加、更新、または削除されたかどうかを識別するタイムスタンプフィールドが維持されていない。
- ソースシステムが、毎回データ全体を上書きする。
差分読み込み - 次の場合、ソースからの増分データをオンボードします。
- ソース側のデータボリュームが大きい。
- ソースシステムで、データが追加、更新、または削除されたかどうかを識別するタイムスタンプフィールドが維持されている。
- ソースシステムが、データの変更に関するファイルを作成して更新する。

生データレイクは、ランディングと適合のコンテナーで構成されます。各コンテナーでは、その目的に固有の 100% 必須のフォルダー構造が使用されます。

ランディングコンテナーのレイアウト

ランディングコンテナーは、認識されたソースシステムからの生データ用に予約されています。データに依存しないインジェストエンジンまたはソースアライン済みデータアプリケーションがデータを読み込みます。これは変更されず、元のサポートされている形式です。

.
|-Landing
|--Log
|---{Application Name}
|--Master and Reference
|---{Source System}
|--Telemetry
|---{Source System}
|----{Application}
|--Transactional
|---{Source System}
|----{Entity}
|-----{Version}
|------Delta
|-------{date (ex. rundate=2019-08-22)}
|------Full

生レイヤー適合コンテナー

生レイヤーには、データ品質に適合したデータが含まれます。データがランディングコンテナーにコピーされると、データ処理とコンピューティングがトリガーされ、そのデータをランディングコンテナーから適合コンテナーにコピーします。この最初のステージでは、データがデルタレイク形式に変換されて入力フォルダーに配置されます。データ品質が実行されると、合格したレコードが出力フォルダーにコピーされます。失格したレコードは、エラーフォルダーに配置されます。

.
|-Conformance
|--Log
|---{Application Name}
|--Master and Reference
|---{Source System}
|--Telemetry
|---{Source System}
|----{Application}
|--Transactional
|---{Source System}
|----{Entity}
|-----{Version}
|------Delta
|-------Input
|--------{date (ex. rundate=2019-08-22)}
|-------Output
|--------{date (ex. rundate=2019-08-22)}
|-------Error
|--------{date (ex. rundate=2019-08-22)}
|------Full
|-------Input
|--------{date (ex. rundate=2019-08-22)}
|-------Output
|--------{date (ex. rundate=2019-08-22)}
|-------Error
|--------{date (ex. rundate=2019-08-22)}

ヒント

分析プラットフォームを最初から再構築する必要があるシナリオについて考えてみましょう。ダウンストリームの読み取りデータストアを再構築するために必要な最も詳細なデータを検討してください。主要なコンポーネントに関する事業継続とディザスターリカバリーのプランがあることを確認してください。

エンリッチされたレイヤーまたはデータレイク 2

エンリッチされたレイヤーは、ろ過層に例えられます。不純物を除去し、濃縮することもできます。

標準化コンテナーには、レコードのシステムとマスターが保持されます。フォルダーは、最初にサブジェクト領域別に、次にエンティティ別にセグメント化されます。データは、分析での消費に最適化された、マージされたパーティションテーブルで利用できます。

標準化コンテナー

.
|-Standardized
|--Log
|---{Application Name}
|--Master and Reference
|---{Source System}
|--Telemetry
|---{Source System}
|----{Application}
|--Transactional
|---{Source System}
|----{Entity}
|-----{Version}
|------General
|--------{date (ex. rundate=2019-08-22)}
|-------Sensitive
|--------{date (ex. rundate=2019-08-22)}

注意

このデータレイヤーは、シルバーレイヤーまたは読み取りデータソースと見なされます。このレイヤーのデータには、データ品質、デルタレイク変換、データ型のアラインメント以外の変換は適用されていません。

次の図は、ソースデータから標準化コンテナーへのデータレイクとコンテナーのフローを示しています。

キュレーションレイヤーまたはデータレイク 2

キュレーションレイヤーは、消費レイヤーです。データインジェストや処理ではなく、分析用に最適化されています。キュレーションレイヤーでは、非正規化されたデータマートまたはスタースキーマにデータが保存される場合があります。

標準化コンテナーからのデータが、データコンシューマーに提供される価値の高いデータ製品に変換されます。このデータには構造があります。データサイエンスノートブックのようにそのまま、または Azure SQL Database などの別の読み取りデータストアを通じて、コンシューマーに提供できます。

データベースエンジン内でディメンショナルモデリングを行う代わりに、Spark や Data Factory などのツールを使用して行います。レイクを唯一の信頼できる情報源にする場合、このツールの使用が重要なポイントになります。

レイク外でディメンショナルモデリングを行う場合は、一貫性を保つため、モデルをレイクに公開し直す必要があります。このレイヤーは、データウェアハウスの代わりではありません。通常、パフォーマンスは応答性の高いダッシュボードやエンドユーザーおよびコンシューマーによる対話型分析には十分ではありません。このレイヤーは、大規模で一時的に用意したクエリや解析を実行する内部のアナリストやデータサイエンティスト、または時間に依存するレポートを必要としない上級アナリストに最適です。データウェアハウスよりもデータレイクの方がストレージコストが低いため、詳細で低レベルのデータをレイクに保持する方が費用効率が高い場合があります。集計データはウェアハウスに格納します。 Spark または Azure Data Factory を使用して、これらの集計を生成します。これらをデータウェアハウスに読み込む前にデータレイクに保持します。

通常、このゾーンのデータ資産は高度に管理され、十分に文書化されています。部門または職務によってアクセス許可を割り当て、コンシューマーグループまたはデータマート別にアクセス許可をまとめます。

データ製品コンテナー

.
|-{Data Product}
|---{Entity}
|----{Version}
|-----General
|-------{date (ex. rundate=2019-08-22)}
|------Sensitive
|-------{date (ex. rundate=2019-08-22)}

ヒント

Azure SQL Database などの別の読み取りデータストアにデータを配置する場合は、キュレーションデータにこのデータのコピーがあることを確認します。データ製品のユーザーはメインの読み取りデータストアまたは Azure SQL Database インスタンスに誘導されますが、データレイクでもデータを使用できるようにすると、追加のツールを使用してデータを探索することもできます。

開発レイヤーまたはデータレイク 3

データコンシューマーは、標準化コンテナーに取り込まれたデータと共に、他の有用なデータ製品を取り込むことができます。

このシナリオでは、データプラットフォームで、これらのコンシューマー用に分析サンドボックス領域を割り当てることができます。サンドボックスでは、取り込んだキュレーションデータとデータ製品を使用して、価値のある分析情報を生成できます。たとえば、データサイエンスチームが新しいリージョンの最善の製品配置戦略を決定する場合、そのリージョンの類似製品から、顧客の人口統計や使用状況データなどの他のデータ製品を取り込むことができます。チームは、このデータから得られる価値の高い売上分析情報を使用して、製品市場の適合性とオファリング戦略を分析できます。

Note

分析サンドボックス領域は、個人または少人数のコラボレーターのグループのための作業領域です。サンドボックス領域のフォルダーには、運用ソリューションの一部としてこの領域を使用しようとするのを防ぐ特別なポリシーセットがあります。これらのポリシーにより、使用可能なストレージの合計と、データを保存できる期間が制限されます。

通常、これらのデータ製品の品質と精度は不明です。これらもデータ製品として分類されますが、一時的なものであり、このデータを使用するユーザーグループにとってのみ意味があるものです。

これらのデータ製品が成熟したら、企業はこれらのデータ製品をキュレーションデータレイヤーにレベル上げすることができます。データ製品チームが新しいデータ製品に対する責任を維持できるように、キュレーションデータゾーンの専用フォルダーをチームに提供してください。このフォルダー内に新しい結果を保存し、組織全体の他のチームと共有することができます。

Note

作成するすべての Azure Synapse ワークスペースで、データレイク 3 を使用して、プライマリストレージとして使用するコンテナーを作成してください。このコンテナーにより、Azure Synapse ワークスペースがキュレーションおよび強化の各ゾーンのスループット制限に干渉しないようになります。

製品と分析サンドボックスへのデータフローの例

次の図は、この記事の情報をまとめたものであり、データ製品と分析サンドボックスにデータがどのように流れるかを示しています。

次のステップ

Azure Data Lake Storage に関する主な考慮事項

データ レイクのゾーンとコンテナー

概要

生レイヤーまたはデータ レイク 1

ランディング コンテナーのレイアウト

生レイヤー適合コンテナー

エンリッチされたレイヤーまたはデータ レイク 2