データレイクとは

2024-08-16

データレイクは、大量のデータを未加工のネイティブ形式で保持するストレージリポジトリです。データレイクストアは、サイズをテラバイト級およびペタバイト級のデータにスケーリングできるように最適化されています。データは通常、複数の多様なソースから取得されるため、データには構造化データ、半構造化データ、または非構造化データが含まれる場合があります。データレイクを使用すると、それらすべてを、変換されていない元の状態で格納できます。この方法は、データを取り込むときに変換と処理を行う、従来のデータウェアハウスとは異なります。

さまざまなデータレイクのユースケースを示す図。

データレイクの主なユースケースは次のとおりです。

クラウドとモノのインターネット (IoT) のデータ移動。
ビッグデータの処理。
分析。
レポート作成。
オンプレミスのデータ移動。

データレイクの次の利点を考慮してください。

データレイクでは、データが未加工の形式で格納されるため、データは削除されません。この機能は、特にビッグデータ環境で有用です。ビッグデータ環境では、データからどのような分析情報が得られるかを前もって知ることができないからです。
ユーザーは、データを探索したり、独自のクエリを作成したりできます。
データレイクは、従来の Extract/Transform/Load (ETL) ツールよりも高速な場合があります。
データレイクは、非構造化および半構造化データを格納できるため、データウェアハウスよりも柔軟性が高くなります。

完全なデータレイクソリューションは、ストレージと処理の両方で構成されます。データレイクストレージは、フォールトトレランス、無限のスケーラビリティ、さまざまな形状やサイズのデータの高スループット取り込みを実現するように設計されています。データレイク処理には、これらの目標を組み込み、データレイクに大規模に格納されたデータを操作できる 1 つ以上の処理エンジンが必要です。

データレイクを使用する必要がある場合

データ探索、データ分析、機械学習には、データレイクを使用することをお勧めします。

データレイクは、データウェアハウスのデータソースとして機能することもできます。この方法を使用すると、データレイクで生データを取り込み、構造化されたクエリ可能な形式に変換することができます。この変換では通常、Extract/Transform/Load (ELT) パイプラインが使用されます。このパイプラインでは、データが取り込まれ、その場で変換されます。リレーショナルソースデータは、ETL プロセスを介してデータウェアハウスに直接送信され、データレイクをスキップする場合があります。

イベントストリーミングや IoT のシナリオでデータレイクストアを使用できます。データレイクは、変換やスキーマ定義を使用せずに、大量のリレーショナルデータと非リレーショナルデータを永続化できるためです。データレイクは、短い待機時間で小規模な書き込みを大量に処理でき、大量のスループットに合わせて最適化されています。

次の表は、データレイクとデータウェアハウスを比較したものです。

データレイク機能とデータウェアハウス機能の比較表。

課題

大量のデータ: 膨大な量の生データや非構造化データの管理は複雑で多くのリソースを必要とする場合があるため、堅牢なインフラストラクチャとツールが必要です。
潜在的なボトルネック: 特にデータ量が多く、データの種類が多様な場合、データ処理によって遅延や非効率が生じる可能性があります。
データ破損のリスク: 不適切なデータ検証と監視により、データ破損のリスクが生じ、データレイクの整合性が損なわれる可能性があります。
品質管理の問題: データソースと形式が多様であるため、適切なデータ品質を確保することは困難です。厳格なデータガバナンスプラクティスを実装する必要があります。
パフォーマンスの問題: データレイクが拡大するにつれてクエリのパフォーマンスが低下する可能性があるため、ストレージ戦略と処理戦略を最適化する必要があります。

テクノロジの選択

Azure 上に包括的なデータレイクソリューションを構築する際は、次のテクノロジを考慮してください。

Azure Data Lake Storage は、Azure Blob Storage とデータレイク機能を組み合わせたものであり、Apache Hadoop と互換性のあるアクセス、階層型名前空間の機能、および効率的なビッグデータ分析のためのセキュリティ強化を利用できます。
Azure Databricks は、データの処理、格納、分析、収益化に使用できる統合プラットフォームです。 ETL プロセス、ダッシュボード、セキュリティ、データ探索、機械学習、生成 AI がサポートされています。
Azure Synapse Analytics は、ビジネスインテリジェンスと機械学習に関わる目下のニーズに合わせてデータの取り込み、探索、準備、管理、提供を行うために使用できる統合サービスです。 Azure データレイクと深く統合されているため、大規模なデータセットのクエリと分析を効率的に実行できます。
Azure Data Factory は、データドリブン型のワークフローを作成してからデータの移動と変換を調整し自動化するために使用できる、クラウドベースのデータ統合サービスです。
Microsoft Fabric は、データエンジニアリング、データサイエンス、データウェアハウス、リアルタイム分析、ビジネスインテリジェンスを 1 つのソリューションに統合する包括的なデータプラットフォームです。

貢献者

この記事は、Microsoft によって保守されています。当初の寄稿者は以下のとおりです。

主執筆者:

Avijit Prasad | クラウドコンサルタント

パブリックでない LinkedIn プロファイルを表示するには、LinkedIn にサインインします。

次の方法で共有

データ レイクとは

データ レイクを使用する必要がある場合

課題

テクノロジの選択

貢献者

次のステップ

関連リソース

フィードバック

その他のリソース

データレイクとは

データレイクを使用する必要がある場合