Azure Data Lake Storage Gen2 の概要

Azure Data Lake Storage Gen2 は、Azure Blob Storage をベースに構築された、ビッグ データ分析専用の一連の機能です。

Data Lake Storage Gen2 は、Azure Blob Storage と Azure Data Lake Storage Gen1 の機能を集約したものです。 たとえば、Data Lake Storage Gen2 では、ファイル システム セマンティクス、ファイルレベルのセキュリティ、スケーリングが提供されます。 これらの機能は Blob Storage に基づいて構築されているため、高可用性およびディザスター リカバリー機能を備えた低コストの階層型ストレージも利用できます。

エンタープライズ ビッグ データ分析用に設計されている

Data Lake Storage Gen2 によって、Azure Storage は、Azure 上にエンタープライズ データ レイクを構築するための基盤となります。 Data Lake Storage Gen2 は、当初から、何百ものギガビット単位のスループットを維持しつつ、複数のペタバイト単位の情報を利用可能にする目的で設計されているため、大量のデータを簡単に管理することができます。

Data Lake Storage Gen2 の基礎部分は、BLOB ストレージに階層型名前空間を追加したものです。 階層型名前空間には、効率的なデータ アクセスのためにオブジェクトやファイルがディレクトリ階層に編成されています。 共通のオブジェクト ストアの名前規則では、名前にスラッシュを使用して階層型ディレクトリ構造を模倣しています。 この構造は、Data Lake Storage Gen2 を使って、実際のものになります。 ディレクトリの名前変更や削除などの操作は、そのディレクトリに対する単一のアトミック メタデータ操作になります。 ディレクトリ名のプレフィックスを共有するすべてのオブジェクトを列挙して処理する必要はありません。

Data Lake Storage Gen2 は Blob Storage をベースに構築され、パフォーマンス、管理、セキュリティが次のように強化されています。

  • 分析の前提条件としてデータをコピーまたは変換する必要がないため、パフォーマンス が最適化されます。 Blob Storage のフラット型名前空間と比べ、階層型名前空間ではディレクトリ管理操作のパフォーマンスが大幅に向上し、その結果、全体的なジョブ パフォーマンスも向上します。

  • 管理。ディレクトリおよびサブディレクトリを利用してファイルを編成および操作できるため、簡単になりました。

  • セキュリティ。ディレクトリや個別のファイルに対して POSIX アクセス許可を定義できるので、セキュリティを確保できます。

Data Lake Storage Gen2 は、低コストの Azure Blob Storageをベースに構築されているため、きわめて高いコスト効果が得られます。 さらに、追加の機能により、Azure 上でビッグ データ分析を実行するための総保有コストが低下しました。

Data Lake Storage Gen2 の主な機能

  • Hadoop と互換性のあるアクセス: Data Lake Storage Gen2 では、Hadoop 分散ファイル システム (HDFS) を利用する場合と同様に、データの管理およびアクセスを可能にします。 新しい ABFS ドライバー (データへのアクセスに使用) は、すべての Apache Hadoop 環境内で使用できます。 これらの環境には、Azure HDInsightAzure DatabricksAzure Synapse Analytics が含まれます。

  • POSIX アクセス許可のスーパーセット:Data Lake Gen2 のセキュリティ モデルは、ACL および POSIX のアクセス許可に加え、Data Lake Storage Gen2 固有の追加設定をサポートしています。 設定は、Storage Explorer だけでなく、Hive や Spark などのフレームワークを使用して構成できます。

  • コスト効率: Data Lake Storage Gen2 は、低コストのストレージ容量とトランザクションを備えています。 Azure Blob Storage ライフサイクルなどの機能により、データがライフサイクルを通じて移行する際にコストが最適化されます。

  • 最適化されたドライバー: ABFS ドライバーは、ビッグ データ分析のために特別に最適化されています。 該当する REST API は、dfs.core.windows.net エンドポイントを介して表示されます。

スケーラビリティ

Azure Storage では、Data Lake Storage Gen2 または Blob ストレージ インターフェイスのどちらを経由してアクセスするか、設計ごとにスケーラブルになっています。 また、 多数のエクサバイト データを格納および提供できます。 このストレージ容量は、秒単位での高レベルの入出力処理 (IOPS).で、ギガビット/秒 (Gbps) で計測されるスループットによって利用可能になります。 サービス、アカウント、ファイルの各レベルで測定されるほぼ一定の要求ごとの待機時間で処理が実行されます。

コスト効率

Data Lake Storage Gen2 は Azure Blob Storage の上に構築されているため、ストレージ容量とトランザクション コストが抑えられます。 他のクラウド ストレージ サービスとは異なり、分析を実行する前にデータを移動または変換しておく必要はありません。 価格の詳細については、Azure Storage の価格に関するページを参照してください。

さらに、階層構造の名前空間などの機能は、多数の分析ジョブのパフォーマンス全体を大幅に向上させます。 このパフォーマンスの向上は、同じデータ量を処理するうえで必要とするコンピューティング能力をより低減できることを意味し、結果として、エンド ツー エンドの分析ジョブの総保有コスト (TCO) を削減できます。

1 つのサービス、複数の概念

Data Lake Storage Gen2 は Azure Blob Storage の上に構築されているため、同じ共通事項を複数の概念で説明できます。

複数の概念で説明される同等のエンティティを次に示します。 特記がない限り、これらのエンティティはそのままの同義語です。

概念 最上位レベルの組織 下位レベルの組織 データ コンテナー
BLOB - 汎用オブジェクト ストレージ コンテナー 仮想ディレクトリ (SDK のみ - アトミック操作を提供しない) BLOB
Azure Data Lake Storage Gen2 - Analytics Storage コンテナー ディレクトリ ファイル

Blob Storage のサポートされている機能

診断ログアクセス層Blob Storage ライフサイクル管理ポリシーなどの Blob Storage の機能を、ご利用のアカウントで使用できます。 Blob Storage のほとんど機能は完全にサポートされていますが、一部の機能は、プレビュー レベルでのみサポートされているか、まだサポートされていません。

Data Lake Storage Gen2 での各 Blob Storage 機能のサポート状況を確認するには、「Azure Storage アカウントにおける Blob Storage 機能のサポート」を参照してください。

サポートされる Azure サービスの統合

Data Lake Storage Gen2 では、いくつかの Azure サービスがサポートされています。 これらを使用して、データを取り込み、分析を実行し、視覚的な表現を作成できます。 サポートされる Azure サービスの一覧については、「Azure Data Lake Storage Gen2 をサポートする Azure サービス」を参照してください。

サポートされるオープン ソース プラットフォーム

一部のオープン ソース プラットフォームは Data Lake Storage Gen2 をサポートしています。 完全な一覧については、「Data Lake Storage Gen2 がサポートされているオープン ソース プラットフォーム」を参照してください。

関連項目