Azure Data Lake を使用してデータ統合ソリューションを設計する

完了

データ レイクとは、データをそれ本来の形式 (通常は BLOB またはファイル) で格納するデータのリポジトリです。 Azure Data Lake Storage は、ビッグ データの分析用に Azure に組み込まれている、包括的で拡張性があり、コスト効率に優れたデータ レイク ソリューションです。 ファイル システムとストレージ プラットフォームが統合された Azure Data Lake Storage は、データの分析情報をすばやく識別するのに役立ちます。 このソリューションは、Azure Blob Storage 機能を基に構築されており、分析ワークロードの最適化を提供します。 この統合により、Azure Storage の分析パフォーマンス、高可用性、セキュリティ、耐久性の機能が可能になっています。

Note

サービスの現在の実装は、Azure Data Lake Storage Gen2 です。

Azure Data Lake Storage について知っておくべきこと

Azure Data Lake Storage をよりよく理解するには、次の特徴を確認します。

  • Azure Data Lake Storage では、データのネイティブ形式を使用して、どの種類のデータでも格納できます。 Azure Data Lake Storage では、任意のデータ形式と大規模なデータ サイズをサポートしており、構造化データ、半構造化データ、非構造化データを処理できます。
  • このソリューションは、主に Hadoop と、Apache Hadoop 分散ファイル システム (HDFS) をデータ アクセス層として使用するすべてのフレームワークと連携するように設計されています。 データ アクセス層として HDFS を使用するデータ分析フレームワークでは、直接アクセスできます。
  • Azure Data Lake Storage では、入力および出力集中型の分析とデータ移動に対して高スループットをサポートしています。
  • Azure Data Lake Storage アクセス制御モデルでは、Azure ロールベースのアクセス制御 (RBAC) と Portable Operating System Interface for UNIX (POSIX) の両方のアクセス制御リスト (ACL) をサポートしています。
  • Azure Data Lake Storage では、Azure Blob レプリケーション モデルを利用します。 これらのモデルでは、ローカル冗長ストレージ (LRS) を使用して 1 つのデータセンターでデータの冗長性を実現します。
  • Azure Data Lake Storage では、大容量のストレージを用意して、さまざまな種類のデータを分析用に受け入れています。
  • Azure Data Lake Storage の価格は、Azure Blob Storage レベルで設定されます。

Azure Data Lake Storage のしくみ

Azure Data Lake Storage を使用する 3 つの重要な手順があります。

  1. データを取り込む。 Azure Data Lake Storage には、さまざまなデータ インジェスト方法が用意されています。

    • 計画外のデータの場合は、AzCopy、Azure CLI、PowerShell、Azure Storage Explorer などのツールを使用できます。
    • リレーショナル データの場合は、Azure Data Factory サービスを使用できます。 Azure Cosmos DB、SQL Database、Azure SQL マネージド インスタンスなど、任意のソースからデータを転送できます。
    • ストリーミング データの場合、Azure HDInsight 上の Apache Storm や Azure Stream Analytics などのツールを使用できます。

    次の図には、計画外のデータとストリーミング データがどのように Azure Data Lake Storage に一括で取り込まれたり、計画外に取り込まれたりするのかが示されています。

    Diagram that shows how unplanned data and streaming data are either bulk ingested or unplanned ingested in Azure Data Lake Storage.

  2. 格納されているデータにアクセスする。 データにアクセスする最も簡単な方法は、Azure Storage Explorer を使用するというものです。 Storage Explorer は、Azure Data Lake Storage データにアクセスするためのグラフィカル ユーザー インターフェイス (GUI) を備えたスタンドアロン アプリケーションです。 PowerShell、Azure CLI、HDFS CLI、またはその他のプログラミング言語の SDK を使用してデータにアクセスすることもできます。

  3. アクセス制御を構成する。 承認メカニズムを実装して、Azure Data Lake Storage の格納データにアクセスできるユーザーを制御します。 Azure RBAC または ACL を選択できます。

ビジネス シナリオ

Tailwind Traders には、Web サイト、販売時点管理 (POS) システム、ソーシャル メディア サイト、モノのインターネット (IoT) デバイスなど、複数のデータ ソースがあります。 同社では、Azure を使用して同社のすべてのビジネス データを分析したいと考えています。 あなたは、Azure で既存の BI システムを拡張する方法に関するガイダンスを提供する仕事が課せられました。 あなたは、Azure ストレージ機能が会社の BI ソリューションに価値を付加する方法についてチームにアドバイスする必要があります。 データ要件を満たすために、Azure Data Lake Storage を推奨する予定です。 Data Lake Storage には、ビッグ データの分析を高パフォーマンスで行うこと目的とする、大量の非構造化データをアップロードして格納できるリポジトリがあります。

Azure Data Lake Storage が組織のビッグ データ要件に適した選択肢になる方法を確認しましょう。

シナリオ 解決策
"大量のデータを管理するためにクラウド上にデータ ウェアハウスを提供する"。 Azure Data Lake Storage は、Azure のプラットフォーム上の仮想ハードウェアで実行されます。 ストレージは、大量の料金を発生させることなく、スケーラブルで高速で信頼性があります。 ストレージ コストとコンピューティング コストが分離されます。 データ ボリュームが増えるにつれ、ストレージ要件のみが変化します。
"JSON ファイル、CSV、ログ ファイル、他の多様な形式など、さまざまな種類のデータのコレクションをサポートする。" Azure Data Lake Storage では、すべてのデータ形式 (生データを含む) を 1 か所に格納することにより、組織のデータの民主化を実現します。 データ サイロを解消すると、ユーザーは Azure Data Explorer などのツールを使用して、ストレージ アカウント内のすべてのデータ項目にアクセスして操作できるようになります。
"リアルタイムのデータ インジェストとストレージを可能にする。" Azure Data Lake Storage では、Azure HDInsight、Azure IoT Hub、Azure Event Hubs、または Azure Stream Analytics 上の Apache Storm のインスタンスから直接リアルタイム データを取り込めます。 また、半構造化データを処理し、すべてのリアルタイム データをストレージ アカウントに取り込めるようにします。

Azure Blob Storage または Azure Data Lake を選択する際の考慮事項

次の表に、Azure Blob Storage と Azure Data Lake の使用に関するストレージ ソリューションの条件の比較を示します。 条件を確認して、どちらのソリューションが Tailwind Traders に最適かを考えましょう。

比較 Azure Data Lake Azure Blob Storage
データ型 大量のテキスト データの格納に適しています 写真、ビデオ、バックアップなどの構造化されていない非テキストベースのデータの格納に適している
地理的な冗長性 データ レプリケーションを手動で構成する必要がある 既定では、geo 冗長ストレージを提供する
名前空間 階層型名前空間をサポートします フラット型名前空間をサポートします
Hadoop との互換性 Hadoop サービスは、Azure Data Lake の格納データを使用できる Azure Blob Filesystem Driver を使用すると、アプリケーションやフレームワークで Azure Blob Storage 内のデータにアクセスできる
Security きめ細かいアクセスをサポート きめ細かいアクセスはサポートされていない