Azure でのクラウド規模の分析を使用した取り込みプロセス

[アーティクル]
07/11/2023

Azure には、ネイティブおよびサードパーティーのプラットフォームにデータを取り込み、リリースするためのいくつかのサービスが用意されています。ボリューム、ベロシティ、多様性、方向などに応じて、さまざまなサービスを使用できます。次のようなサービスがあります。

Azure Data Factory は、あらゆるデータアプリケーション (ソースアライン済み) のニーズとスキルレベルに合わせて構築されたサービスです。直感的なビジュアル環境内で、独自のコードを書くことや、コードを書かずにプロセスの構築、抽出、読み込み、変換を行うことができます。 90 を超えるネイティブに構築されたメンテナンスフリーのコネクタが用意されているので、追加コストなしでデータソースを視覚的に統合することができます。エンジニアは、プライベートエンドポイントとリンクサービスを使用して、Azure サービスとしてのプラットフォーム (PaaS) リソースのパブリックエンドポイントを使用せずに PaaS リソースに安全に接続できます。エンジニアは、統合ランタイムを使用して、パイプラインをオンプレミスのデータソースや他のクラウドなどのサードパーティー環境に拡張することができます。

こうしたコネクタの中には、ソース (読み込み) またはシンク (書き込み) としての使用をサポートするものがあります。 Azure ネイティブサービス、Oracle、SAP などは、ソースまたはシンクとして使用できますが、すべてのコネクタがサポートしているわけではありません。このような場合は、Open Database Connectivity (ODBC)、ファイルシステム、SSH File Transfer Protocol (SFTP) コネクタなどの汎用コネクタを使用できます。

Azure Databricks は、高速で使いやすい、コラボレーション対応の Apache Spark ベースの分析サービスです。ビッグデータパイプラインの場合、データファクトリを介して Azure にデータ (未加工または構造化) をバッチで取り込むか、Apache Kafka、Azure Event Hubs、IoT Hub を使用して準リアルタイムでストリーム配信することができます。このデータは、Azure Data Lake Storage の長期永続保管を目的としたデータレイクに到達します。 Azure Databricks により、ワークフローの一部として複数のデータソースからデータを読み込むことができます。
Microsoft Power Platform には、イベント、スケジュール、またはプッシュによって起動できる何百ものサービスへのコネクタが用意されています。 Microsoft Power Automate を使用すると、イベントに応じて実行し、1 つレコードや少量のデータに最適化されたワークフローをトリガーすることができます。

専用のネイティブツールとサードパーティー製ツールには、特殊なシステムとの統合や、準リアルタイムのレプリケーションなどのニッチな機能があります。

Azure Data Share は、組織が複数の外部の顧客やパートナーとデータを簡単かつ安全に共有することをサポートします。データ共有アカウントを作成してデータ製品を追加すると、顧客とパートナーをデータ共有に招待することができます。データプロバイダーは、共有するデータを常に制御しています。 Azure Data Share を使用すると、どのデータが共有されているか、いつ共有されたか、誰が共有したかを簡単に管理および監視することができます。

重要

すべてのデータランディングゾーンにメタデータインジェストリソースグループがあります。これはデータに依存しないインジェストエンジンを使用する企業用に存在します。このフレームワークエンジンがない場合、推奨される唯一のリソースは、Azure Databricks の分析ワークスペースをデプロイすることです。これは複雑なインジェストを実行するデータ統合に使用されます。潜在的な自動化パターンについては、「データに依存しないインジェストエンジン」を参照してください。

Azure Data Factory のインジェストに関する考慮事項

データに依存しないインジェストエンジンがある場合、インジェストおよび処理リソースグループの各データランディングゾーンに対して、1 つのデータファクトリをデプロイする必要があります。ユーザーに対して Data Factory ワークスペースをロックする必要があり、マネージド ID とサービスプリンシパルにのみ、デプロイするアクセス権を付与します。データランディングゾーンの運用には、パイプラインのデバッグを可能にする読み取りアクセス権が必要です。

データアプリケーションは、データ移動用の独自の Data Factory を持つことができます。各データアプリケーションリソースグループにデータファクトリを持つことで、Azure DevOps または GitHub からのみパイプラインをデプロイできるようになり、完全な継続的インテグレーション (CI) および継続的デプロイ (CD) をサポートします。

すべての Data Factory ワークスペースのデータ管理ランディングゾーン内のデータランディングゾーンには、主に Data Factory のマネージド仮想ネットワーク (VNet) 機能またはセルフホステッド統合ランタイムが使用されます。エンジニアは、マネージド VNet 機能を使用して Azure PaaS リソースに安全に接続することが推奨されます。

ただし、オンプレミス、サードパーティークラウド、サードパーティーのサービスとしてのソフトウェア (SaaS) データソースから取り込むために、さらに統合ランタイムを作成することができます。

Azure Databricks のインジェストに関する考慮事項

このガイダンスでは、次の情報について詳述します。

Azure Databricks から Azure Data Lake Storage Gen2 へのアクセスをセキュリティで保護する
Azure Databricks のベストプラクティス
Azure でのクラウド規模の分析内で Azure Databricks を使用する
開発の場合、統合運用では、テストおよび運用時に 1 つの Azure Databricks ワークスペースにデプロイするコードをチェックインする前に、独自の Azure Databricks 環境を用意する必要があります。
データアプリケーション (ソースアライン済み) リソースグループの Data Factory には、Azure Databricks ジョブを呼び出すためのフレームワークを用意する必要があります。
サービスプリンシパルは、データレイクをこのワークスペースにマウントするのに役立ちます。詳細については、パターン 1 - サービスプリンシパルによるアクセスに関するページを参照してください。
データアプリケーションチームは、短い自動化されたジョブを Azure Databricks 上にデプロイすると、クラスターが迅速に開始され、ジョブが実行され、終了することを期待できます。クラスターのジョブの開始にかかる時間を短縮するために、Azure Databricks プールを設定することをお勧めします。
組織は Azure DevOps を使用して、新しいパイプラインのデプロイフレームワークを実装することをお勧めします。このフレームワークは、Databricks テーブルのアクセス制御を実施するかどうかにかかわらず、データセットフォルダーの作成、アクセス制御リストの割り当て、テーブルの作成に使用されます。

ストリームのインジェスト

場合によっては、組織は発行元によって高速のイベントストリームが生成されるシナリオをサポートする必要があります。このパターンの場合、こうしたストリームを取り込むために、Event Hubs や IoT Hub などのメッセージキューを使用することをお勧めします。

Event Hubs と IoT Hub はスケーラブルなイベント処理サービスであり、大量のイベントとデータを低待機時間かつ高い信頼性で取り込み、処理することができます。 Event Hubs は、ビッグデータのストリーミングおよびイベントインジェストサービスとして設計されています。 IoT Hub は、IoT アプリケーションとそれが管理するデバイスの間の双方向通信に対する中央メッセージハブとして機能する管理サービスです。そこから、データを一定の間隔でデータレイクにエクスポートすること (バッチ) や、Azure Databricks を使用して Apache Spark Streaming、Azure Data Explorer、Stream Analytics、Time Series Insights を介して準リアルタイムで処理することができます。

ユースケースの特定のランディングゾーン内の最後の Event Hubs または Apache Kafka ランディングゾーンから、その集計されたデータを、データランディングゾーンのいずれかのデータレイクの未加工層と、データランディングゾーンのデータアプリケーション (ソースアライン済み) リソースグループに関連する Event Hubs に送信する必要があります。

インジェストを監視する

すぐに使用できる Azure Data Factory パイプライン監視を使用して、Data Factory パイプラインからの例外を監視し、トラブルシューティングすることができます。これにより、カスタムの監視およびレポートソリューションを開発する労力が軽減されます。

組み込みの監視は、Azure Data Factory をメインのオーケストレーションツールとして使用する主な理由の 1 つです。また、Azure Policy はこの設定を自動化するのに役立ちます。

データソースをサービスにマップする

このセクションのガイダンスでは、インジェストサービスと処理サービスを、通常は Azure から取り込むかリリースする必要があるソースにマップします。

インジェストサービス:

id	メカニズム	注意
A	Data Factory	組み込みおよび汎用 (ODBC、SFTP、REST) コネクタ
B	Azure Databricks	カスタムコード (JDBC、JAR など)
C	サードパーティ	WANdisco、Qlik、および Oracle GoldenGate
D	その他	たとえば、ネイティブ機能
E	Microsoft Power Platform と Azure Logic Apps	Microsoft Power Automate コネクタ

データソースのサービスへマッピング:

プロバイダー	Type	ホストされている	カテゴリ	メモ	完全読み込みの取り込み	段階的読み込みの取り込み	リアルタイムの取り込み	完全読み込みのエグレス	段階的読み込みのエグレス	リアルタイムのエグレス
Oracle	表形式	IaaS	データベース	GoldenGate から Azure Data Lake Storage へ	A、B	A、B	C	A、B	A、B	C
Microsoft SQL Server	表形式	IaaS	データベース	SAP Landscape Transformation と Qlik	A、B	A、B	C、D2	A、B	A、B	C、D2
MySQL	表形式	IaaS	データベース	SAP Landscape Transformation と Qlik	A、B	A、B	C、D2	A、B	A、B	C、D2
SAP BW/4HANA	表形式	IaaS	データベース	SAP Landscape Transformation と Qlik	A、B、C、D	A、B、C、D	C	-	-	-
SAP HANA	表形式	IaaS	データベース	SAP Landscape Transformation と Qlik	A、B、C、D	A、B、C、D	C	A、B	A、B	-
Apache Impala	表形式	IaaS	データベース	-	A、B	A、B	-	B	B	-
Microsoft SharePoint	List	SaaS	Record Store	-	A、E	A、E	E	A、E	A、E	E
REST	REST	各種	REST	XML、JSON、CSV	A、B、E	A、B、E	A、B、E	A、B、E	A、B、E	A、B、E
Microsoft Outlook	電子メール	SaaS	REST	XML、JSON、CSV	E	E	E	E	E	E

対象によっては、Azure Database Migration Service により、オンプレミスおよびサードパーティーのデータベース (Microsoft SQL Server、PostgreSQL、MySQL、Oracle など) から Azure ベースのデータストアにレプリケートすることができます。

次の手順

Azure でのクラウド規模の分析を使用した SAP インジェスト

次の方法で共有

Azure でのクラウド規模の分析を使用した取り込みプロセス

Azure Data Factory のインジェストに関する考慮事項

Azure Databricks のインジェストに関する考慮事項

ストリームのインジェスト

インジェストを監視する

データソースをサービスにマップする

次の手順

その他のリソース

次の方法で共有

Azure でのクラウド規模の分析を使用した取り込みプロセス

Azure Data Factory のインジェストに関する考慮事項

Azure Databricks のインジェストに関する考慮事項

ストリームのインジェスト

インジェストを監視する

データ ソースをサービスにマップする

次の手順

その他のリソース

データソースをサービスにマップする