Qlik を使用してメインフレームとミッドレンジのデータを Azure にレプリケートする
このソリューションでは、Qlik のオンプレミス インスタンスを使用して、オンプレミスのデータ ソースをリアルタイムで Azure にレプリケートします。
注
「Qlik」を「クリック」のように発音します。
Apache® および Apache Kafka® は、米国およびその他の国における Apache Software Foundation の登録商標または商標です。 これらのマークを使用することが、Apache Software Foundation による保証を意味するものではありません。
アーキテクチャ
このアーキテクチャの Visio ファイルをダウンロードします。
ワークフロー
ホスト・エージェント: オンプレミス システム上のホスト エージェントは、Db2、情報管理システム (IMS)、および仮想ストレージ アクセス方法 (VSAM) データ ストアから変更ログ情報をキャプチャし、Qlik レプリケーション サーバーに渡します。
レプリケーション・サーバー: Qlik レプリケーション サーバー ソフトウェアは、変更ログ情報を Kafka と Azure Event Hubs に渡します。 この例では、Qlik はオンプレミスですが、Azure の仮想マシンに展開できます。
ストリームの取り込み: Kafka と Event Hubs は、変更ログ情報を受信して保存するためのメッセージ ブローカーを提供します。
Kafka Connect: Kafka Connect API は、Kafka からデータを受信して、Azure Data Lake Storage、Azure Databricks、Azure Synapse Analytics などの Azure データ ストアを更新します。
Data Lake ストレージ: Data Lake Storage は、変更ログ データのステージング領域です。
Azure Databricks: Azure Databricks は、変更ログ データを処理し、Azure 上の対応するファイルを更新します。
Azure データ サービス: Azure では、次の効率的なデータ ストレージ サービスを提供しています。
リレーショナル・データベース・サービス:
- Azure 仮想マシン上の SQL Server
- Azure SQL データベース
- Azure SQL マネージド インスタンス
- Azure Database for PostgreSQL(PostgreSQL用Azureデータベース)
- Azure MySQL用データベース
- Azure Cosmos DB (アジュール コスモス データベース)
データストレージサービスを選択する際には、考慮すべき多くの要素があります。 ワークロードのタイプ、データベース間クエリ、2 フェーズ・コミット要件、ファイル・システムへのアクセス機能、データ量、必要なスループット、およびレイテンシを考慮してください。
Azure Cosmos DB: Azure Cosmos DB は、あらゆる規模で迅速な応答、自動スケーラビリティ、保証された速度を提供する NoSQL データベースです。
Azure Synapse Analytics: Azure Synapse Analytics は、データ統合、エンタープライズ データ ウェアハウス、ビッグ データ分析を組み合わせた分析サービスです。 これを使用して、サーバーレス リソースまたは専用リソースを大規模に使用してデータをクエリします。
Microsoft ファブリック: Microsoft Fabric は、企業向けのオールインワン分析ソリューションです。 データの移動からデータサイエンス、リアルタイム分析、ビジネスインテリジェンスまで、あらゆるものをカバーしています。 データレイク、データエンジニアリング、データ統合など、包括的なサービススイートを提供します。
コンポーネント
このアーキテクチャは、いくつかの Azure クラウド サービスで構成され、ネットワークと ID、アプリケーション、ストレージ、監視の 4 つのリソースカテゴリに分類されます。 次のセクションでは、各リソースのサービスとその役割について説明します。
ネットワークと ID
アプリケーション アーキテクチャを設計するときは、パブリック インターネットまたはプライベート接続を介した対話中にセキュリティ、パフォーマンス、管理性を確保するために、ネットワークと ID コンポーネントに優先順位を付けることが重要です。
Azure ExpressRoute は、接続プロバイダーからのプライベート接続を介して、オンプレミス ネットワークを Microsoft が提供するクラウド サービスに拡張します。 ExpressRoute を使用して、Azure や Microsoft 365 などのクラウド サービスへの接続を確立します。
Azure VPN Gateway は、パブリック インターネット経由で Azure 仮想ネットワークとオンプレミスの場所の間で暗号化されたトラフィックを送信する、特定の種類の仮想ネットワーク ゲートウェイです。
Microsoft Entra ID は、オンプレミスの Active Directory と同期できる ID およびアクセス管理サービスです。
アプリケーション
Azure は、より安全でスケーラブルで効率的なアプリケーションのデプロイをサポートするマネージド サービスを提供します。 このアーキテクチャでは、アプリケーション アーキテクチャの最適化に役立つアプリケーション層サービスを使用します。
Event Hubs は、Db2、IMS、および VSAM 変更データ メッセージを格納できるビッグ データ ストリーミング プラットフォームおよびイベント インジェスト サービスです。 毎秒数百万のメッセージを受信して処理できます。 イベント ハブのデータを変換して格納するには、リアルタイム分析プロバイダーまたはカスタム アダプターを使用します。
Apache Kafka は、高パフォーマンスのデータパイプライン、ストリーミング分析、データ統合、ミッションクリティカルなアプリケーションに使用されるオープンソースの分散型イベントストリーミングプラットフォームです。 Qlik データ統合と簡単に統合して、Db2 変更データを保存できます。
Data Lake Storage は、処理されたオンプレミスの変更ログ データを格納するためのデータ レイクを提供します。
Azure Databricks は、Apache Spark 上に構築されたクラウドベースのデータ エンジニアリング ツールです。 大量のデータを処理および変換できます。 機械学習モデルを使用してデータを探索できます。 ジョブは、R、Python、Java、Scala、Spark SQL で記述できます。
ストレージとデータベース
このアーキテクチャは、スケーラブルで安全性の高いクラウドストレージと、柔軟でインテリジェントなデータ管理のためのマネージドデータベースに対応しています。
Azure Storage は、データ、アプリ、ワークロードのための、非常にスケーラブルで安全性の高いクラウド サービスのセットです。 これには、 Azure Files、 Azure Table Storage、 Azure Queue Storageが含まれます。 Azure Files は、メインフレーム ワークロードを移行するための効果的なツールです。
Azure SQL は、アプリケーションの移行、最新化、開発のための柔軟なオプションを提供する SQL クラウド データベースのファミリです。 このファミリには、次のものが含まれます。
Azure Cosmos DB は、MongoDB と Cassandra 用のオープンソース API を備えたフル マネージド NoSQL データベース サービスです。 これを使用して、メインフレームの表形式以外のデータを Azure に移行できます。
Azure Database for PostgreSQL は、Azure サービスとのネイティブ接続を備えた、インテリジェントでスケーラブルなフル マネージドの PostgreSQL です。
Azure Database for MySQL は、フル マネージドのスケーラブルな MySQL データベースです。
モニタリング
監視ツールは、包括的なデータ分析と、アプリケーションのパフォーマンスに関する貴重な洞察を提供します。
Azure Monitor は、クラウド環境とオンプレミス環境からテレメトリを収集、分析、および操作するための包括的なソリューションです。 内容は以下のとおりです。
Application Insights は、テレメトリを分析および表示するためのものです。
Azure Monitor ログは、監視対象リソースからログとパフォーマンス データを収集して整理します。 Azure プラットフォーム ログ、仮想マシン エージェント、アプリケーションのパフォーマンスなどのソースからのデータを 1 つのワークスペースに組み合わせて分析できます。 クエリ言語を使用すると、レコードを分析できます。
Log Analytics は、Azure Monitor ログに対してクエリを実行できます。 強力なクエリ言語を使用すると、複数のテーブルからのデータを結合し、大量のデータを集約し、最小限のコードで複雑な操作を実行できます。
選択肢
上の図は、オンプレミスにインストールされた Qlik を示しています。 このアプローチは、Qlik をオンプレミスのデータ ソースに近づけるために推奨されるベスト プラクティスです。 別の方法として、Qlik をクラウドの Azure 仮想マシンにインストールすることもできます。
Qlik Data Integration は、Kafka やイベント ハブを経由せずに、Azure Databricks に直接データを配信できます。
Qlik データ統合 はデータを Azure Cosmos DB に直接レプリケートすることはできませんが、イベント ソーシング アーキテクチャを使用して Azure Cosmos DB をイベント ハブと統合できます。
シナリオの詳細
多くの組織では、メインフレームとミッドレンジのシステムを使用して、要求の厳しい重要なワークロードを実行しています。 ほとんどのアプリケーションは、多くの場合、複数のシステム間で共有データベースを使用します。 この環境では、クラウドへのモダナイゼーションとは、オンプレミスのデータをクラウドベースのアプリケーションに提供する必要があることを意味します。 したがって、データレプリケーションは重要なモダナイゼーション戦略になります。
Qlik データ統合プラットフォームには、データのレプリケーションを行う Qlik Replicate が含まれています。 変更データ キャプチャを使用して、オンプレミスのデータ ストアをリアルタイムで Azure にレプリケートします。 変更データは、Db2、IMS、および VSAM の変更ログから取得できます。 このレプリケーション手法により、不便な一括一括読み込みが排除されます。 このソリューションでは、Qlik のオンプレミス インスタンスを使用して、オンプレミスのデータ ソースをリアルタイムで Azure にレプリケートします。
考えられるユース ケース
このソリューションは、次の場合に適しています。
メインフレームまたはミッドレンジ システムから Azure データベースへのデータ変更のレプリケーションを必要とするハイブリッド環境。
Db2 から Azure SQL データベースへのオンライン データベース移行を、ダウンタイムをほとんど伴わずに行うことができます。
統合と分析のために、さまざまなオンプレミス データ ストアから Azure へのデータ レプリケーション。
考慮事項
これらの考慮事項では、Azure Well-Architected Framework の柱を実装します。これは、ワークロードの品質を向上させるために使用できる一連の基本原則です。 詳細については、「 Well-Architected Framework」を参照してください。
信頼性
信頼性は、アプリケーションが顧客に対して行ったコミットメントを確実に満たすことができるのに役立ちます。 詳細については、「信頼性の設計レビュー チェックリスト」を参照してください。
Qlik データ統合 は、高可用性クラスターで構成できます。
Azure データベース サービスはゾーン冗長性をサポートしており、メンテナンス期間中または障害が発生した場合にセカンダリ ノードにフェールオーバーするように設計できます。
安全
セキュリティは、意図的な攻撃や貴重なデータとシステムの誤用に対する保証を提供します。 詳細については、「セキュリティの設計レビュー チェックリスト」を参照してください。
ExpressRoute は、オンプレミスから Azure へのプライベートで効率的な接続を提供しますが、代わりに サイト間 VPN を使用することもできます。
Azure リソースは Microsoft Entra ID を使用して認証でき、アクセス許可はロールベースのアクセス制御によって管理されます。
Azure データベース サービスでは、次のようなさまざまなセキュリティ オプションがサポートされています。
保存時のデータ暗号化。
動的データマスキング。
常時暗号化データベース。
詳細については、 Azure のセキュリティに関するドキュメントを参照してください。
コストの最適化
コストの最適化では、不要な経費を削減し、運用効率を向上させる方法に重点を置いています。 詳細については、「コスト最適化の設計レビュー チェックリスト」を参照してください。
Azure 料金計算ツールを使用して、実装のコストを見積もります。
オペレーショナル エクセレンス
オペレーショナル エクセレンスは、アプリケーションをデプロイし、それを運用環境で実行し続ける運用プロセスをカバーします。 詳細については、「オペレーショナル エクセレンスのデザイン レビュー チェック一覧」を参照してください。
Application Insights と Log Analytics の機能を組み合わせて、Azure リソースの正常性を監視できます。 アラートを設定して、問題をプロアクティブに管理できるようにすることができます。
パフォーマンス効率
パフォーマンス効率とは、ユーザーの要求を効率的に満たすためにスケーリングするワークロードの能力を指します。 詳細については、「パフォーマンス効率の設計レビュー チェックリスト」を参照してください。
Azure Databricks、Data Lake Storage、およびその他の Azure データベース サービスには、自動スケール機能があります。 詳細については、自動スケーリングのページを参照してください。
貢献者達
Microsoft では、この記事を保持しています。 次の共同作成者がこの記事を書きました。
主要な著者:
- Nithish Aruldoss | エンジニアリング アーキテクト
- Ashish Khandelwal | プリンシパル エンジニアリング アーキテクチャ マネージャー
公開されていない LinkedIn プロフィールを見るには、LinkedIn にサインインしてください。
次のステップ
- Qlik データ統合プラットフォーム
- 新しい Azure 分析イニシアチブを解き放つ (PDF データ シート)
- ExpressRoute とは
- Event Hubs: Apache Kafka をネイティブにサポートするリアルタイム データ ストリーミング プラットフォーム
- ストレージの概要
- Azure SQL Database とは何ですか?
- Azure Cosmos DB
- OpenTelemetry を使用した Application Insights の概要
- Azure Monitor ログの概要
- Azure Monitor のログ クエリ
- お問い合わせ(メール作成選択)
関連リソース
- メインフレームおよびミッドレンジ データの最新化
- Azure でメインフレーム バッチ アプリケーションをリエンジニアリングする
- Azure でのメインフレーム データのレプリケートと同期
- Azure でのメインフレーム ファイルのレプリケーションと同期の