Azure Data Factory を使用してオンプレミスの Netezza サーバーから Azure にデータを移行する

適用対象: Azure Data Factory Azure Synapse Analytics

ヒント

企業向けのオールインワン分析ソリューション、Microsoft Fabric の Data Factory をお試しください。 Microsoft Fabric は、データ移動からデータサイエンス、リアルタイム分析、ビジネスインテリジェンス、レポートまで、あらゆるものをカバーしています。無料で新しい試用版を開始する方法について説明します。

Azure Data Factory には、オンプレミスの Netezza サーバーから Azure のストレージアカウントまたは Azure Synapse Analytics データベースに大量のデータを移行することができる、パフォーマンスと信頼性が高くコスト効率に優れたメカニズムが用意されています。

この記事では、データエンジニアと開発者向けに次の情報を提供します。

パフォーマンス
回復性のコピー
ネットワークのセキュリティ
概要ソリューションアーキテクチャ
実装のベストプラクティス

パフォーマンス

Azure Data Factory は、さまざまなレベルで並列処理を可能にするサーバーレスアーキテクチャを提供します。開発者は、パイプラインを構築することでネットワークとデータベースの両方の帯域幅を余すことなく使用し、環境内でのデータ移動のスループットを最大化することができます。

パフォーマンスの図

上の図は、次のように解釈できます。

1 回のコピーアクティビティで、スケーラブルなコンピューティングリソースを利用できます。 Azure Integration Runtime を使用する場合は、各コピーアクティビティに対して最大 256 DIU をサーバーレス方式で指定できます。セルフホステッド統合ランタイム (セルフホステッド IR) では、マシンを手動でスケールアップしたり、複数のマシン (最大 4 台のノード) にスケールアウトしたりすることができます。また、1 回のコピーアクティビティにより、すべてのノードでアクティビティがパーティションを配布されます。
1 回のコピーアクティビティで、複数のスレッドを使用したデータストアの読み取りと書き込みが行われます。
Azure Data Factory 制御フローでは、複数のコピーアクティビティを並列して開始できます。たとえば、For Each ループを使用して開始できます。

詳細については、コピーアクティビティのパフォーマンスとスケーラビリティに関するガイドを参照してください。

回復力

Azure Data Factory には組み込みの再試行メカニズムがあるため、1 回のコピーアクティビティの実行で、データストアまたは基になるネットワークの特定のレベルの一時的なエラーを処理できます。

Azure Data Factory のコピーアクティビティでは、ソースとシンクデータストアの間でデータをコピーする場合、2 つの方法で互換性のない行を取り扱うことができます。コピーアクティビティを中止して失敗とするか、互換性のないデータ行をスキップして残りのデータのコピーを続行できます。さらに、エラーの原因を把握するために互換性のない行を Azure BLOB ストレージまたは Azure Data Lake Store のログに記録し、データソースのデータを修正してから、コピーアクティビティを再試行できます。

ネットワークのセキュリティ

既定では、Azure Data Factory は、ハイパーテキスト転送プロトコルセキュア (HTTPS) プロトコル経由の暗号化された接続を使用して、オンプレミスの Netezza サーバーから Azure ストレージアカウントまたは Azure Synapse Analytics データベースにデータを転送します。 HTTPS によって転送中のデータが暗号化され、盗聴や中間者攻撃が防止されます。

また、パブリックインターネット経由でデータを転送しない場合は、Azure ExpressRoute を介してプライベートピアリングリンク経由でデータを転送することで、より高いセキュリティを実現できます。

次のセクションでは、より強固なセキュリティを実現する方法について説明します。

ソリューションのアーキテクチャ

このセクションでは、データを移行する 2 つの方法について説明します。

パブリックインターネット経由でデータを移行する

上の図は、次のように解釈できます。

このアーキテクチャでは、パブリックインターネット経由で HTTPS を使用してデータを安全に転送します。
このアーキテクチャを実現するには、企業ファイアウォールの内側にある Windows マシンに、Azure Data Factory 統合ランタイム (セルフホステッド) をインストールする必要があります。この統合ランタイムから Netezza サーバーに直接アクセスできることを確認します。ネットワークとデータストアの帯域幅を完全に活用してデータをコピーするには、マシンを手動でスケールアップするか、複数のマシンにスケールアウトします。
このアーキテクチャを使用すると、初期スナップショットデータと差分データの両方を移行できます。

プライベートネットワーク経由でデータを移行する

上の図は、次のように解釈できます。

このアーキテクチャでは、データの移行は Azure ExpressRoute を介してプライベートピアリングリンク経由で行われ、データがパブリックインターネット経由で転送されることはありません。
このアーキテクチャを実現するには、Azure 仮想ネットワーク内の Windows 仮想マシン (VM) に Azure Data Factory 統合ランタイム (セルフホステッド) をインストールする必要があります。ネットワークとデータストアの帯域幅を完全に活用してデータをコピーするには、VM を手動でスケールアップするか、複数の VM にスケールアウトします。
このアーキテクチャを使用すると、初期スナップショットデータと差分データの両方を移行できます。

ベストプラクティスを実装する

認証情報と資格情報の管理

Netezza に対して認証を行うために、接続文字列を介した ODBC 認証を使用できます。
Azure BLOB ストレージに対して認証するには:
- Azure リソースのマネージド ID を使用することを強くお勧めします。マネージド ID は Microsoft Entra ID で自動的に管理される Azure Data Factory ID をベースに構築されており、リンクされたサービス定義で資格情報を指定せずにパイプラインを構成できます。
- また、サービスプリンシパル、共有アクセス署名、またはストレージアカウントキーを使用して Azure BLOB ストレージに対する認証を行うこともできます。
Data Lake Storage Gen2 に対して認証するには:
- Azure リソースのマネージド ID を使用することを強くお勧めします。
- また、サービスプリンシパルまたはストレージアカウントキーを使用することもできます。
Azure Synapse Analytics に対して認証するには:
- Azure リソースのマネージド ID を使用することを強くお勧めします。
- また、サービスプリンシパルまたは SQL 認証を使用することもできます。
Azure リソースのマネージド ID を使用しない場合は、簡単にするために、Azure Key Vault に資格情報を格納して、Azure Data Factory のリンクされたサービスを変更せずに、キーを一元的に管理およびローテーションすることを強くお勧めします。これは、CI/CD のベストプラクティスの1 つでもあります。

初回のスナップショットデータ移行

小さいテーブル (ボリュームサイズが 100 GB より小さい、または 2 時間以内に Azure に移行できる) の場合は、各コピージョブでテーブルごとにデータを読み込むよう設定できます。スループットを向上させるには、複数の Azure Data Factory コピージョブを実行して、異なるテーブルを同時に読み込むことができます。

各コピージョブ内では、並列クエリを実行してデータをパーティションでコピーするには、以下のいずれかのデータパーティションのオプションでparallelCopiesプロパティ設定を使用することで、ある程度の水準の並列処理を達成することもできます。

効率を高めるために、データスライスから始めることをお勧めします。 parallelCopies 設定の値が、Netezza サーバー上のテーブル内のデータスライスパーティションの合計数より小さいことを確認します。
各データスライスパーティションのボリュームサイズが依然として大きい場合 (たとえば、10 GB を超える場合) は、動的範囲パーティションに切り替えることをお勧めします。このオプションを使用すると、パーティションの数と各パーティションのパーティション列ごとのボリュームのサイズやその上限と下限を柔軟に定義できます。

大きなテーブル (つまり、ボリュームサイズが 100 GB より大きい、または 2 時間以内に Azure に移行できないテーブル) では、データをカスタムクエリを使用してパーティション分割し、各コピージョブでパーティションを 1 つづつコピーすることをお勧めします。スループットを向上させるには、複数の Azure Data Factory コピージョブを同時に実行することができます。カスタムクエリにより各コピージョブで 1 つのパーティションを読み込むよう設定している場合でも、データスライスまたは動的範囲を介して並列処理を有効にすることで、スループットを向上させることができます。

ネットワークまたはデータストアの一時的な問題によってコピージョブが失敗した場合は、失敗したコピージョブを再実行して、そのテーブルから特定のパーティションを再度読み込むことができます。読み込むパーティションが異なるその他のコピージョブは影響を受けません。

Azure Synapse Analytics データベースにデータを読み込む際は、Azure BLOB ストレージをステージングとして、コピージョブ内で PolyBase を有効にすることをお勧めします。

差分データの移行

テーブルから新規の行または更新された行を識別するには、スキーマのタイムスタンプ列か増分キーを使用します。その後、最新の値を高基準値として外部テーブルに格納し、次にデータを読み込むときにその値を使用して差分データをフィルター処理できます。

テーブルごとに異なる基準値列を使用して、新しい行や更新された行を識別できます。 Microsoft では、外部制御テーブルを作成することをお勧めします。このテーブルで、各行は特定の基準値列名と高基準値を持つ Netezza サーバー上の 1 つのテーブルを表します。

セルフホステッド統合ランタイムを構成する

Netezza サーバーから Azure にデータを移行する場合、サーバーが企業ファイアウォールの内側にあるか仮想ネットワーク環境内にあるかに関係なく、データを移動するエンジンとして、セルフホステッド IR を Windows マシンまたは VM にインストール必要があります。セルフホステッド IR をインストールする際は、次のアプローチをお勧めします。

各 Windows マシンまたは VM で、32 vCPU と 128 GB のメモリの構成を開始します。データ移行中に IR マシンの CPU とメモリの使用状況を監視して、パフォーマンスを向上させるためにマシンをさらにスケールアップする必要があるか、コストを節約するためにマシンをスケールダウンする必要があるかを確認できます。
また、1 つのセルフホステッド IR に最大 4 つのノードを関連付けてスケールアウトすることもできます。セルフホステッド IR に対して実行される 1 回のコピージョブで、すべての VM ノードが自動的に適用されてデータが並列してコピーされます。高可用性を実現するには、データ移行中の単一障害点を回避するために、2 台の VM ノードから始めます。

パーティションを制限する

ベストプラクティスとして、代表的なサンプルデータセットを使用してパフォーマンスの概念実証 (POC) を実施し、各コピーアクティビティにおける適切なパーティションのサイズを決定できるようにします。 2 時間以内に各パーティションを Azure に読み込むことをお勧めします。

テーブルをコピーするには、まず 1 台のセルフホステッド IR マシンで 1 回のコピーアクティビティを行います。テーブル内のデータスライスパーティションの数に基づいて parallelCopies 設定を徐々に増やします。コピージョブのスループットに基づき、Azure にテーブル全体を 2 時間以内に読み込むことができるかどうかを確認します。

Azure にテーブルを 2 時間以内に読み込むことができず、かつセルフホステッド IR ノードとデータストアの容量が完全に使用されていない場合は、ネットワークの制限またはデータストアの帯域幅制限に達するまで、同時コピーアクティビティの数を徐々に増やします。

引き続きセルフホステッド IR マシンの CPU およびメモリ使用率を監視し、CPU およびメモリが完全に使用されていることが確認されたときに、マシンをスケールアップするか複数のコンピューターにスケールアウトできるよう準備しておきます。

Azure Data Factory のコピーアクティビティによって報告された調整エラーが発生した場合は、Azure Data Factory の同時実行数または parallelCopies の設定値を減らすか、ネットワークとデータストアの帯域幅または 1 秒あたりの最大 I/O 操作 (IOPS) の制限値を大きくすることを検討してください。

価格のお見積り

オンプレミスの Netezza サーバーから Azure Synapse Analytics データベースにデータを移行するために構築されている、次のパイプラインについて検討します。

価格パイプライン

以下のことがわかると仮定します。

データボリュームの合計は 50 テラバイト (TB)。
最初のソリューションアーキテクチャを使用してデータを移行する (Netezza サーバーはファイアウォールの内側に設置されている)。
50 TB 分のデータボリュームが 500 のパーティションに分割され、各コピーアクティビティで 1 つのパーティションが移行される。
各コピーアクティビティは 4 台のマシンに対して 1 つのセルフホステッド IR を使用して構成され、20 メガバイト/秒 (Mbps) のスループットを実現する。 (コピーアクティビティ内では、parallelCopies が 4 に設定され、テーブルからデータを読み込む各スレッドが 5 MBps のスループットを実現する)。
ForEach の同時実行数は 3 に設定され、合計スループットは 60 MBps である。
合計では、移行が完了するまでに 243 時間かかる。

上記の前提条件に基づき、見積もり価格は次のようになります。

価格テーブル

Note

上記の価格は仮定です。実際の料金は、環境の実際のスループットによって変わります。 (セルフホステッド IR がインストールされている) Windows マシンの料金は含まれていません。

その他のリファレンス

詳細については、次の記事とガイドを参照してください。

Azure Data Factory を使用して複数のコンテナーからファイルをコピーする

フィードバック

このページはお役に立ちましたか?

Last updated on 2024-05-15

次の方法で共有

Azure Data Factory を使用してオンプレミスの Netezza サーバーから Azure にデータを移行する

パフォーマンス

回復力

ネットワークのセキュリティ

ソリューションのアーキテクチャ

パブリック インターネット経由でデータを移行する

プライベート ネットワーク経由でデータを移行する

ベスト プラクティスを実装する

認証情報と資格情報の管理

初回のスナップショット データ移行

差分データの移行

セルフホステッド統合ランタイムを構成する

パーティションを制限する

価格のお見積り

その他のリファレンス

関連するコンテンツ

フィードバック

その他のリソース

パブリックインターネット経由でデータを移行する

プライベートネットワーク経由でデータを移行する

ベストプラクティスを実装する

初回のスナップショットデータ移行