マッピングデータフローでのシンク変換

2024-09-25

適用対象: Azure Data Factory Azure Synapse Analytics

ヒント

企業向けのオールインワン分析ソリューション、Microsoft Fabric の Data Factory をお試しください。 Microsoft Fabric は、データ移動からデータサイエンス、リアルタイム分析、ビジネスインテリジェンス、レポートまで、あらゆるものをカバーしています。無料で新しい試用版を開始する方法について説明します。

データフローは、Azure Data Factory パイプラインと Azure Synapse Analytics パイプラインの両方で使用できます。この記事は、マッピングデータフローに適用されます。変換を初めて使用する場合は、入門記事「マッピングデータフローを使用したデータの変換」を参照してください。

データの変換を完了したら、シンク変換を利用してそれを変換先ストアに書き込みます。各データフローには少なくとも 1 つのシンク変換が必要ですが、変換フローを完了するために必要な数だけのシンクに書き込むことができます。追加のシンクに書き込むには、新しい分岐と条件分割によって新しいストリームを作成します。

各シンク変換が関連付けられるデータセットオブジェクトまたはリンクされたサービスは 1 つだけです。シンク変換では、データの形状と書き込みを行う場所が決定されます。

インラインデータセット

シンク変換を作成するとき、シンク情報をデータセットオブジェクト内で定義するのか、シンク変換内で定義するのか選択します。ほとんどの形式はどちらか一方しかありません。特定のコネクタの使用方法については、該当するコネクタドキュメントを参照してください。

形式がインラインとデータセットオブジェクトの両方でサポートされているとき、両方に利点があります。データセットオブジェクトは、他のデータフローと、コピーなどのアクティビティとで使用できる再利用可能なエンティティです。これらの再利用可能なエンティティは、強化されたスキーマを使用する場合に特に役立ちます。データセットは Spark を基盤としていません。場合によっては、シンク変換で特定の設定またはスキーマプロジェクションをオーバーライドすることが必要となることがあります。

柔軟なスキーマ、1 回限りのシンクインスタンス、またはパラメーター化されたシンクを使用する際は、インラインデータセットが推奨されます。シンクが大きくパラメーター化されている場合、インラインデータセットを使用すると、"ダミー" オブジェクトを作成できません。インラインデータセットは Spark を基盤とし、そのプロパティはデータフローにネイティブです。

インラインデータセットを使用するには、 [シンクの種類] セレクターで目的の形式を選択します。シンクデータセットを選択するのでなく、接続先にするリンクされたサービスを選択します。

インラインが選択されていることを示すスクリーンショット。

ワークスペース DB (Synapse ワークスペースのみ)

Azure Synapse ワークスペースでデータフローを使用する場合は、Synapse ワークスペース内にあるデータベースの種類に直接データをシンクする、追加のオプションが得られます。これにより、それらのデータベース用のリンクされたサービスまたはデータセットを追加する必要性が軽減されます。 [ワークスペース DB] を選択すると、Azure Synapse データベーステンプレートを使用して作成されたデータベースにもアクセスできます。

注

Azure Synapse ワークスペース DB コネクタは現在パブリックプレビュー段階にあり、現時点では Spark Lake データベースでのみ機能します

選択されたワークスペース DB を示すスクリーンショット。

サポートされているシンクの種類

マッピングデータフローは、抽出、読み込み、変換 (ELT) のアプローチに従い、すべて Azure に存在する "ステージング" データセットを操作します。現在、シンク変換には次のデータセットを使用できます。

ヒント

シンクは、ソースとは異なる形式にすることができます。これは、ある形式から別の形式に変換する方法の 1 つのステップです。たとえば、CSV から Parquet シンクです。これを正しく機能させるには、ソースとシンクの間のデータフローでいくつかの変換を行う必要がある場合があります。 (たとえば、Parquet には CSV よりも具体的なヘッダー要件があります)。

コネクタ	フォーマット	データセット/インライン
Azure Blob Storage	Avro 区切りテキストデルタ JSON オークパーケット	✓/✓ ✓/✓ -/✓ ✓/✓ ✓/✓ ✓/✓
NoSQL 用 Azure Cosmos DB		✓/-
Azure Data Lake Storage Gen1	Avro 区切りテキスト JSON オークパーケット	✓/- ✓/- ✓/- ✓/✓ ✓/-
Azure Data Lake Storage Gen2	Avro 共通データモデル区切りテキストデルタ JSON オークパーケット	✓/✓ -/✓ ✓/✓ -/✓ ✓/✓ ✓/✓ ✓/✓
Azure Database for MySQL		✓/✓
Azure Database for PostgreSQL		✓/✓
Azure Data Explorer		✓/✓
Azure SQL Database		✓/✓
Azure SQL Managed Instance		✓/-
Azure Synapse Analytics		✓/-
Dataverse (データ・ス		✓/✓
Dynamics 365		✓/✓
Dynamics CRM		✓/✓
ファブリックレイクハウス		✓/✓
スピーカ	Avro 区切りテキスト JSON オークパーケット	✓/✓ ✓/✓ ✓/✓ ✓/✓ ✓/✓
雪片		✓/✓
SQL Server		✓/✓

これらのコネクタに固有の設定は、[設定] タブにあります。これらの設定に関する情報とデータフロースクリプトの例は、コネクタのドキュメントに記載されています。

このサービスから、90 を超えるネイティブコネクタにアクセスできます。それらの他のソースにデータフローからデータを書き込むには、コピーアクティビティを使用し、サポートされているシンクからそのデータを読み込みます。

シンクの設定

シンクを追加したら、 [シンク] タブを使用して構成を行います。ここでは、シンクを書き込むデータセットを選択して作成できますデータセットパラメーターの開発値は、デバッグの設定で構成できます (デバッグモードをオンにする必要があります)。

以下のビデオでは、テキスト区切りのファイルの種類に対応するさまざまなシンクオプションについて説明します。

[シンク] の設定を示すスクリーンショット。

[スキーマの誤差] : [スキーマの誤差] は、データフロー内の柔軟なスキーマをネイティブに処理するこのサービスの機能であり、列の変更を明示的に定義する必要はありません。シンクデータスキーマで定義されている内容の上に追加の列を記述するには、 [Allow schema drift](スキーマの誤差を許可する) を有効にします。

[スキーマの検証] : [スキーマの検証] を選択すると、シンクプロジェクションの列がシンクストアで見つからない場合、またはデータ型が一致しない場合にデータフローは失敗します。この設定を使用して、シンクスキーマが定義済みのプロジェクションのコントラクトを満たすように強制できます。これは、列の名前または型が変更されたことを通知する、データベースシンクのシナリオにおいて便利です。

キャッシュシンク

キャッシュシンクは、データフローによって、データストアではなく Spark キャッシュにデータが書き込まれる場合に使用されます。マッピングデータフローでは、キャッシュ参照を使用して、同じフロー内でこのデータを何度も参照できます。これは、式の一部としてデータを参照したいが、列を明示的に結合したくない場合に便利です。キャッシュシンクが有用である一般的な例としては、データストアで最大値を検索することや、エラーコードをエラーメッセージデータベースと照合することが挙げられます。

キャッシュシンクに書き込むには、シンク変換を追加し、シンクの種類として [キャッシュ] を選択します。他のシンクの種類とは異なり、外部ストアに書き込むのではないため、データセットやリンクされたサービスを選択する必要はありません。

キャッシュシンクの選択

シンクの設定で、必要に応じてキャッシュシンクのキー列を指定できます。これは、キャッシュ参照で lookup() 関数を使用する場合に、一致条件として使用されます。キー列を指定する場合は、キャッシュ参照で outputs() 関数は使用できません。キャッシュ参照構文の詳細については、キャッシュされた参照に関する記事を参照してください。

キャッシュシンクのキー列

たとえば、column1 というキャッシュシンクに 1 つのキー列 cacheExample を指定する場合、cacheExample#lookup() の呼び出しに、キャッシュシンク内のどの行と照合するかを指定する 1 つのパラメーターを含めます。この関数によって、マップされた各列のサブ列を含む 1 つの複合列が出力されます。

注

キャッシュシンクは、キャッシュ参照を使用してそれを参照する変換から、完全に独立したデータストリームに存在する必要があります。また、キャッシュシンクは、最初に書き込まれるシンクである必要があります。

アクティビティ出力への書き込み
キャッシュシンクは、必要に応じて、そのデータを Data Flow アクティビティの出力に書き込むことができ、それをパイプライン内の別のアクティビティへの入力として使用できます。これにより、データストアにデータを保持することなく、データフローアクティビティからデータをすばやく簡単に渡すことができます。

パイプラインに直接挿入される Data Flow からの出力は、2 MB に制限されることに注意してください。したがって、Data Flow は、2 MB の制限内で、できるだけ多くの行を出力に追加しようとします。そのために、アクティビティ出力にすべての行が表示されない場合があります。 Data Flow アクティビティのレベルで [先頭行のみ] を設定すると、必要に応じて Data Flow からのデータ出力を制限することもできます。

更新方法

データベースシンクの種類の場合、[設定] タブに [Update method] (更新メソッド) プロパティが含まれます。既定値は insert ですが、update、upsert、delete 用のチェックボックスオプションも含まれています。これらの追加オプションを利用するには、シンクの前に行の変更変換を追加する必要があります。行の変更を使用すると、各データベースアクションの条件を定義できます。ソースがネイティブ CDC 対応ソースの場合、行の変更を使用せずに更新メソッドを設定できます。ADF では insert、update、upsert、delete の行マーカーを既に認識しているためです。

フィールドのマッピング

シンクの [マッピング] タブ上では、Select 変換と同様に、受信列が書き込まれるかどうかを決定できます。既定では、誤差のある列を含め、すべての入力列がマップされます。この動作は "自動マッピング" として知られています。

自動マッピングを無効にすると、固定列ベースのマッピングまたはルールベースのマッピングのいずれかを追加することができます。ルールベースのマッピングを使用すると、パターンマッチングを含む式を作成できます。固定マッピングを使用すると、論理および物理列名がマップされます。ルールベースのマッピングの詳細については、マッピングデータフローの列パターンに関するページを参照してください。

カスタムシンクの順序付け

既定では、データが複数のシンクに書き込まれる順序は決まっていません。変換ロジックが完了すると、実行エンジンによってデータは並列に書き込まれます。シンクの順序は実行ごとに異なる場合があります。シンクの順序を正確に指定するには、データフローの [全般] タブで [カスタムシンクの順序付け] を有効にします。有効にすると、シンクは昇順で連続して書き込まれます。

[カスタムシンクの順序付け] を示すスクリーンショット。

注

キャッシュされた参照を使用する場合は、シンクの順序付けで、キャッシュされたシンクが順序付けの一番下 (または最初) である 1 に設定されるようにしてください。

カスタムシンクの順序付け

シンクグループ

シンクをグループ化するには、一連のシンクに同じ順序番号を適用します。このサービスは、それらのシンクを並列に実行できるグループとして扱います。並列実行のオプションは、パイプラインデータフローアクティビティに表示されます。

エラー

シンクエラータブでは、データベースドライバーエラーおよび失敗したアサーションの出力をキャプチャしてリダイレクトするように、エラー行の処理を構成できます。

データベースに書き込む場合、書き込み先で設定されている制約によって、データの特定の行が失敗することがあります。既定では、データフローの実行は最初に発生したエラーで失敗します。一部のコネクタでは、 [エラーのまま続行する] を選択すると、個々の行でエラーが発生した場合でもデータフローを完了することができます。現時点では、この機能は Azure SQL Database と Azure Synapse でのみ使用できます。詳細については、Azure SQL DB でのエラー行の処理に関する記事を参照してください。

以下は、シンク変換でデータベースのエラー行の処理を自動的に使用する方法を説明するビデオチュートリアルです。

アサートエラー行の場合は、データフローのアップストリームで Assert 変換を使用し、失敗したアサーションをシンクエラータブの出力ファイルにリダイレクトできます。また、ここには、アサーションエラーが発生した行を無視し、それらの行をシンク変換先データストアにまったく出力しないオプションもあります。

アサート失敗行

シンクでのデータのプレビュー

デバッグモードでデータプレビューをフェッチすると、データはシンクに書き込まれません。データの外観を示すスナップショットが返されますが、指定した変換先には何も書き込まれません。シンクへのデータの書き込みをテストするには、パイプラインキャンバスからパイプラインのデバッグを実行します。

データフローのスクリプト

例

次に示すのは、シンク変換とそのデータフロースクリプトの例です。

sink(input(
		movie as integer,
		title as string,
		genres as string,
		year as integer,
		Rating as integer
	),
	allowSchemaDrift: true,
	validateSchema: false,
	deletable:false,
	insertable:false,
	updateable:true,
	upsertable:false,
	keys:['movie'],
	format: 'table',
	skipDuplicateMapInputs: true,
	skipDuplicateMapOutputs: true,
	saveOrder: 1,
	errorHandlingOption: 'stopOnFirstError') ~> sink1

これでデータフローが作成されたので、データフローのアクティビティをパイプラインに追加します。

次の方法で共有

マッピング データ フローでのシンク変換

インライン データセット

ワークスペース DB (Synapse ワークスペースのみ)

サポートされているシンクの種類

シンクの設定

キャッシュ シンク

更新方法

フィールドのマッピング

カスタム シンクの順序付け

シンク グループ

エラー

シンクでのデータのプレビュー

データ フローのスクリプト

例

関連するコンテンツ

フィードバック

その他のリソース

マッピングデータフローでのシンク変換

インラインデータセット

キャッシュシンク

カスタムシンクの順序付け

シンクグループ

データフローのスクリプト