Microsoft Fabric の Data Factory における Avro 形式

Avro は、Apache Hadoop ワークロードでよく使用される行ベースのデータシリアル化形式です。 この記事では、Microsoft Fabricの Data Factory のコピー アクティビティ パイプラインで Avro 形式を構成する方法について説明します。

サポートされる機能

Avro 形式は、次のアクティビティとコネクタでソースおよび宛先としてサポートされています。

カテゴリ コネクタ/アクティビティ
サポートされているコネクタ アマゾンS3
Amazon S3 互換
Azure Blob Storage
Azure Data Lake Storage Gen2
Azure Files
ファイル システム
FTP
Google Cloud Storage
HTTP
レイクハウス ファイル
Oracle Cloud Storage
SFTP
サポートされているアクティビティ Copy アクティビティ (コピー元/コピー先)
Lookup アクティビティ
メタデータ取得アクティビティ
アクティビティを削除する

コピー処理での Avro 形式

Avro 形式を構成するには、パイプライン コピー アクティビティのソースまたは宛先で接続を選択し、ファイル形式のドロップダウン リストで Avro を選択します。 この形式をさらに構成するには、[設定] を選択します。

ファイル形式の設定を示すスクリーンショット。

ソースとしての Avro 形式

[ファイル形式] セクションで [設定] を選択すると、ポップアップの [File format settings] (ファイル形式設定) ダイアログ ボックスに以下のプロパティが表示されます。

Avro ファイル形式のソースを示すスクリーンショット。

  • 圧縮の種類: ドロップダウン リストで Avro ファイルの読み取りに使用する圧縮コーデックを選択します。 [なし] または [deflate] のいずれかを選択できます。 [動的なコンテンツの追加] を選び、式ビルダーで種類を指定することもできます。

  • 圧縮レベル: 圧縮率を指定します。 1 から 7 の中から選びます。 [動的なコンテンツの追加] を選び、式ビルダーでレベルを指定することもできます。

コピー先としての Avro 形式

[設定] を選択すると、[File format settings] (ファイル形式設定) ダイアログ ボックスに以下のプロパティが表示されます。

Avro ファイル形式の保存先を示すスクリーンショット。

  • 圧縮の種類: ドロップダウン リストで Avro ファイルの書き込みに使用する圧縮コーデックを選択します。 [なし] または [deflate] のいずれかを選択できます。 [動的なコンテンツの追加] を選び、式ビルダーで種類を指定することもできます。

  • 圧縮レベル: 圧縮率を指定します。 1 から 7 の中から選びます。 [動的なコンテンツの追加] を選び、式ビルダーでレベルを指定することもできます。

[コピー先] タブの [詳細] 設定に、次の Avro 形式の関連プロパティが表示されます。

  • [ファイルあたりの最大行数]: データをフォルダーに書き込むとき、複数のファイルに書き込み、ファイルあたりの最大行を指定することを選択できます。
  • [ファイル名プレフィックス]: [ファイルあたりの最大行数] が構成されている場合に適用されます。 データを複数のファイルに書き込むとき、ファイル名のプレフィックスを指定します。結果的に <fileNamePrefix>_00000.<fileExtension> のパターンになります。 指定されていない場合、ファイル名プレフィックスは自動生成されます。 このプロパティは、ソースがファイルベース ストアかパーティション オプション対応データ ストアの場合、適用されません。

Avro コピー アクティビティのプロパティ

ソースとしての Avro

Avro 形式を使用する場合、Copy アクティビティの [ソース] セクションでは、次のプロパティがサポートされます。

名前 説明 必須 JSON スクリプト プロパティ
ファイル形式 使用するファイル形式。 Avro はい type (datasetSettings の下):
Avro
[圧縮の種類] Avro ファイルの読み取りに使用される圧縮コーデックです。 なし
デフレート
いいえ avroCompressionCodec:

デフレート
圧縮レベル 圧縮率です。 1 から 7 いいえ avroCompressionLevel:
1 から 7

コピー先としての Avro

Avro 形式を使用する場合、Copy アクティビティの [コピー先] セクションでは、次のプロパティがサポートされます。

名前 説明 必須 JSON スクリプト プロパティ
ファイル形式 使用するファイル形式。 Avro はい type (datasetSettings の下):
Avro
[圧縮の種類] Avro ファイルの書き込みに使用される圧縮コーデック。 なし
デフレート
いいえ avroCompressionCodec:

デフレート
圧縮レベル 圧縮率です。 1 から 7 いいえ avroCompressionLevel:
1 から 7
ファイルあたりの最大行数 データをフォルダーに書き込むとき、複数のファイルに書き込み、ファイルあたりの最大行を指定することを選択できます。 < ファイルあたりの最大行数 > いいえ maxRowsPerFile (ファイルごとの最大行数)
ファイル名プレフィックス [ファイルあたりの最大行数] が構成されている場合に適用されます。 データを複数のファイルに書き込むとき、ファイル名のプレフィックスを指定します。結果的に <fileNamePrefix>_00000.<fileExtension> のパターンになります。 指定されていない場合、ファイル名プレフィックスは自動生成されます。 このプロパティは、ソースがファイルベース ストアかパーティション オプション対応データ ストアの場合、適用されません。 < あなたのファイル名のプレフィックス > いいえ ファイル名プレフィックス