Microsoft Fabric の Data Factory での ORC 形式
この記事では、Microsoft Fabric の Data Factory のデータ パイプラインで ORC 形式を構成する方法の概要を示します。
サポートされる機能
ORC 形式は、次のアクティビティとコネクタでソースおよびコピー先としてサポートされています。
カテゴリ | コネクタ/アクティビティ |
---|---|
サポートされているコネクタ | Amazon S3 |
Amazon S3 互換 | |
Azure Blob Storage | |
Azure Data Lake Storage Gen1 | |
Azure Data Lake Storage Gen2 | |
Azure Files | |
ファイル システム | |
FTP | |
Google Cloud Storage | |
HTTP | |
レイクハウス ファイル | |
Oracle Cloud Storage | |
SFTP | |
サポートされているアクティビティ | Copy アクティビティ (コピー元/コピー先) |
Lookup アクティビティ | |
GetMetadata アクティビティ | |
データの削除アクティビティ |
コピー アクティビティの ORC 形式
ORC 形式を構成するには、データ パイプラインの Copy アクティビティのソースまたはコピー先で接続を選び、[ファイル形式] のドロップダウン リストで [ORC] を選びます。 この形式をさらに構成するには、[設定] を選択します。
ソースとしての ORC 形式
[ファイル形式] セクションで [設定] を選択すると、ポップアップの [File format settings] (ファイル形式設定) ダイアログ ボックスに以下のプロパティが表示されます。
- [圧縮の種類]: ドロップダウン リストで、ORC ファイルの読み取りに使用する圧縮コーデックを選びます。 [なし]、[zlib] または [snappy] のいずれかを選択できます。
コピー先としての ORC 形式
[設定] を選択すると、[File format settings] (ファイル形式設定) ダイアログ ボックスに以下のプロパティが表示されます。
- [圧縮の種類]: ドロップダウン リストで、ORC ファイルの書き込みに使用する圧縮コーデックを選びます。 [なし]、[zlib] または [snappy] のいずれかを選択できます。
[コピー先] タブの [詳細] 設定に、ORC 形式に関係する次のプロパティが表示されます。
- [ファイルあたりの最大行数]: データをフォルダーに書き込むとき、複数のファイルに書き込み、ファイルあたりの最大行を指定することを選択できます。 ファイルごとに書き込む最大行数を指定します。
- [ファイル名プレフィックス]: [ファイルあたりの最大行数] が構成されている場合に適用されます。 データを複数のファイルに書き込むとき、ファイル名のプレフィックスを指定します。結果的に
<fileNamePrefix>_00000.<fileExtension>
のパターンになります。 指定されていない場合、ファイル名プレフィックスは自動生成されます。 このプロパティは、ソースがファイルベース ストアかパーティション オプション対応データ ストアの場合、適用されません。
表形式の概要
ソースとしての ORC
ORC 形式を使う場合、Copy アクティビティの [ソース] セクションでは、次のプロパティがサポートされます。
名前 | Description | Value | 必須 | JSON スクリプト プロパティ |
---|---|---|---|---|
ファイル形式 | 使用するファイル形式。 | ORC | はい | 型 ("datasetSettings の下"):Orc |
[圧縮の種類] | ORC ファイルの読み取りに使用される圧縮コーデック。 | なし zlib snappy |
いいえ | orcCompressionCodec: なし zlib snappy |
コピー先としての ORC
ORC 形式を使用する場合、コピー アクティビティの [コピー先] セクションでは、次のプロパティがサポートされます。
名前 | Description | Value | 必須 | JSON スクリプト プロパティ |
---|---|---|---|---|
ファイル形式 | 使用するファイル形式。 | ORC | はい | 型 ("datasetSettings の下"):Orc |
[圧縮の種類] | ORC ファイルの書き込みに使用される圧縮コーデック。 | なし zlib snappy |
いいえ | orcCompressionCodec: なし zlib snappy |
ファイルあたりの最大行数 | データをフォルダーに書き込むとき、複数のファイルに書き込み、ファイルあたりの最大行を指定することを選択できます。 ファイルごとに書き込む最大行数を指定します。 | <ファイルあたりの最大行数> | いいえ | maxRowsPerFile |
ファイル名プレフィックス | [ファイルあたりの最大行数] が構成されている場合に適用されます。 データを複数のファイルに書き込むとき、ファイル名のプレフィックスを指定します。結果的に <fileNamePrefix>_00000.<fileExtension> のパターンになります。 指定されていない場合、ファイル名プレフィックスは自動生成されます。 このプロパティは、ソースがファイルベース ストアかパーティション オプション対応データ ストアの場合、適用されません。 |
<実際のファイル名のプレフィックス> | いいえ | fileNamePrefix |