ORC-Format in Data Factory in Microsoft Fabric
In diesem Artikel wird beschrieben, wie Sie das ORC-Format in der Datenpipeline von Data Factory in Microsoft Fabric konfigurieren.
Das ORC-Format wird für die folgenden Aktivitäten und Connectors als Quelle und Ziel unterstützt.
Kategorie | Connector/Aktivität |
---|---|
Unterstützter Connector | Amazon S3 |
Amazon S3 Compatible | |
Azure Blob Storage | |
Azure Data Lake Storage Gen1 | |
Azure Data Lake Storage Gen2 | |
Azure Files | |
Dateisystem | |
FTP | |
Google Cloud Storage | |
HTTP | |
Lakehouse-Dateien | |
Oracle Cloud Storage | |
SFTP | |
Unterstützte Aktivität | Kopieraktivität (Quelle/Ziel) |
Lookup-Aktivität | |
GetMetadata-Aktivität | |
Datenaktivität löschen |
Um das ORC-Format zu konfigurieren, wählen Sie Ihre Verbindung in der Quelle oder im Ziel der Copy-Aktivität der Datenpipeline und anschließend die Option ORC in der Dropdownliste Dateiformat aus. Wählen Sie Einstellungen für die weitere Konfiguration dieses Formats aus.
Nachdem Sie im Abschnitt Dateiformat die Option Einstellungen ausgewählt haben, werden die folgenden Eigenschaften im Popupdialogfeld Dateiformateinstellungen angezeigt.
- Komprimierungstyp: Wählen Sie im Dropdownmenü den Komprimierungscodec aus, der zum Lesen von ORC-Dateien verwendet wird. Sie können aus None, zlib oder snappyauswählen.
Nach Auswahl von Einstellungen werden die folgenden Eigenschaften im Popupdialogfeld Dateiformateinstellungen angezeigt.
- Komprimierungstyp: Wählen Sie im Dropdownmenü den Komprimierungscodec aus, der zum Schreiben von ORC-Dateien verwendet wird. Sie können aus None, zlib oder snappyauswählen.
Auf der Registerkarte Ziel werden in den Einstellungen unter Erweitert die folgenden Eigenschaften zum ORC-Format angezeigt.
- Max. Anzahl Zeilen pro Datei: Wenn Sie Daten in einen Ordner schreiben, können Sie wahlweise in mehrere Dateien schreiben und die maximale Anzahl von Zeilen pro Datei angeben. Geben Sie die maximalen Anzahl von Zeilen an, die Sie pro Datei schreiben möchten.
- Dateinamenpräfix: Wird angewendet, wenn Max. Anzahl Zeilen pro Datei konfiguriert ist. Geben Sie das Dateinamenpräfix beim Schreiben von Daten in mehrere Dateien an, das zu diesem Muster führt:
<fileNamePrefix>_00000.<fileExtension>
. Wenn keine Angabe erfolgt, wird das Dateinamenpräfix automatisch generiert. Diese Eigenschaft wird nicht angewendet, wenn die Quelle ein dateibasierter Speicher oder ein Datenspeicher mit aktivierter Partitionsoption ist.
Die folgenden Eigenschaften werden im Abschnitt Quelle der Copy-Aktivität unterstützt, wenn das ORC-Format verwendet wird.
Name | Beschreibung | Wert | Erforderlich | JSON-Skripteigenschaft |
---|---|---|---|---|
Dateiformat | Das Dateiformat aus, das Sie verwenden möchten. | ORC | Ja | Typ (unter datasetSettings ):Orc |
Komprimierungstyp | Der Komprimierungscodec, der zum Lesen von ORC-Dateien verwendet wird. | None zlib snappy |
Nein | orcCompressionCodec: Keine zlib snappy |
Die folgenden Eigenschaften werden bei Verwendung des ORC-Formats im Abschnitt Ziel der Copy-Aktivität unterstützt.
Name | Beschreibung | Wert | Erforderlich | JSON-Skripteigenschaft |
---|---|---|---|---|
Dateiformat | Das Dateiformat aus, das Sie verwenden möchten. | ORC | Ja | Typ (unter datasetSettings ):Orc |
Komprimierungstyp | Der Komprimierungscodec, der zum Schreiben von ORC-Dateien verwendet wird. | None zlib snappy |
Nein | orcCompressionCodec: Keine zlib snappy |
Max. Anzahl Zeilen pro Datei | Wenn Sie Daten in einen Ordner schreiben, können Sie wahlweise in mehrere Dateien schreiben und die maximale Anzahl von Zeilen pro Datei angeben. Geben Sie die maximalen Anzahl von Zeilen an, die Sie pro Datei schreiben möchten. | <Ihr Wert für die max. Zeilenzahl pro Datei> | Nein | maxRowsPerFile |
Dateinamenpräfix | Wird angewendet, wenn Max. Anzahl Zeilen pro Datei konfiguriert ist. Geben Sie das Dateinamenpräfix beim Schreiben von Daten in mehrere Dateien an, das zu diesem Muster führt: <fileNamePrefix>_00000.<fileExtension> . Wenn keine Angabe erfolgt, wird das Dateinamenpräfix automatisch generiert. Diese Eigenschaft wird nicht angewendet, wenn die Quelle ein dateibasierter Speicher oder ein Datenspeicher mit aktivierter Partitionsoption ist. |
<Ihr Dateinamenpräfix> | Nein | fileNamePrefix |