Parquet-format i Data Factory i Microsoft Fabric

Den här artikeln beskriver hur du konfigurerar Parquet-format i datapipelinen för Data Factory i Microsoft Fabric.

Funktioner som stöds

Parquet-format stöds för följande aktiviteter och anslutningsappar som källa och mål.

Kategori Anslut eller/aktivitet
Anslutningsprogram som stöds Amazon S3
Azure Blob Storage
Azure Data Lake Storage Gen1
Azure Data Lake Storage Gen2
Google Cloud Storage
HTTP
Aktivitet som stöds aktiviteten Kopiera
Sökningsaktivitet
GetMetadata-aktivitet
Ta bort aktivitet

Parquet-format i kopieringsaktivitet

Om du vill konfigurera Parquet-format väljer du din anslutning i källan eller målet för kopieringsaktiviteten för datapipelinen och väljer sedan Parquet i listrutan i Filformat. Välj Inställningar för ytterligare konfiguration av det här formatet.

Screenshot showing file format settings.

Parquet-format som källa

När du har valt Inställningar i avsnittet Filformat visas följande egenskaper i dialogrutan Inställningar för filformat i popup-fönstret.

Screenshot showing parquet file format source.

  • Komprimeringstyp: Välj den komprimeringskodc som används för att läsa Parquet-filer i listrutan. Du kan välja mellan None, gzip (.gz), snappy, lzo, Brotli (.br), Zstandard, lz4, lz4frame, bzip2 (.bz2)eller lz4hadoop.

Parquet-format som mål

När du har valt Inställningar visas följande egenskaper i dialogrutan Inställningar för filformat i popup-fönstret.

Screenshot showing parquet file format destination.

  • Komprimeringstyp: Välj den komprimeringskodc som används för att skriva Parquet-filer i listrutan. Du kan välja mellan None, gzip (.gz), snappy, lzo, Brotli (.br), Zstandard, lz4, lz4frame, bzip2 (.bz2)eller lz4hadoop.

  • Använd V-Order: Aktivera en optimering av skrivtiden till parquet-filformatet. Mer information finns i Delta Lake-tabelloptimering och V-order. Den är aktiverad som standard.

Under Avancerade inställningar på fliken Mål visas följande parquet-formatrelaterade egenskaper.

  • Maximalt antal rader per fil: När du skriver data till en mapp kan du välja att skriva till flera filer och ange maximalt antal rader per fil. Ange maximalt antal rader som du vill skriva per fil.
  • Filnamnsprefix: Gäller när Maximalt antal rader per fil har konfigurerats. Ange filnamnsprefixet när du skriver data till flera filer, vilket resulterade i det här mönstret: <fileNamePrefix>_00000.<fileExtension>. Om det inte anges genereras filnamnsprefixet automatiskt. Den här egenskapen gäller inte när källan är ett filbaserat arkiv eller ett partitionsalternativ aktiverat datalager.

Tabellsammanfattning

Parquet som källa

Följande egenskaper stöds i avsnittet Käll för kopieringsaktivitet när du använder Parquet-formatet.

Name Beskrivning Värde Obligatoriskt JSON-skriptegenskap
Filformat Det filformat som du vill använda. Parkett Ja typ (under datasetSettings):
Parquet
Komprimeringstyp Komprimeringskodcen som används för att läsa Parquet-filer. Välj mellan:
None
gzip (.gz)
Snappy
Lzo
Brotli (.br)
Zstandard
lz4
lz4frame
bzip2 (.bz2)
lz4hadoop
Nej compressionCodec:

gzip
Snappy
Lzo
brotli
zstd
lz4
lz4frame
bz2
lz4hadoop

Parquet som mål

Följande egenskaper stöds i avsnittet Mål för kopieringsaktivitet när du använder Parquet-formatet.

Name Beskrivning Värde Obligatoriskt JSON-skriptegenskap
Filformat Det filformat som du vill använda. Parkett Ja typ (under datasetSettings):
Parquet
Använda V-order En optimering av skrivtiden till parquet-filformatet. markerad eller omarkerad Nej enableVertiParquet
Komprimeringstyp Komprimeringskodcen som används för att skriva Parquet-filer. Välj mellan:
None
gzip (.gz)
Snappy
Lzo
Brotli (.br)
Zstandard
lz4
lz4frame
bzip2 (.bz2)
lz4hadoop
Nej compressionCodec:

gzip
Snappy
Lzo
brotli
zstd
lz4
lz4frame
bz2
lz4hadoop
Maximalt antal rader per fil När du skriver data till en mapp kan du välja att skriva till flera filer och ange maximalt antal rader per fil. Ange maximalt antal rader som du vill skriva per fil. <maximalt antal rader per fil> Nej maxRowsPerFile
Filnamnsprefix Gäller när Maximalt antal rader per fil har konfigurerats. Ange filnamnsprefixet när du skriver data till flera filer, vilket resulterade i det här mönstret: <fileNamePrefix>_00000.<fileExtension>. Om det inte anges genereras filnamnsprefixet automatiskt. Den här egenskapen gäller inte när källan är ett filbaserat arkiv eller ett partitionsalternativ aktiverat datalager. <ditt filnamnsprefix> Nej fileNamePrefix