Parketformat i Data Factory i Microsoft Fabric

I denne artikel beskrives det, hvordan du konfigurerer Parquet-format i datapipelinen for Data Factory i Microsoft Fabric.

Understøttede funktioner

Parquetformat understøttes for følgende aktiviteter og forbindelser som kilde og destination.

Kategori Forbind or/aktivitet
Understøttet connector Amazon S3
Azure Blob Storage
Azure Data Lake-lagring Gen1
Azure Data Lake Storage Gen2
Google Cloud Storage
HTTP
Understøttet aktivitet Kopiér aktivitet
Opslagsaktivitet
GetMetadata-aktivitet
Slet aktivitet

Parquetformat i kopiaktivitet

Hvis du vil konfigurere Parquet-format, skal du vælge din forbindelse i kilden eller destinationen for kopieringsaktiviteten for datapipelinen og derefter vælge Parquet på rullelisten i Filformat. Vælg Indstillinger for yderligere konfiguration af dette format.

Screenshot showing file format settings.

Parquetformat som kilde

Når du har valgt Indstillinger i afsnittet Filformat, vises følgende egenskaber i dialogboksen Indstillinger for pop op-filformat.

Screenshot showing parquet file format source.

  • Komprimeringstype: Vælg det komprimeringscodec, der skal bruges til at læse Parquet-filer på rullelisten. Du kan vælge mellem None, gzip (.gz), snappy, lzo, Brotli (.br), Zstandard, lz4, lz4frame, bzip2 (.bz2)eller lz4hadoop.

Parquetformat som destination

Når du har valgt Indstillinger, vises følgende egenskaber i dialogboksen Indstillinger for pop op-filformat.

Screenshot showing parquet file format destination.

  • Komprimeringstype: Vælg det komprimeringscodec, der skal bruges til at skrive parquetfiler på rullelisten. Du kan vælge mellem None, gzip (.gz), snappy, lzo, Brotli (.br), Zstandard, lz4, lz4frame, bzip2 (.bz2)eller lz4hadoop.

  • Brug V-order: Aktivér en optimering af skrivetid til parquetfilformatet. Du kan få flere oplysninger under Tabeloptimering af Delta Lake og V-Order. Den er aktiveret som standard.

Under Avancerede indstillinger under fanen Destination vises følgende egenskaber for parquetformat.

  • Maksimalt antal rækker pr. fil: Når du skriver data til en mappe, kan du vælge at skrive til flere filer og angive det maksimale antal rækker pr. fil. Angiv det maksimale antal rækker, du vil skrive pr. fil.
  • Præfiks for filnavn: Gælder, når der er konfigureret maks. rækker pr. fil . Angiv præfikset for filnavnet, når du skriver data til flere filer, hvilket resulterede i dette mønster: <fileNamePrefix>_00000.<fileExtension>. Hvis det ikke er angivet, oprettes præfikset for filnavnet automatisk. Denne egenskab gælder ikke, når kilden er et filbaseret lager eller et partitionsindstillingsaktiveret datalager.

Tabeloversigt

Parquet som kilde

Følgende egenskaber understøttes i afsnittet kopiaktivitetskilde, når du bruger parquetformatet.

Navn Beskrivelse Værdi Obligatorisk JSON-scriptegenskab
Filformat Det filformat, du vil bruge. Parket Ja type (under datasetSettings):
Parquet
Komprimeringstype Den komprimeringscodec, der bruges til at læse Parquet-filer. Vælg mellem:
Ingen
gzip (.gz)
Bidsk
lzo
Brotli (.br)
Zstandard
lz4
lz4frame
bzip2 (.bz2)
lz4hadoop
Nr. compressionCodec:

Gzip
Bidsk
lzo
brotli
zstd
lz4
lz4frame
bz2
lz4hadoop

Parket som destination

Følgende egenskaber understøttes i afsnittet Destination for kopiaktivitet, når du bruger parquetformatet.

Navn Beskrivelse Værdi Obligatorisk JSON-scriptegenskab
Filformat Det filformat, du vil bruge. Parket Ja type (under datasetSettings):
Parquet
Brug V-rækkefølge En optimering af skrivetid til parquetfilformatet. markeret eller ikke markeret Nr. enableVertiParquet
Komprimeringstype Den komprimeringscodec, der bruges til at skrive Parquet-filer. Vælg mellem:
Ingen
gzip (.gz)
Bidsk
lzo
Brotli (.br)
Zstandard
lz4
lz4frame
bzip2 (.bz2)
lz4hadoop
Nr. compressionCodec:

Gzip
Bidsk
lzo
brotli
zstd
lz4
lz4frame
bz2
lz4hadoop
Maks. antal rækker pr. fil Når du skriver data til en mappe, kan du vælge at skrive til flere filer og angive det maksimale antal rækker pr. fil. Angiv det maksimale antal rækker, du vil skrive pr. fil. <dine maksimale rækker pr. fil> Nr. maxRowsPerFile
Præfiks for filnavn Gælder, når der er konfigureret maks. rækker pr. fil . Angiv præfikset for filnavnet, når du skriver data til flere filer, hvilket resulterede i dette mønster: <fileNamePrefix>_00000.<fileExtension>. Hvis det ikke er angivet, oprettes præfikset for filnavnet automatisk. Denne egenskab gælder ikke, når kilden er et filbaseret lager eller et partitionsindstillingsaktiveret datalager. <præfikset for filnavnet> Nr. fileNamePrefix