Megosztás a következőn keresztül:


Parquet formátum a Data Factoryben a Microsoft Fabricben

Ez a cikk bemutatja, hogyan konfigurálhatja a Parquet formátumot a Data Factory adatfolyamában a Microsoft Fabricben.

Támogatott képességek

A parquet formátum a következő tevékenységekhez és összekötőkhöz támogatott forrásként és célként.

Kategória Összekötő/tevékenység
Támogatott összekötő Amazon S3
Amazon S3 kompatibilis
Azure Blob Storage
1. generációs Azure Data Lake Storage
Azure Data Lake Storage Gen2
Azure Files
Fájlrendszer
FTP
Google Cloud Storage
HTTP
Lakehouse Files
Oracle Cloud Storage
SFTP
Támogatott tevékenység Copy tevékenység (forrás/cél)
Keresési tevékenység
GetMetadata-tevékenység
Tevékenység törlése

Parquet formátum másolási tevékenységben

A Parquet formátum konfigurálásához válassza ki a kapcsolatot az adatfolyam-másolási tevékenység forrásában vagy célhelyén, majd válassza a Parquet elemet a Fájlformátum legördülő listájában. A formátum további konfigurálásához válassza a Beállítások lehetőséget .

Képernyőkép a fájlformátum beállításairól.

Parquet formátum forrásként

Miután kiválasztotta a Beállítások lehetőséget a Fájlformátum szakaszban, a következő tulajdonságok jelennek meg az előugró Fájlformátum beállításai párbeszédpanelen.

A parquet fájlformátum forrását bemutató képernyőkép.

  • Tömörítés típusa: Válassza ki a legördülő listában a Parquet-fájlok olvasásához használt tömörítési kodeket. Választhat a Nincs, a gzip (.gz), a snappy, az lzo, a Brotli (.br), a Zstandard, az lz4, az lz4frame, a bzip2 (.bz2) vagy az lz4hadoop közül.

Parquet formátum célként

A Beállítások kiválasztása után a következő tulajdonságok jelennek meg az előugró Fájlformátum beállításai párbeszédpanelen.

A parquet fájlformátum célhelyét bemutató képernyőkép.

  • Tömörítés típusa: Válassza ki a parquet-fájlok írásához használt tömörítési kodeket a legördülő listában. Választhat a Nincs, a gzip (.gz), a snappy, az lzo, a Brotli (.br), a Zstandard, az lz4, az lz4frame, a bzip2 (.bz2) vagy az lz4hadoop közül.

  • V-Order használata: Írási idő optimalizálásának engedélyezése a parquet fájlformátumban. További információ: Delta Lake table optimization and V-Order. Alapértelmezés szerint engedélyezve van.

A Cél lapon a Speciális beállítások területen a következő Parquet formátumhoz kapcsolódó tulajdonságok jelennek meg.

  • Fájlonkénti sorok maximális száma: Ha adatokat ír egy mappába, több fájlba is írhat, és megadhatja a fájlonkénti sorok maximális számát. Adja meg a fájlonként írni kívánt sorok maximális számát.
  • Fájlnév előtagja: Akkor alkalmazható, ha a fájlonkénti sorok maximális száma konfigurálva van. Adja meg a fájlnév előtagot, amikor több fájlba ír adatokat, és a következő mintát eredményezte: <fileNamePrefix>_00000.<fileExtension>. Ha nincs megadva, a fájlnév előtagja automatikusan létrejön. Ez a tulajdonság nem érvényes, ha a forrás fájlalapú tároló vagy partícióbeállítás-kompatibilis adattár.

Táblázat összefoglalása

Parquet mint forrás

A másolási tevékenység forrás szakaszában a következő tulajdonságok támogatottak a Parquet formátum használatakor.

Név Leírás Érték Szükséges JSON-szkripttulajdonság
Fájlformátum A használni kívánt fájlformátum. Parketta Igen típus (alatt datasetSettings):
Parketta
Tömörítés típusa A Parquet-fájlok olvasásához használt tömörítési kodek. Válasszon a következő lehetőségek közül:
Egyik sem
gzip (.gz)
rámenős
lzo
Brotli (.br)
Zstandard
lz4
lz4frame
bzip2 (.bz2)
lz4hadoop
Nem compressionCodec:

gzip
rámenős
lzo
brotli
zstd
lz4
lz4frame
bz2
lz4hadoop

Parquet mint cél

A másolási tevékenység Cél szakaszában a következő tulajdonságok támogatottak a Parquet formátum használatakor.

Név Leírás Érték Szükséges JSON-szkripttulajdonság
Fájlformátum A használni kívánt fájlformátum. Parketta Igen típus (alatt datasetSettings):
Parketta
V-Order használata Írási idő optimalizálása a parquet fájlformátumra. kijelölve vagy kijelölve Nem enableVertiParquet
Tömörítés típusa A Parquet-fájlok írásához használt tömörítési kodek. Válasszon a következő lehetőségek közül:
Egyik sem
gzip (.gz)
rámenős
lzo
Brotli (.br)
Zstandard
lz4
lz4frame
bzip2 (.bz2)
lz4hadoop
Nem compressionCodec:

gzip
rámenős
lzo
brotli
zstd
lz4
lz4frame
bz2
lz4hadoop
Sorok maximális száma fájlonként Ha adatokat ír egy mappába, több fájlba is írhat, és megadhatja a fájlonkénti maximális sorokat. Adja meg a fájlonként írni kívánt sorok maximális számát. <a maximális sorok száma fájlonként> Nem maxRowsPerFile
Fájlnév előtagja Akkor alkalmazható, ha a fájlonkénti sorok maximális száma van konfigurálva. Adja meg a fájlnév előtagot, amikor több fájlba ír adatokat, és a következő mintát eredményezte: <fileNamePrefix>_00000.<fileExtension>. Ha nincs megadva, a fájlnév előtagja automatikusan létrejön. Ez a tulajdonság nem érvényes, ha a forrás fájlalapú tároló vagy partícióbeállítás-kompatibilis adattár. <a fájlnév előtagja> Nem fileNamePrefix