Formato Parquet in Data Factory in Microsoft Fabric

Questo articolo illustra come configurare il formato Parquet nella pipeline di dati di Data Factory in Microsoft Fabric.

Funzionalità supportate

Il formato Parquet è supportato per le attività e i connettori seguenti come origine e destinazione.

Category Connessione or/attività
Connettore supportato Amazon S3
Archiviazione BLOB di Azure
Azure Data Lake Storage Gen1
Azure Data Lake Storage Gen2
Google Cloud Storage
HTTP
Attività supportata attività Copy
Attività Lookup
Attività GetMetadata
Attività Delete

Formato Parquet nell'attività di copia

Per configurare il formato Parquet, scegliere la connessione nell'origine o nella destinazione dell'attività di copia della pipeline di dati e quindi selezionare Parquet nell'elenco a discesa Formato file. Selezionare Impostazioni per ulteriori configurazioni di questo formato.

Screenshot showing file format settings.

Formato Parquet come origine

Dopo aver selezionato Impostazioni nella sezione Formato file, nella finestra di dialogo Impostazioni formato file popup vengono visualizzate le proprietà seguenti.

Screenshot showing parquet file format source.

  • Tipo di compressione: scegliere il codec di compressione usato per leggere i file Parquet nell'elenco a discesa. È possibile scegliere tra Nessuno, gzip (.gz), snappy, lzo, Brotli (.br), Zstandard, lz4, lz4frame, bzip2 (.bz2)o lz4hadoop.

Formato Parquet come destinazione

Dopo aver selezionato Impostazioni, nella finestra di dialogo Impostazioni formato file popup vengono visualizzate le proprietà seguenti.

Screenshot showing parquet file format destination.

  • Tipo di compressione: scegliere il codec di compressione usato per scrivere file Parquet nell'elenco a discesa. È possibile scegliere tra Nessuno, gzip (.gz), snappy, lzo, Brotli (.br), Zstandard, lz4, lz4frame, bzip2 (.bz2)o lz4hadoop.

  • Usare V-Order: abilitare un'ottimizzazione dell'ora di scrittura nel formato di file parquet. Per altre informazioni, vedere Ottimizzazione tabella Delta Lake e V-Order. È abilitato per impostazione predefinita.

In Impostazioni avanzate nella scheda Destinazione vengono visualizzate le proprietà correlate al formato Parquet seguenti.

  • Numero massimo di righe per file: quando si scrivono dati in una cartella, è possibile scegliere di scrivere in più file e specificare le righe massime per ogni file. Specificare le righe massime da scrivere per ogni file.
  • Prefisso del nome file: applicabile quando è configurato il numero massimo di righe per file. Specificare il prefisso del nome file durante la scrittura di dati in più file, con questo modello: <fileNamePrefix>_00000.<fileExtension>. Se non specificato, il prefisso del nome file viene generato automaticamente. Questa proprietà non si applica quando l'origine è un archivio basato su file o un'opzione di partizione abilitata per l'archivio dati.

Riepilogo tabella

Parquet come origine

Le proprietà seguenti sono supportate nella sezione Origine dell'attività di copia quando si usa il formato Parquet.

Nome Descrizione Valore Richiesto Proprietà script JSON
Formato file Formato di file che si desidera utilizzare. Parquet type (in datasetSettings):
Parquet
Tipo di compressione Codec di compressione usato per leggere i file Parquet. Scegliere tra:
Nessuno
gzip (.gz)
Scattanti
lzo
Brotli (.br)
Zstandard
lz4
lz4frame
bzip2 (.bz2)
lz4hadoop
No compressionCodec:

gzip
snappy
lzo
brotli
zstd
lz4
lz4frame
bz2
lz4hadoop

Parquet come destinazione

Le proprietà seguenti sono supportate nella sezione Destinazione attività di copia quando si usa il formato Parquet.

Nome Descrizione Valore Richiesto Proprietà script JSON
Formato file Formato di file che si desidera utilizzare. Parquet type (in datasetSettings):
Parquet
Usare l'ordine V Ottimizzazione dell'ora di scrittura nel formato di file parquet. selezionato o non selezionato No enableVertiParquet
Tipo di compressione Codec di compressione usato per scrivere file Parquet. Scegliere tra:
Nessuno
gzip (.gz)
Scattanti
lzo
Brotli (.br)
Zstandard
lz4
lz4frame
bzip2 (.bz2)
lz4hadoop
No compressionCodec:

gzip
snappy
lzo
brotli
zstd
lz4
lz4frame
bz2
lz4hadoop
Numero massimo di righe per file Quando si scrivono dati in una cartella, è possibile scegliere di scrivere in più file e specificare le righe massime per ogni file. Specificare le righe massime da scrivere per ogni file. <numero massimo di righe per file> No maxRowsPerFile
Prefisso del nome file Applicabile quando è configurato il numero massimo di righe per file . Specificare il prefisso del nome file durante la scrittura di dati in più file, con questo modello: <fileNamePrefix>_00000.<fileExtension>. Se non specificato, il prefisso del nome file viene generato automaticamente. Questa proprietà non si applica quando l'origine è un archivio basato su file o un'opzione di partizione abilitata per l'archivio dati. <prefisso del nome file> No fileNamePrefix