Partager via


Format Parquet dans Data Factory dans Microsoft Fabric

Cet article explique comment configurer le format Parquet dans le pipeline de données de Data Factory dans Microsoft Fabric.

Fonctionnalités prises en charge

Le format Parquet est pris en charge pour les activités et connecteurs suivants en tant que source et destination.

Category Connecteur/activité
Connecteur pris en charge Amazon S3
Compatible avec Amazon S3
Stockage Blob Azure
Azure Data Lake Storage Gen1
Azure Data Lake Storage Gen2
Azure Files
Système de fichiers
FTP
Google Cloud Storage
HTTP
Fichiers Lakehouse
Oracle Cloud Storage
SFTP
Activité prise en charge Activité Copy (source/destination)
Activité de recherche
Activité GetMetadata
Supprimer l’activité

Format parquet en activité de copie

Pour configurer le format Parquet, choisissez votre connexion dans la source ou la destination de l'activité de copie du pipeline de données, puis sélectionnez Parquet dans la liste déroulante Format de fichier. Sélectionnez Paramètres pour poursuivre la configuration de ce format.

Capture d'écran montrant les paramètres de format de fichier.

Format parquet comme source

Après avoir sélectionné Paramètres dans la section Format de fichier, les propriétés suivantes s'affichent dans la boîte de dialogue contextuelle Paramètres de format de fichier.

Capture d'écran montrant la source du format de fichier parquet.

  • Type de compression: Choisissez le codec de compression utilisé pour lire les fichiers Parquet dans la liste déroulante. Vous pouvez choisir parmi Aucun, gzip (.gz), snappy, lzo, Brotli (.br), Zstandard, lz4, lz4frame, bzip2 (.bz2) ou lz4hadoop.

Format parquet comme destination

Après avoir sélectionné Paramètres, les propriétés suivantes s'affichent dans la boîte de dialogue contextuelle Paramètres de format de fichier.

Capture d'écran montrant la destination du format de fichier parquet.

  • Type de compression : Choisissez le codec de compression utilisé pour écrire les fichiers Parquet dans la liste déroulante. Vous pouvez choisir parmi Aucun, gzip (.gz), snappy, lzo, Brotli (.br), Zstandard, lz4, lz4frame, bzip2 (.bz2) ou lz4hadoop.

  • Utiliser la commande en V : Activer une optimisation du temps d'écriture au format de fichier parquet. Pour plus d'informations, consultez Optimisation de la table Delta Lake et V-Order. Il est activé par défaut.

Sous Paramètres avancés dans l'onglet Destination, les propriétés liées au format Parquet suivantes sont affichées.

  • Nombre maximum de lignes par fichier : lors de l'écriture de données dans un dossier, vous pouvez choisir d'écrire dans plusieurs fichiers et spécifier le nombre maximum de lignes par fichier. Spécifiez le nombre maximum de lignes que vous souhaitez écrire par fichier.
  • Préfixe de nom de fichier : applicable lorsque le nombre maximal de lignes par fichier est configuré. Spécifiez le préfixe du nom de fichier lors de l’écriture de données dans plusieurs fichiers, ce qui a généré ce modèle : <fileNamePrefix>_00000.<fileExtension>. S'il n'est pas spécifié, le préfixe du nom de fichier est généré automatiquement. Cette propriété ne s'applique pas lorsque la source est un magasin basé sur des fichiers ou un magasin de données activé par l'option de partition.

Résumé du tableau

Parquet en tant que source

Les propriétés suivantes sont prises en charge dans la section Source de l'activité de copie lors de l'utilisation du format Parquet.

Nom Description Valeur Obligatoire Propriété de script JSON
Format de fichier Le format de fichier que vous souhaitez utiliser. Parquet Oui type (sous datasetSettings) :
Parquet
Type de compression Le codec de compression utilisé pour lire les fichiers Parquet. Choisissez parmi :
Aucun
gzip (.gz)
snappy
lzo
Brotli (.br)
Zstandard
lz4
lz4frame
bzip2 (.bz2)
lz4hadoop
Non compressionCodec :

gzip
snappy
lzo
brotli
zstd
lz4
lz4frame
bz2
lz4hadoop

Parquet comme destination

Les propriétés suivantes sont prises en charge dans la section Destination de l'activité de copie lors de l'utilisation du format Parquet.

Nom Description Valeur Obligatoire Propriété de script JSON
Format de fichier Le format de fichier que vous souhaitez utiliser. Parquet Oui type (sous datasetSettings) :
Parquet
Utiliser V-Order Une optimisation du temps d'écriture au format de fichier parquet. sélectionné ou non sélectionné Non enableVertiParquet
Type de compression Le codec de compression utilisé pour écrire les fichiers Parquet. Choisissez parmi :
Aucun
gzip (.gz)
snappy
lzo
Brotli (.br)
Zstandard
lz4
lz4frame
bzip2 (.bz2)
lz4hadoop
Non compressionCodec :

gzip
snappy
lzo
brotli
zstd
lz4
lz4frame
bz2
lz4hadoop
Nombre maximum de lignes par fichier Lorsque vous écrivez des données dans un dossier, vous pouvez choisir d'écrire dans plusieurs fichiers et spécifier le nombre maximum de lignes par fichier. Spécifiez le nombre maximum de lignes que vous souhaitez écrire par fichier. <votre max de lignes par fichier> Non maxRowsPerFile
Préfixe du nom de fichier Applicable lorsque le nombre maximal de lignes par fichier est configuré. Spécifiez le préfixe du nom de fichier lors de l’écriture de données dans plusieurs fichiers, ce qui a généré ce modèle : <fileNamePrefix>_00000.<fileExtension>. S'il n'est pas spécifié, le préfixe du nom de fichier est généré automatiquement. Cette propriété ne s'applique pas lorsque la source est un magasin basé sur des fichiers ou un magasin de données activé par l'option de partition. <le préfixe de votre nom de fichier> Non fileNamePrefix