Format Parquet dans Data Factory dans Microsoft Fabric

Article
06/25/2024

Cet article explique comment configurer le format Parquet dans le pipeline de données de Data Factory dans Microsoft Fabric.

Fonctionnalités prises en charge

Le format Parquet est pris en charge pour les activités et connecteurs suivants en tant que source et destination.

Category	Connecteur/activité
Connecteur pris en charge	Amazon S3
	Compatible avec Amazon S3
	Stockage Blob Azure
	Azure Data Lake Storage Gen1
	Azure Data Lake Storage Gen2
	Azure Files
	Système de fichiers
	FTP
	Google Cloud Storage
	HTTP
	Fichiers Lakehouse
	Oracle Cloud Storage
	SFTP
Activité prise en charge	Activité Copy (source/destination)
	Activité de recherche
	Activité GetMetadata
	Supprimer l’activité

Format parquet en activité de copie

Pour configurer le format Parquet, choisissez votre connexion dans la source ou la destination de l'activité de copie du pipeline de données, puis sélectionnez Parquet dans la liste déroulante Format de fichier. Sélectionnez Paramètres pour poursuivre la configuration de ce format.

Capture d'écran montrant les paramètres de format de fichier.

Format parquet comme source

Après avoir sélectionné Paramètres dans la section Format de fichier, les propriétés suivantes s'affichent dans la boîte de dialogue contextuelle Paramètres de format de fichier.

Capture d'écran montrant la source du format de fichier parquet.

Type de compression: Choisissez le codec de compression utilisé pour lire les fichiers Parquet dans la liste déroulante. Vous pouvez choisir parmi Aucun, gzip (.gz), snappy, lzo, Brotli (.br), Zstandard, lz4, lz4frame, bzip2 (.bz2) ou lz4hadoop.

Format parquet comme destination

Après avoir sélectionné Paramètres, les propriétés suivantes s'affichent dans la boîte de dialogue contextuelle Paramètres de format de fichier.

Capture d'écran montrant la destination du format de fichier parquet.

Type de compression : Choisissez le codec de compression utilisé pour écrire les fichiers Parquet dans la liste déroulante. Vous pouvez choisir parmi Aucun, gzip (.gz), snappy, lzo, Brotli (.br), Zstandard, lz4, lz4frame, bzip2 (.bz2) ou lz4hadoop.
Utiliser la commande en V : Activer une optimisation du temps d'écriture au format de fichier parquet. Pour plus d'informations, consultez Optimisation de la table Delta Lake et V-Order. Il est activé par défaut.

Sous Paramètres avancés dans l'onglet Destination, les propriétés liées au format Parquet suivantes sont affichées.

Nombre maximum de lignes par fichier : lors de l'écriture de données dans un dossier, vous pouvez choisir d'écrire dans plusieurs fichiers et spécifier le nombre maximum de lignes par fichier. Spécifiez le nombre maximum de lignes que vous souhaitez écrire par fichier.
Préfixe de nom de fichier : applicable lorsque le nombre maximal de lignes par fichier est configuré. Spécifiez le préfixe du nom de fichier lors de l’écriture de données dans plusieurs fichiers, ce qui a généré ce modèle : <fileNamePrefix>_00000.<fileExtension>. S'il n'est pas spécifié, le préfixe du nom de fichier est généré automatiquement. Cette propriété ne s'applique pas lorsque la source est un magasin basé sur des fichiers ou un magasin de données activé par l'option de partition.

Résumé du tableau

Parquet en tant que source

Les propriétés suivantes sont prises en charge dans la section Source de l'activité de copie lors de l'utilisation du format Parquet.

Nom	Description	Valeur	Obligatoire	Propriété de script JSON
Format de fichier	Le format de fichier que vous souhaitez utiliser.	Parquet	Oui	type (sous `datasetSettings`) : Parquet
Type de compression	Le codec de compression utilisé pour lire les fichiers Parquet.	Choisissez parmi : Aucun gzip (.gz) snappy lzo Brotli (.br) Zstandard lz4 lz4frame bzip2 (.bz2) lz4hadoop	Non	compressionCodec : gzip snappy lzo brotli zstd lz4 lz4frame bz2 lz4hadoop

Parquet comme destination

Les propriétés suivantes sont prises en charge dans la section Destination de l'activité de copie lors de l'utilisation du format Parquet.

Nom	Description	Valeur	Obligatoire	Propriété de script JSON
Format de fichier	Le format de fichier que vous souhaitez utiliser.	Parquet	Oui	type (sous `datasetSettings`) : Parquet
Utiliser V-Order	Une optimisation du temps d'écriture au format de fichier parquet.	sélectionné ou non sélectionné	Non	enableVertiParquet
Type de compression	Le codec de compression utilisé pour écrire les fichiers Parquet.	Choisissez parmi : Aucun gzip (.gz) snappy lzo Brotli (.br) Zstandard lz4 lz4frame bzip2 (.bz2) lz4hadoop	Non	compressionCodec : gzip snappy lzo brotli zstd lz4 lz4frame bz2 lz4hadoop
Nombre maximum de lignes par fichier	Lorsque vous écrivez des données dans un dossier, vous pouvez choisir d'écrire dans plusieurs fichiers et spécifier le nombre maximum de lignes par fichier. Spécifiez le nombre maximum de lignes que vous souhaitez écrire par fichier.	<votre max de lignes par fichier>	Non	maxRowsPerFile
Préfixe du nom de fichier	Applicable lorsque le nombre maximal de lignes par fichier est configuré. Spécifiez le préfixe du nom de fichier lors de l’écriture de données dans plusieurs fichiers, ce qui a généré ce modèle : `<fileNamePrefix>_00000.<fileExtension>`. S'il n'est pas spécifié, le préfixe du nom de fichier est généré automatiquement. Cette propriété ne s'applique pas lorsque la source est un magasin basé sur des fichiers ou un magasin de données activé par l'option de partition.	<le préfixe de votre nom de fichier>	Non	fileNamePrefix

Partager via

Format Parquet dans Data Factory dans Microsoft Fabric

Fonctionnalités prises en charge

Format parquet en activité de copie

Format parquet comme source

Format parquet comme destination

Résumé du tableau

Parquet en tant que source

Parquet comme destination

Commentaires

Ressources supplémentaires

Partager via

Format Parquet dans Data Factory dans Microsoft Fabric

Fonctionnalités prises en charge

Format parquet en activité de copie

Format parquet comme source

Format parquet comme destination

Résumé du tableau

Parquet en tant que source

Parquet comme destination

Contenu connexe

Commentaires

Ressources supplémentaires