Format Parquet dans Data Factory dans Microsoft Fabric
Cet article explique comment configurer le format Parquet dans le pipeline de données de Data Factory dans Microsoft Fabric.
Fonctionnalités prises en charge
Le format Parquet est pris en charge pour les activités et connecteurs suivants en tant que source et destination.
Category | Connecteur/activité |
---|---|
Connecteur pris en charge | Amazon S3 |
Compatible avec Amazon S3 | |
Stockage Blob Azure | |
Azure Data Lake Storage Gen1 | |
Azure Data Lake Storage Gen2 | |
Azure Files | |
Système de fichiers | |
FTP | |
Google Cloud Storage | |
HTTP | |
Fichiers Lakehouse | |
Oracle Cloud Storage | |
SFTP | |
Activité prise en charge | Activité Copy (source/destination) |
Activité de recherche | |
Activité GetMetadata | |
Supprimer l’activité |
Format parquet en activité de copie
Pour configurer le format Parquet, choisissez votre connexion dans la source ou la destination de l'activité de copie du pipeline de données, puis sélectionnez Parquet dans la liste déroulante Format de fichier. Sélectionnez Paramètres pour poursuivre la configuration de ce format.
Format parquet comme source
Après avoir sélectionné Paramètres dans la section Format de fichier, les propriétés suivantes s'affichent dans la boîte de dialogue contextuelle Paramètres de format de fichier.
- Type de compression: Choisissez le codec de compression utilisé pour lire les fichiers Parquet dans la liste déroulante. Vous pouvez choisir parmi Aucun, gzip (.gz), snappy, lzo, Brotli (.br), Zstandard, lz4, lz4frame, bzip2 (.bz2) ou lz4hadoop.
Format parquet comme destination
Après avoir sélectionné Paramètres, les propriétés suivantes s'affichent dans la boîte de dialogue contextuelle Paramètres de format de fichier.
Type de compression : Choisissez le codec de compression utilisé pour écrire les fichiers Parquet dans la liste déroulante. Vous pouvez choisir parmi Aucun, gzip (.gz), snappy, lzo, Brotli (.br), Zstandard, lz4, lz4frame, bzip2 (.bz2) ou lz4hadoop.
Utiliser la commande en V : Activer une optimisation du temps d'écriture au format de fichier parquet. Pour plus d'informations, consultez Optimisation de la table Delta Lake et V-Order. Il est activé par défaut.
Sous Paramètres avancés dans l'onglet Destination, les propriétés liées au format Parquet suivantes sont affichées.
- Nombre maximum de lignes par fichier : lors de l'écriture de données dans un dossier, vous pouvez choisir d'écrire dans plusieurs fichiers et spécifier le nombre maximum de lignes par fichier. Spécifiez le nombre maximum de lignes que vous souhaitez écrire par fichier.
- Préfixe de nom de fichier : applicable lorsque le nombre maximal de lignes par fichier est configuré. Spécifiez le préfixe du nom de fichier lors de l’écriture de données dans plusieurs fichiers, ce qui a généré ce modèle :
<fileNamePrefix>_00000.<fileExtension>
. S'il n'est pas spécifié, le préfixe du nom de fichier est généré automatiquement. Cette propriété ne s'applique pas lorsque la source est un magasin basé sur des fichiers ou un magasin de données activé par l'option de partition.
Résumé du tableau
Parquet en tant que source
Les propriétés suivantes sont prises en charge dans la section Source de l'activité de copie lors de l'utilisation du format Parquet.
Nom | Description | Valeur | Obligatoire | Propriété de script JSON |
---|---|---|---|---|
Format de fichier | Le format de fichier que vous souhaitez utiliser. | Parquet | Oui | type (sous datasetSettings ) :Parquet |
Type de compression | Le codec de compression utilisé pour lire les fichiers Parquet. | Choisissez parmi : Aucun gzip (.gz) snappy lzo Brotli (.br) Zstandard lz4 lz4frame bzip2 (.bz2) lz4hadoop |
Non | compressionCodec : gzip snappy lzo brotli zstd lz4 lz4frame bz2 lz4hadoop |
Parquet comme destination
Les propriétés suivantes sont prises en charge dans la section Destination de l'activité de copie lors de l'utilisation du format Parquet.
Nom | Description | Valeur | Obligatoire | Propriété de script JSON |
---|---|---|---|---|
Format de fichier | Le format de fichier que vous souhaitez utiliser. | Parquet | Oui | type (sous datasetSettings ) :Parquet |
Utiliser V-Order | Une optimisation du temps d'écriture au format de fichier parquet. | sélectionné ou non sélectionné | Non | enableVertiParquet |
Type de compression | Le codec de compression utilisé pour écrire les fichiers Parquet. | Choisissez parmi : Aucun gzip (.gz) snappy lzo Brotli (.br) Zstandard lz4 lz4frame bzip2 (.bz2) lz4hadoop |
Non | compressionCodec : gzip snappy lzo brotli zstd lz4 lz4frame bz2 lz4hadoop |
Nombre maximum de lignes par fichier | Lorsque vous écrivez des données dans un dossier, vous pouvez choisir d'écrire dans plusieurs fichiers et spécifier le nombre maximum de lignes par fichier. Spécifiez le nombre maximum de lignes que vous souhaitez écrire par fichier. | <votre max de lignes par fichier> | Non | maxRowsPerFile |
Préfixe du nom de fichier | Applicable lorsque le nombre maximal de lignes par fichier est configuré. Spécifiez le préfixe du nom de fichier lors de l’écriture de données dans plusieurs fichiers, ce qui a généré ce modèle : <fileNamePrefix>_00000.<fileExtension> . S'il n'est pas spécifié, le préfixe du nom de fichier est généré automatiquement. Cette propriété ne s'applique pas lorsque la source est un magasin basé sur des fichiers ou un magasin de données activé par l'option de partition. |
<le préfixe de votre nom de fichier> | Non | fileNamePrefix |