Format Avro dans Azure Data Factory et Azure Synapse Analytics

Article
01/05/2024

S’APPLIQUE À : Azure Data Factory Azure Synapse Analytics

Conseil

Essayez Data Factory dans Microsoft Fabric, une solution d’analyse tout-en-un pour les entreprises. Microsoft Fabric couvre tous les aspects, du déplacement des données à la science des données, en passant par l’analyse en temps réel, l’aide à la décision et la création de rapports. Découvrez comment démarrer un nouvel essai gratuitement !

Suivez cet article si vous souhaitez analyser des fichiers Avro ou écrire des données au format Avro.

Le format Avro est pris en charge pour les connecteurs suivants : Amazon S3, Amazon S3 Compatible Storage, Azure Blob, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure Files, File System, FTP, Google Cloud Storage, HDFS, HTTP, Oracle Cloud Storage et SFTP.

Propriétés du jeu de données

Pour obtenir la liste complète des sections et propriétés disponibles pour la définition de jeux de données, consultez l’article Jeux de données. Cette section fournit la liste des propriétés prises en charge par le jeu de données Avro.

Propriété	Description	Obligatoire
type	La propriété type du jeu de données doit être définie sur Avro.	Oui
location	Paramètres d’emplacement du ou des fichiers. Chaque connecteur basé sur un fichier possède ses propres type d’emplacement et propriétés prises en charge sous `location`. Consultez les détails dans l’article du connecteur -> section des propriétés du jeu de données.	Oui
avroCompressionCodec	Codec de compression à utiliser lors de l’écriture dans des fichiers Avro. Lors de la lecture de fichiers Avro, le service détermine automatiquement le codec de compression sur la base des métadonnées de fichier. Les types pris en charge sont « None » (par défaut), « deflate » et « snappy». Notez que l’activité de copie ne prend pas en charge Snappy lors de la lecture ou de l’écriture des fichiers Avro.	Non

Notes

Les espaces blancs dans le nom de colonne ne sont pas pris en charge pour les fichiers Avro.

Voici un exemple de jeu de données Avro sur Stockage Blob Azure :

{
    "name": "AvroDataset",
    "properties": {
        "type": "Avro",
        "linkedServiceName": {
            "referenceName": "<Azure Blob Storage linked service name>",
            "type": "LinkedServiceReference"
        },
        "schema": [ < physical schema, optional, retrievable during authoring > ],
        "typeProperties": {
            "location": {
                "type": "AzureBlobStorageLocation",
                "container": "containername",
                "folderPath": "folder/subfolder",
            },
            "avroCompressionCodec": "snappy"
        }
    }
}

Propriétés de l’activité de copie

Pour obtenir la liste complète des sections et des propriétés disponibles pour la définition des activités, consultez l’article Pipelines. Cette section fournit la liste des propriétés prises en charge par la source et le récepteur Avro.

Avro en tant que source

Les propriétés prises en charge dans la section *source* de l’activité de copie sont les suivantes.

Propriété	Description	Obligatoire
type	La propriété de type de la source d’activité de copie doit être définie sur AvroSource.	Oui
storeSettings	Un groupe de propriétés sur la façon de lire les données d’un magasin de données. Chaque connecteur basé sur un fichier possède ses propres paramètres de lecture pris en charge sous `storeSettings`. Consultez les détails dans l’article du connecteur -> section des propriétés de l’activité de copie.	Non

Avro en tant que récepteur

Les propriétés prises en charge dans la section *récepteur* de l’activité de copie sont les suivantes.

Propriété	Description	Obligatoire
type	La propriété type de la source d’activité de copie doit être définie sur AvroSink.	Oui
formatSettings	Un groupe de propriétés. Reportez-vous au tableau Paramètres d’écriture Avro ci-dessous.	Non
storeSettings	Groupe de propriétés sur la méthode d’écriture de données dans un magasin de données. Chaque connecteur basé sur un fichier possède ses propres paramètres d’écriture pris en charge sous `storeSettings`. Consultez les détails dans l’article du connecteur -> section des propriétés de l’activité de copie.	Non

Paramètres d’écriture Avro pris en charge sous formatSettings :

Propriété	Description	Obligatoire
type	Le type de formatSettings doit être défini sur AvroWriteSettings.	Oui
maxRowsPerFile	Lorsque vous écrivez des données dans un dossier, vous pouvez choisir d’écrire dans plusieurs fichiers et de spécifier le nombre maximal de lignes par fichier.	Non
fileNamePrefix	Applicable lorsque `maxRowsPerFile` est configuré. Spécifiez le préfixe du nom de fichier lors de l’écriture de données dans plusieurs fichiers, ce qui a généré ce modèle : `<fileNamePrefix>_00000.<fileExtension>`. S’il n’est pas spécifié, le préfixe du nom de fichier est généré automatiquement. Cette propriété ne s’applique pas lorsque la source est un magasin basé sur des fichiers ou un magasin de données partition-option-enabled.	Non

Propriétés du mappage de flux de données

Dans les flux de données de mappage, vous pouvez lire et écrire des données au format avro dans les magasins de données suivants : Stockage Blob Azure, Azure Data Lake Storage Gen1 et Azure Data Lake Storage Gen2 et SFTP. Et vous pouvez lire le format avro dans Amazon S3.

Propriétés de source

Le tableau ci-dessous répertorie les propriétés prises en charge par une source avro. Vous pouvez modifier ces propriétés sous l’onglet Options de la source.

Nom	Description	Obligatoire	Valeurs autorisées	Propriété du script de flux de données
Chemins génériques	Tous les fichiers correspondant au chemin générique seront traités. Remplace le chemin du dossier et du fichier défini dans le jeu de données.	non	String[]	wildcardPaths
Chemin racine de la partition	Pour les données de fichier qui sont partitionnées, vous pouvez entrer le chemin racine d’une partition pour pouvoir lire les dossiers partitionnés comme des colonnes.	non	String	partitionRootPath
Liste de fichiers	Si votre source pointe ou non vers un fichier texte qui liste les fichiers à traiter	non	`true` ou `false`	fileList
Colonne où stocker le nom du fichier	Crée une colonne avec le nom et le chemin du fichier source	non	String	rowUrlColumn
Après l’exécution	Supprime ou déplace les fichiers après le traitement. Le chemin du fichier commence à la racine du conteneur	non	Supprimer : `true` ou `false` Déplacer : `['<from>', '<to>']`	purgeFiles moveFiles
Filtrer par date de dernière modification	Pour filtrer les fichiers en fonction de leur date de dernière modification	non	Timestamp	modifiedAfter modifiedBefore
N’autoriser aucun fichier trouvé	Si la valeur est true, aucune erreur n’est levée si aucun fichier n’est trouvé	non	`true` ou `false`	ignoreNoFilesFound

Propriétés du récepteur

Le tableau ci-dessous répertorie les propriétés prises en charge par un récepteur avro. Vous pouvez modifier ces propriétés sous l’onglet Paramètres.

Nom	Description	Obligatoire	Valeurs autorisées	Propriété du script de flux de données
Effacer le contenu du dossier	Si le dossier de destination est vidé avant l’écriture	non	`true` ou `false`	truncate
Option de nom de fichier	Format de nommage des données écrites. Par défaut, un fichier par partition au format `part-#####-tid-<guid>`	non	Modèle : Chaîne Par partition : Chaîne[] Comme des données d’une colonne : Chaîne Sortie dans un fichier unique : `['<fileName>']`	filePattern partitionFileNames rowUrlColumn partitionFileNames
Tout mettre entre guillemets	Placer toutes les valeurs entre guillemets	non	`true` ou `false`	quoteAll

Prise en charge des types de données

Activité de copie

Les types de données complexes Avro ne sont pas pris en charge (enregistrements, enums, tables, cartes, unions et fixes) par l’activité de copie.

Flux de données

Lorsque vous utilisez des fichiers Avro dans des flux de données, vous pouvez lire et écrire des types de données complexes, mais vous devez d’abord effacer le schéma physique du jeu de données. Dans les flux de données, vous pouvez définir votre projection logique et dériver les colonnes qui ont des structures complexes, puis mapper automatiquement ces champs à un fichier Avro.

Partage via

Format Avro dans Azure Data Factory et Azure Synapse Analytics

Propriétés du jeu de données

Propriétés de l’activité de copie

Avro en tant que source

Avro en tant que récepteur

Propriétés du mappage de flux de données

Propriétés de source

Propriétés du récepteur

Prise en charge des types de données

Activité de copie

Flux de données

Commentaires

Ressources supplémentaires

Partage via

Format Avro dans Azure Data Factory et Azure Synapse Analytics

Propriétés du jeu de données

Propriétés de l’activité de copie

Avro en tant que source

Avro en tant que récepteur

Propriétés du mappage de flux de données

Propriétés de source

Propriétés du récepteur

Prise en charge des types de données

Activité de copie

Flux de données

Contenu connexe

Commentaires

Ressources supplémentaires