Copier des données à partir de Google Cloud Storage à l’aide de Azure Data Factory ou Synapse Analytics

S'APPLIQUE À : Azure Data Factory Azure Synapse Analytics

Conseil

Data Factory dans Microsoft Fabric est la prochaine génération de Azure Data Factory, avec une architecture plus simple, une IA intégrée et de nouvelles fonctionnalités. Si vous débutez avec l'intégration des données, commencez par Fabric Data Factory. Les charges de travail ADF existantes peuvent être mises à niveau vers Fabric pour accéder à de nouvelles fonctionnalités dans la science des données, l’analytique en temps réel et la création de rapports.

Cet article explique comment copier des données à partir de Google Cloud Storage (GCS). Pour en savoir plus, lisez les articles d’introduction pour Azure Data Factory et Synapse Analytics.

Fonctionnalités prises en charge

Ce connecteur Google Cloud Storage est pris en charge pour les fonctionnalités suivantes :

Fonctionnalités prises en charge	IR
Activité de copie (source/-)	(1) (2)
Flux de données de mappage (source/-)	①
Activité de recherche	(1) (2)
Activité GetMetadata	(1) (2)
Supprimer l’activité	(1) (2)

(1) Moteur d'intégration Azure (2) Moteur d'intégration auto-hébergé

Plus spécifiquement, ce connecteur Google Cloud Storage prend en charge la copie de fichiers en l’état, ou l’analyse de fichiers avec les formats de fichier et codecs de compression pris en charge. Il tire parti de l’interopérabilité compatible avec le connecteur S3 de GCS.

Prérequis

La configuration suivante est requise sur votre compte Google Cloud Storage :

Activez l’interopérabilité pour votre compte Google Cloud Storage.
Définissez le projet par défaut contenant les données que vous souhaitez copier à partir du compartiment GCS cible.
Créez un compte de service et définissez les niveaux d’autorisations appropriés à l’aide du Cloud IAM sur GCP.
Générez les clés d’accès pour ce compte de service.

Récupérer la clé d’accès pour Google Cloud Storage

Autorisations requises

Pour copier des données à partir de Google Cloud Storage, assurez-vous que vous disposez des autorisations suivantes pour les opérations d’objet : storage.objects.get et storage.objects.list.

Si vous utilisez l’interface utilisateur pour créer, sachez que des l’autorisation storage.buckets.list est requise pour les opérations telles que le test de connexion au service lié et la navigation à partir de la racine. Si vous ne souhaitez pas accorder cette autorisation, vous pouvez choisir les options « Test connection to file path » (« Tester la connexion au chemin du fichier ») ou « Browse from specified path » («Parcourir à partir du chemin spécifié ») dans interface utilisateur.

Pour obtenir la liste complète des rôles Google Cloud Storage et des autorisations associées, consultez la page Rôles IAM pour Cloud Storage sur le site Google Cloud.

Prise en main

Pour effectuer l’activité de copie avec un pipeline, vous pouvez utiliser l’un des outils ou kits sdk suivants :

Outil Copier des données
portail Azure
Kit de développement logiciel (SDK) .NET
sdk Python
Azure PowerShell
REST API
modèle Azure Resource Manager

Créer un service lié au Stockage cloud Google à l’aide de l’interface utilisateur

Procédez comme suit pour créer un service lié à Google Cloud Storage dans l’interface utilisateur du portail Azure.

Accédez à l’onglet Gérer dans votre espace de travail Azure Data Factory ou Synapse, puis sélectionnez Services liés, puis Sélectionnez Nouveau :
- Azure Data Factory.
- Azure Synapse
Recherchez Google et sélectionnez le connecteur de Stockage cloud Google (S3 API).
Configurez les informations du service, testez la connexion et créez le nouveau service lié.

Détails de configuration du connecteur

Les sections suivantes fournissent des informations détaillées sur les propriétés utilisées pour définir les entités Data Factory spécifiques du connecteur Google Cloud Storage.

Propriétés du service lié

Les propriétés prises en charge pour les services liés Google Cloud Storage sont les suivantes :

Propriété	Description	Obligatoire
type	La propriété type doit être définie sur GoogleCloudStorage.	Oui
accessKeyId	ID de la clé d’accès secrète. Pour trouver la clé d’accès et le secret, consultez Prérequis.	Oui
secretAccessKey	La clé d’accès secrète elle-même. Marquez ce champ comme SecureString pour le stocker en toute sécurité, ou reference un secret stocké dans Azure Key Vault.	Oui
serviceUrl	Spécifiez le point de terminaison GCS personnalisé en tant que `https://storage.googleapis.com`.	Oui
connectVia	Le runtime d’intégration à utiliser pour se connecter à la banque de données. Vous pouvez utiliser le Azure runtime d’intégration ou le runtime d’intégration auto-hébergé (si votre magasin de données se trouve dans un réseau privé). Si cette propriété n'est pas spécifiée, le service utilise le runtime d'intégration par défaut Azure.	Non

Voici un exemple :

{
    "name": "GoogleCloudStorageLinkedService",
    "properties": {
        "type": "GoogleCloudStorage",
        "typeProperties": {
            "accessKeyId": "<access key id>",
            "secretAccessKey": {
                "type": "SecureString",
                "value": "<secret access key>"
            },
            "serviceUrl": "https://storage.googleapis.com"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Propriétés du jeu de données

Azure Data Factory prend en charge les formats de fichiers suivants. Reportez-vous à chaque article pour les paramètres basés sur le format.

Les propriétés suivantes sont prises en charge pour Google Cloud Storage sous les paramètres location dans le jeu de données basé sur un format :

Propriété	Description	Obligatoire
type	La propriété type sous `location` dans le jeu de données doit être définie sur GoogleCloudStorageLocation.	Oui
bucketName	Le nom de compartiment GCS.	Oui
folderPath	Le chemin d’accès au dossier sous le compartiment donné. Si vous souhaitez utiliser un caractère générique pour filtrer le dossier, ignorez ce paramètre et spécifiez-le dans les paramètres de la source de l’activité.	Non
fileName	Nom de fichier sous le compartiment et le chemin d’accès du dossier donnés. Si vous souhaitez utiliser un caractère générique pour filtrer les dossiers, ignorez ce paramètre et spécifiez-le dans les paramètres de la source de l’activité.	Non

Exemple :

{
    "name": "DelimitedTextDataset",
    "properties": {
        "type": "DelimitedText",
        "linkedServiceName": {
            "referenceName": "<Google Cloud Storage linked service name>",
            "type": "LinkedServiceReference"
        },
        "schema": [ < physical schema, optional, auto retrieved during authoring > ],
        "typeProperties": {
            "location": {
                "type": "GoogleCloudStorageLocation",
                "bucketName": "bucketname",
                "folderPath": "folder/subfolder"
            },
            "columnDelimiter": ",",
            "quoteChar": "\"",
            "firstRowAsHeader": true,
            "compressionCodec": "gzip"
        }
    }
}

Propriétés de l'activité de copie

Pour obtenir la liste complète des sections et des propriétés disponibles pour la définition des activités, consultez l’article Pipelines. Cette section fournit la liste des propriétés que la source Google Cloud Storage prend en charge.

Google Cloud Storage en tant que type de source

Azure Data Factory prend en charge les formats de fichiers suivants. Reportez-vous à chaque article pour les paramètres basés sur le format.

Les propriétés prises en charge pour Google Cloud Storage sous les paramètres storeSettings dans la source de copie basée sur un format sont les suivantes :

Propriété	Description	Obligatoire
type	La propriété type sous `storeSettings` doit être définie sur GoogleCloudStorageReadSettings.	Oui
Localisez les fichiers à copier :
OPTION 1 : chemin d’accès statique	Copie à partir du compartiment donné ou du chemin d’accès au dossier/fichier spécifié dans le jeu de données. Si vous souhaitez copier tous les fichiers d’un compartiment ou dossier, spécifiez en plus `wildcardFileName` comme `*`.
OPTION 2 : Préfixe GCS - préfixe	Préfixe pour le nom de la clé GCS sous le compartiment donné configuré dans le jeu de données pour filtrer les fichiers GCS sources. Les clé GCS dont le nom commence par `bucket_in_dataset/this_prefix` sont sélectionnées. Elles utilisent le filtre côté service de GCS, qui offre de meilleures performances qu’un filtre de caractères génériques.	Non
OPTION 3 : caractère générique - wildcardFolderPath	Chemin d’accès du dossier avec des caractères génériques sous le compartiment donné configuré dans le jeu de données pour filtrer les dossiers sources. Les caractères génériques autorisés sont les suivants : `*` (correspond à zéro caractère ou plusieurs) et `?` (correspond à zéro ou un caractère). Utilisez `^` comme caractère d’échappement si le nom de votre dossier contient un caractère générique ou ce caractère d’échappement. Consultez d’autres exemples dans les exemples de filtre de dossier et de fichier.	Non
OPTION 3 : caractère générique - wildcardFileName	Nom de fichier avec caractères génériques sous le compartiment et le chemin d’accès du dossier donnés (ou chemin d’accès du dossier en caractères génériques) pour filtrer les fichiers sources. Les caractères génériques autorisés sont les suivants : `*` (correspond à zéro caractère ou plusieurs) et `?` (correspond à zéro ou un caractère). Utilisez `^` comme caractère d’échappement si le nom de votre fichier contient un caractère générique ou ce caractère d’échappement. Consultez d’autres exemples dans les exemples de filtre de dossier et de fichier.	Oui
OPTION 3 : liste de fichiers - fileListPath	Indique de copier un ensemble de fichiers donné. Pointez vers un fichier texte contenant la liste des fichiers que vous voulez copier, un fichier par ligne indiquant le chemin relatif configuré dans le jeu de données. Lorsque vous utilisez cette option, ne spécifiez pas le nom de fichier dans le jeu de données. Pour plus d’exemples, consultez Exemples de listes de fichiers.	Non
Paramètres supplémentaires :
recursive	Indique si les données sont lues de manière récursive à partir des sous-dossiers ou uniquement du dossier spécifié. Notez que lorsque l’option recursive est définie sur true et que le récepteur est un magasin basé sur un fichier, un dossier ou un sous-dossier vide n’est pas copié ou créé sur le récepteur. Les valeurs autorisées sont true (par défaut) et false. Cette propriété ne s’applique pas lorsque vous configurez `fileListPath`.	Non
deleteFilesAfterCompletion	Indique si les fichiers binaires seront supprimés du magasin source après leur déplacement vers le magasin de destination. La suppression de fichier est par fichier. Par conséquent, lorsque l’activité de copie échoue, vous verrez que certains fichiers ont déjà été copiés dans la destination et supprimés de la source, tandis que d’autres restent dans le magasin source. Cette propriété est valide uniquement dans un scénario de copie de fichiers binaires. La valeur par défaut est false.	Non
modifiedDatetimeStart	Les fichiers sont filtrés en fonction de l’attribut de dernière modification. Les fichiers sont sélectionnés si l’heure de leur dernière modification est postérieure ou égale à `modifiedDatetimeStart` et antérieure à `modifiedDatetimeEnd`. L’heure est appliquée au fuseau horaire UTC au format « 2018-12-01T05:00:00Z ». Les propriétés peuvent avoir la valeur NULL, ce qui a pour effet qu’aucun filtre d’attribut de fichier n’est appliqué au jeu de données. Quand `modifiedDatetimeStart` a une valeur de DateHeure, mais que la valeur de `modifiedDatetimeEnd` est NULL, les fichiers dont l’attribut de dernière modification a une valeur supérieure ou égale à la valeur de DateHeure sont sélectionnés. Quand `modifiedDatetimeEnd` a une valeur de DateHeure, mais que la valeur de `modifiedDatetimeStart` est NULL, les fichiers dont l’attribut de dernière modification a une valeur inférieure à la valeur de DateHeure sont sélectionnés. Cette propriété ne s’applique pas lorsque vous configurez `fileListPath`.	Non
modifiedDatetimeEnd	Identique à ce qui précède.	Non
enablePartitionDiscovery	Pour les fichiers partitionnés, spécifiez s’il faut analyser les partitions à partir du chemin d’accès du fichier et les ajouter en tant que colonnes sources supplémentaires. Les valeurs autorisées sont false (par défaut) et true.	Non
partitionRootPath	Lorsque la découverte de partition est activée, spécifiez le chemin racine absolu pour pouvoir lire les dossiers partitionnés en tant que colonnes de données. S’il n’est pas spécifié, par défaut, – Quand vous utilisez le chemin du fichier dans le jeu de données ou la liste des fichiers sur la source, le chemin racine de la partition est le chemin configuré dans le jeu de données. – Quand vous utilisez le filtre de dossiers de caractères génériques, le chemin racine de la partition est le sous-chemin avant le premier caractère générique. Par exemple, en supposant que vous configurez le chemin dans le jeu de données en tant que « root/folder/year=2020/month=08/day=27 » : – Si vous spécifiez le chemin racine de la partition en tant que « root/folder/year=2020 », l’activité de copie génère deux colonnes supplémentaires, `month` et `day`, ayant respectivement la valeur « 08 » et « 27 », en plus des colonnes contenues dans les fichiers. – Si le chemin racine de la partition n’est pas spécifié, aucune colonne supplémentaire n’est générée.	Non
maxConcurrentConnections	La limite supérieure de connexions simultanées établies au magasin de données pendant l’exécution de l’activité. Spécifiez une valeur uniquement lorsque vous souhaitez limiter les connexions simultanées.	Non

Exemple :

"activities":[
    {
        "name": "CopyFromGoogleCloudStorage",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Delimited text input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "DelimitedTextSource",
                "formatSettings":{
                    "type": "DelimitedTextReadSettings",
                    "skipLineCount": 10
                },
                "storeSettings":{
                    "type": "GoogleCloudStorageReadSettings",
                    "recursive": true,
                    "wildcardFolderPath": "myfolder*A",
                    "wildcardFileName": "*.csv"
                }
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Exemples de filtres de dossier et de fichier

Cette section décrit le comportement résultant de l’utilisation de filtres de caractères génériques dans les noms de fichier et les chemins de dossier.

Compartiment	key	recursive	Structure du dossier source et résultat du filtrage (les fichiers en gras sont récupérés)
Compartiment	`Folder/`	false	Compartiment DossierA File1.csv File2.json Subfolder1 Fichier3.csv Fichier4.json Fichier5.csv AutreDossierB Fichier6.csv
Compartiment	`Folder/`	true	Compartiment DossierA File1.csv File2.json Subfolder1 File3.csv File4.json File5.csv AutreDossierB Fichier6.csv
Compartiment	`Folder/.csv`	false	Compartiment DossierA File1.csv Fichier2.json Subfolder1 Fichier3.csv Fichier4.json Fichier5.csv AutreDossierB Fichier6.csv
Compartiment	`Folder/.csv`	true	Compartiment DossierA File1.csv Fichier2.json Subfolder1 File3.csv Fichier4.json File5.csv AutreDossierB Fichier6.csv

Exemples de liste de fichiers

Cette section décrit le comportement résultant de l’utilisation d’un chemin de liste de fichiers dans la source Copy activity.

Supposons que vous disposez de la structure de dossiers sources suivante et que vous souhaitez copier les fichiers en gras :

Exemple de structure source	Contenu de FileListToCopy.txt	Configuration
Compartiment DossierA File1.csv Fichier2.json Subfolder1 File3.csv Fichier4.json File5.csv Métadonnées FileListToCopy.txt	File1.csv Subfolder1/File3.csv Subfolder1/File5.csv	Dans le jeu de données : - compartiment : `bucket` - chemin d’accès du dossier : `FolderA` Dans la source de l’activité de copie : - chemin d’accès à la liste de fichiers : `bucket/Metadata/FileListToCopy.txt` Le chemin d’accès de la liste de fichiers pointe vers un fichier texte dans le même magasin de données, qui contient la liste de fichiers que vous voulez copier, un fichier par ligne indiquant le chemin d’accès relatif configuré dans le jeu de données.

Propriétés du mappage de flux de données

Lorsque vous transformez des données en flux de données de mappage, vous pouvez lire des fichiers à partir de Google Cloud Storage (stockage cloud) dans les formats suivants :

Les paramètres spécifiques au format se trouvent dans la documentation de ce format. Pour plus d’informations, consultez Transformation de la source dans un flux de données de mappage.

Transformation de la source

Dans la transformation de la source, vous pouvez lire à partir d’un conteneur, d’un dossier ou d’un fichier individuel dans Google Cloud Storage. Utilisez l’onglet Options de la source pour gérer la façon dont les fichiers sont lus.

Capture d’écran des options de la source.

Chemin d’accès à caractères génériques : L’utilisation d’un modèle à caractères génériques donne pour instruction au service de parcourir en boucle chaque dossier et fichier correspondant dans une même transformation de la source. Il s’agit d’un moyen efficace de traiter plusieurs fichiers dans un seul et même flux. Ajoutez plusieurs modèles de correspondance à caractères génériques avec le signe plus qui apparaît quand vous pointez sur votre modèle à caractères génériques existant.

Dans le conteneur source, choisissez une série de fichiers qui correspondent à un modèle. Seul un conteneur peut être spécifié dans le jeu de données. Votre chemin contenant des caractères génériques doit donc également inclure le chemin de votre dossier à partir du dossier racine.

Exemples de caractères génériques :

* Représente un jeu de caractères quelconque.
** Représente une imbrication de répertoires récursifs.
? Remplace un caractère.
[] Cherche une correspondance avec le ou les caractères entre crochets.
/data/sales/**/*.csv Obtient tous les fichiers .csv se trouvant sous /data/sales.
/data/sales/20??/**/ Obtient tous les fichiers datés du XXe siècle.
/data/sales/*/*/*.csv Obtient les fichiers .csv à deux niveaux sous /data/sales.
/data/sales/2004/*/12/[XY]1?.csv Obtient tous les fichiers .csv datés de décembre 2004, commençant par X ou Y et ayant comme préfixe un nombre à deux chiffres.

Chemin racine de la partition : si vous avez partitionné des dossiers dans votre source de fichier avec un format key=value (par exemple, year=2019), vous pouvez attribuer le niveau supérieur de cette arborescence de dossiers de partitions à un nom de colonne dans votre flux de données.

Tout d’abord, définissez un caractère générique pour inclure tous les chemins d’accès des dossiers partitionnés, ainsi que des fichiers de nœud terminal que vous souhaitez lire.

Capture d’écran des paramètres du fichier source de la partition.

Utilisez le paramètre Chemin racine de la partition pour définir le niveau supérieur de la structure de dossiers. Quand vous affichez le contenu de vos données à l’aide d’un aperçu des données, vous voyez que le service ajoute les partitions résolues trouvées dans chacun de vos niveaux de dossiers.

Capture d’écran du chemin d’accès racine de la partition.

Liste des fichiers : Il s'agit d'un ensemble de fichiers. Créez un fichier texte qui inclut une liste de fichiers avec chemin relatif à traiter. Pointez sur ce fichier texte.

Colonne pour stocker le nom du fichier : Stockez le nom du fichier source dans une colonne de vos données. Entrez un nouveau nom de colonne pour stocker la chaîne de nom de fichier.

Après l'achèvement : Choisissez de ne rien faire avec le fichier source après l'exécution du flux de données, supprimez le fichier source ou déplacez le fichier source. Pour le déplacement, les chemins sont des chemins relatifs.

Pour déplacer les fichiers sources vers un autre emplacement de post-traitement, sélectionnez tout d’abord « Déplacer » comme opération de fichier. Définissez ensuite le répertoire de provenance (« from »). Si vous n’utilisez pas de caractères génériques pour votre chemin, le paramètre « from » sera le même dossier que votre dossier source.

Si vous avez un chemin d’accès source contenant un caractère générique, votre syntaxe se présente comme suit :

/data/sales/20??/**/*.csv

Vous pouvez spécifier « from » comme suit :

/data/sales

Et vous pouvez spécifier « to » comme suit :

/backup/priorSales

Dans le cas présent, tous les fichiers qui provenaient de /data/sales sont déplacés dans /backup/priorSales.

Remarque

Les opérations de fichier s’exécutent uniquement quand vous démarrez le flux de données à partir d’une exécution de pipeline (débogage ou exécution) qui utilise l’activité Exécuter le flux de données dans un pipeline. Les opérations de fichier ne s'exécutent pas en mode débogage Data Flow.

Filtrer par dernière modification : Vous pouvez filtrer les fichiers que vous traitez en spécifiant une plage de dates à laquelle ils ont été modifiés pour la dernière fois. Toutes les valeurs de DateHeure sont exprimées en temps universel coordonné (UTC).

Propriétés de l’activité Lookup

Pour en savoir plus sur les propriétés, consultez Activité Lookup.

Propriétés de l’activité GetMetadata

Pour en savoir plus sur les propriétés, consultez Activité GetMetadata.

Propriétés de l’activité Delete

Pour en savoir plus sur les propriétés, consultez Activité Delete.

Modèles hérités

Si vous utilisiez un connecteur Amazon S3 pour copier des données à partir de Google Cloud Storage, il est toujours pris en charge tel quel pour la compatibilité descendante. Nous vous suggérons d’utiliser le nouveau modèle mentionné précédemment. L’interface utilisateur de création a basculé vers la génération du nouveau modèle.

Pour obtenir la liste des magasins de données pris en charge par le Copy activity en tant que sources et récepteurs, consultez Magasins de données pris en charge.

Commentaires

Cette page a-t-elle été utile ?

Last updated on 2026-04-07