Configurer Data Warehouse dans une activité de copie

Cet article explique comment utiliser l’activité de copie dans le pipeline de données pour copier des données depuis et vers un connecteur Data Warehouse.

Configuration prise en charge

Pour la configuration de chaque onglet sous l’activité de copie, accédez respectivement aux sections suivantes.

Général

Pour la configuration de l’onglet Général, accédez à Général.

Source

Les propriétés suivantes sont prises en charge pour Data Warehouse en tant que source dans une activité de copie.

Capture d’écran montrant l’onglet Source et la liste des propriétés.

Les propriétés suivantes sont requises :

  • Type de magasin de données : sélectionnez Espace de travail.

  • Type de magasin de données de l’espace de travail : sélectionnez Data Warehouse dans la liste Type de magasin de données.

  • Data Warehouse : sélectionnez un connecteur Data Warehouse existant dans l’espace de travail.

  • Utiliser la requête : sélectionnez Table, Requête ou Procédure stockée.

    • Si vous sélectionnez Table, choisissez une table existante dans la liste de tables ou spécifiez manuellement un nom de table en sélectionnant la zone Modifier.

      Capture d’écran montrant l’utilisation de la requête d’une table.

    • Si vous sélectionnez Requête, utilisez l’éditeur de requête SQL personnalisée pour écrire une requête SQL qui récupère les données sources.

      Capture d’écran montrant l’utilisation de la requête d’une requête.

    • Si vous sélectionnez Procédure stockée, choisissez une procédure stockée existante dans la liste déroulante ou spécifiez un nom de procédure stockée en tant que source en sélectionnant la zone Modifier.

      Capture d’écran montrant l’utilisation d’une requête d’une procédure stockée.

Sous Avancé, vous pouvez spécifier les champs suivants :

  • Délai d’expiration de la requête (minutes) : délai d’expiration pour l’exécution de la commande de requête, avec une valeur par défaut de 120 minutes. Si cette propriété est définie, les valeurs autorisées sont au format d’un intervalle de temps, par exemple « 02:00:00 » (120 minutes).

  • Niveau d’isolation : spécifiez le comportement de verrouillage des transactions pour la source SQL.

  • Option de partition : spécifiez les options de partitionnement des données utilisées pour charger des données à partir de Data Warehouse. Vous pouvez sélectionner Aucun ou Plage dynamique.

    Si vous sélectionnez Plage dynamique, le paramètre de partition par spécification de plages de valeurs (?AdfDynamicRangePartitionCondition) est nécessaire lors de l’utilisation d’une requête avec le parallèle activé. Exemple de requête : SELECT * FROM <TableName> WHERE ?AdfDynamicRangePartitionCondition.

    Capture d’écran montrant une plage dynamique.

    • Nom de la colonne de partition : indiquez le nom de la colonne source au format entier ou date/heure (int, smallint, bigint, date, smalldatetime, datetime, datetime2 ou datetimeoffset) qui est utilisée par le partitionnement par plages de valeurs pour la copie parallèle. S’il n’est pas spécifié, l’index ou la clé primaire de la table est détecté automatiquement et utilisé comme colonne de partition.
    • Limite supérieure de la partition : valeur maximale de la colonne de partition pour le fractionnement de la plage de partition. Cette valeur est utilisée pour décider du stride de la partition, et non pour filtrer les lignes de la table. Toutes les lignes de la table ou du résultat de la requête sont partitionnées et copiées.
    • Limite inférieure de la partition : valeur minimale de la colonne de partition pour le fractionnement de la plage de partition. Cette valeur est utilisée pour décider du stride de la partition, et non pour filtrer les lignes de la table. Toutes les lignes de la table ou du résultat de la requête sont partitionnées et copiées.
  • Colonnes supplémentaires : ajoutez des colonnes de données supplémentaires au chemin d’accès relatif ou à la valeur statique des fichiers sources du magasin. L’expression est prise en charge pour ce dernier.

    Capture d'écran des colonnes supplémentaires.

Destination

Les propriétés suivantes sont prises en charge pour Data Warehouse en tant que destination dans une activité de copie.

Capture d’écran montrant l’onglet Destination et la liste des propriétés.

Les propriétés suivantes sont requises :

  • Type de magasin de données : sélectionnez Espace de travail.
  • Type de magasin de données de l’espace de travail : sélectionnez Data Warehouse dans la liste Type de magasin de données.
  • Data Warehouse : sélectionnez un connecteur Data Warehouse existant dans l’espace de travail.
  • Table : choisissez une table existante dans la liste de tables ou spécifiez un nom de table comme destination.

Sous Avancé, vous pouvez spécifier les champs suivants :

  • Paramètres de la commande de copie : spécifiez les propriétés de la commande de copie.

    Capture d’écran montrant les valeurs par défaut des paramètres de la commande de copie.

  • Options de table : indiquez s’il faut créer automatiquement la table de destination s’il n’en existe aucune en fonction du schéma source. Vous pouvez sélectionner Aucun ou Créer automatiquement une table.

  • Script de pré-copie : spécifiez une requête SQL à exécuter avant l’écriture de données dans Data Warehouse à chaque exécution. Utilisez cette propriété pour nettoyer les données préchargées.

  • Délai d’expiration du lot d’écriture : temps d’attente pour que l’opération d’insertion par lot soit terminée avant d’expirer. Les valeurs autorisées sont au format d’un intervalle de temps. La valeur par défaut est « 00:30:00 » (30 minutes).

  • Désactiver l’analytique des métriques de performances : le service collecte des métriques pour fournir des recommandations et optimiser les performances de copie. Si ce comportement vous intéresse, désactivez cette fonctionnalité.

Copie directe à l’aide de la commande COPY

La commande COPY de Data Warehouse prend directement en charge Stockage Blob Azure et Azure Data Lake Storage Gen2 en tant que magasins de données sources. Si vos données sources répondent aux critères décrits dans cette section, utilisez la commande COPY pour copier directement à partir du magasin de données source vers Data Warehouse.

  1. Les données sources et le format contiennent les types et méthodes d’authentification suivants :

    Type de magasin de données sources pris en charge Format pris en charge Type d’authentification source pris en charge
    Stockage Blob Azure Texte délimité
    Parquet
    Authentification anonyme
    Authentification par clé de compte
    Authentification avec une signature d’accès partagé
    Azure Data Lake Storage Gen2 Texte délimité
    Parquet
    Authentification par clé de compte
    Authentification avec une signature d’accès partagé
  2. Les paramètres de format suivants peuvent être définis :

    1. Pour Parquet : le type de compression peut être Aucun, snappy ou gzip.
    2. Pour DelimitedText :
      1. Séparateur de lignes : lors de la copie de texte délimité dans Data Warehouse via la commande COPY directe, spécifiez explicitement le séparateur de lignes (\r, \n ou \r\n). La valeur par défaut (\r, \n ou \r\n) ne fonctionne que si le séparateur de lignes du fichier source est \r\n. Sinon, activez la mise en lots pour votre scénario.
      2. La valeur null conserve sa valeur par défaut ou est définie sur chaîne vide ("").
      3. L’encodage conserve sa valeur par défaut ou est défini sur UTF-8 ou UTF-16.
      4. Le nombre de lignes à ignorer conserve sa valeur par défaut ou est défini sur 0.
      5. Le type de compression peut être Aucun ou gzip.
  3. Si votre source est un dossier, vous devez activer la case à cocher Récursivement.

  4. L’heure de début (UTC) et l’heure de fin (UTC) dans Filtrer par date de dernière modification, Préfixe, Activer la découverte de partition et Colonnes supplémentaires ne sont pas spécifiées.

Pour savoir comment ingérer des données dans Data Warehouse à l’aide de la commande COPY, consultez cet article.

Si votre magasin de données source et son format ne sont pas pris en charge à l’origine par la commande COPY, utilisez plutôt la fonctionnalité Copie intermédiaire à l’aide de la commande COPY. Elle convertit automatiquement les données dans un format compatible avec la commande COPY, puis appelle une commande COPY pour charger les données dans Data Warehouse.

Mappage

Pour la configuration de la Tabulation Mappage, si vous n'appliquez pas Data Warehouse avec une table de création automatique comme destination, allez sur Mappage.

Si vous appliquez Data Warehouse avec une table de création automatique comme destination, à l'exception de la configuration dans Mappage, vous pouvez modifier le type de vos colonnes de destination. Après avoir sélectionné Importer des schémas, vous pouvez spécifier le type de colonne dans votre destination.

Par exemple, le type de la colonne ID dans la source est int. Vous pouvez le changer par le type float lors du mappage vers la colonne de destination.

Capture d’écran du type de colonne de destination de mappage.

Paramètres

Pour la configuration de l’onglet Paramètres, accédez à Paramètres.

Résumé de la table

Les tableaux suivants contiennent plus d’informations sur une activité de copie dans Data Warehouse.

Informations sur la source

Nom Description Valeur Obligatoire Propriété de script JSON
Type de banque de données Votre type de magasin de données. Espace de travail Oui /
Type de magasin de données de l’espace de travail Section permettant de sélectionner le type de magasin de données de votre espace de travail. Data Warehouse Oui type
Data Warehouse Entrepôt de données à utiliser. <votre entrepôt de données> Oui endpoint
artifactId
Utiliser la requête Mode de lecture des données à partir de Data Warehouse. • Tables
• Requête
• Procédure stockée
Non (sous typeProperties ->source)
• typeProperties :
 schéma
 table
• sqlReaderQuery
• sqlReaderStoredProcedureName
Délai d’expiration de la requête (minutes) Délai d’expiration pour l’exécution de la commande de requête, avec une valeur par défaut de 120 minutes. Si cette propriété est définie, les valeurs autorisées sont au format d’un intervalle de temps, par exemple « 02:00:00 » (120 minutes). intervalle de temps Non queryTimeout
Niveau d’isolation Comportement de verrouillage des transactions pour la source SQL. • Aucun
• Instantané
Non isolationLevel
Option de partition Options de partitionnement des données utilisées pour charger des données à partir de Data Warehouse. • Aucun
• Plage dynamique
Non partitionOption
Nom de la colonne de partition Nom de la colonne source au format entier ou date/DateHeure (int, smallint, bigint, date, smalldatetime, datetime, datetime2 ou datetimeoffset) utilisée par le partitionnement par plages de valeurs pour la copie en parallèle. S’il n’est pas spécifié, l’index ou la clé primaire de la table est détecté automatiquement et utilisé comme colonne de partition. <nom de la colonne de partition> Non partitionColumnName
Limite supérieure de partition Valeur maximale de la colonne de partition pour le fractionnement de la plage de partition. Cette valeur est utilisée pour décider du stride de la partition, et non pour filtrer les lignes de la table. Toutes les lignes de la table ou du résultat de la requête sont partitionnées et copiées. <limite supérieure de partition> Non partitionUpperBound
Limite inférieure de partition Valeur minimale de la colonne de partition pour le fractionnement de la plage de partition. Cette valeur est utilisée pour décider du stride de la partition, et non pour filtrer les lignes de la table. Toutes les lignes de la table ou du résultat de la requête sont partitionnées et copiées. <limite inférieure de partition> Non partitionLowerBound
Colonnes supplémentaires Ajouter les colonnes de données supplémentaires pour stocker le chemin d’accès relatif ou la valeur statique des fichiers sources. • Nom
• Valeur
Non additionalColumns :
• nom
• valeur

Informations de destination

Nom Description Valeur Obligatoire Propriété de script JSON
Type de banque de données Votre type de magasin de données. Espace de travail Oui /
Type de magasin de données de l’espace de travail Section permettant de sélectionner le type de magasin de données de votre espace de travail. Data Warehouse Oui type
Data Warehouse Entrepôt de données à utiliser. <votre entrepôt de données> Oui endpoint
artifactId
Table Table de destination pour l’écriture des données. <nom de votre table de destination> Oui schéma
table
Paramètres de la commande de copie Paramètres de propriété de la commande de copie. Contient les paramètres par défaut. Valeur par défaut :
• Colonne
• Valeur
Non copyCommandSettings :
defaultValues :
• columnName
• defaultValue
Option de table Créer automatiquement la table de destination s’il n’en existe aucune en fonction du schéma source. • Aucun
• Auto créer la table
Non tableOption :

• autoCreate
Script de pré-copie Requête SQL à exécuter avant l’écriture de données dans Data Warehouse à chaque exécution. Utilisez cette propriété pour nettoyer les données préchargées. <script de pré-copie> Non preCopyScript
Délai d’expiration du lot d’écriture Temps d’attente pour que l’opération d’insertion par lot soit terminée avant d’expirer. Les valeurs autorisées sont au format d’un intervalle de temps. La valeur par défaut est 00:30:00 (30 minutes). intervalle de temps Non writeBatchTimeout
Désactiver l’analytique des métriques de performances Le service collecte des métriques pour fournir des recommandations et optimiser les performances de copie, introduisant un accès de base de données master supplémentaire. sélectionner ou désélectionner Non disableMetricsCollection :
True ou False