Comment configurer Lakehouse dans une activité de copie

Cet article explique comment utiliser l’activité de copie dans un pipeline de données pour copier des données depuis et vers Fabric Lakehouse.

Important

Microsoft Fabric est actuellement en préversion. Certaines informations portent sur un produit en préversion susceptible d’être substantiellement modifié avant sa publication. Microsoft ne donne aucune garantie, expresse ou implicite, concernant les informations fournies ici. Reportez-vous à la documentation Azure Data Factory pour le service dans Azure.

Format pris en charge

Lakehouse prend en charge les formats de fichier suivants. Reportez-vous à chaque article pour les paramètres basés sur le format.

Configuration prise en charge

Pour la configuration de chaque onglet sous activité de copie, accédez respectivement aux sections suivantes.

Général

Pour la configuration de l’onglet Général , accédez à Général.

Source

Les propriétés suivantes sont prises en charge pour Lakehouse sous l’onglet Source d’une activité de copie.

Capture d’écran montrant l’onglet source et la liste des propriétés.

Les propriétés suivantes sont requises :

  • Type de magasin de données : sélectionnez Espace de travail.
  • Type de magasin de données de l’espace de travail : sélectionnez Lakehouse dans la liste type de magasin de données.
  • Lakehouse : sélectionnez un Lakehouse existant dans l’espace de travail. Si aucun n’existe, créez un lakehouse en sélectionnant Nouveau.
  • Dossier racine : sélectionnez Tables ou fichiers, qui indique la vue virtuelle de la zone gérée ou non managée dans votre lac. Pour plus d’informations, consultez Présentation de Lakehouse.
    • Si vous sélectionnez Tables :
      • Nom de la table : choisissez une table existante dans la liste de tables ou spécifiez un nom de table comme source.
      • Sous Avancé, vous pouvez spécifier les champs suivants :
        • Horodatage : spécifiez pour interroger un instantané plus ancien par horodatage.
        • Version : spécifiez pour interroger une ancienne instantané par version.
        • Colonnes supplémentaires : ajoutez des colonnes de données supplémentaires au chemin d’accès relatif ou à la valeur statique des fichiers sources du magasin. L’expression est prise en charge pour ce dernier.
    • Si vous sélectionnez Fichiers :
      • Type de chemin d’accès de fichier : vous pouvez choisir Chemin d’accès au fichier, Chemin d’accès au fichier générique ou Liste des fichiers comme type de chemin d’accès de fichier. La liste suivante décrit la configuration de chaque paramètre :

        Capture d’écran montrant le chemin du fichier.

        • Chemin d’accès du fichier : sélectionnez Parcourir pour choisir le fichier que vous souhaitez copier, ou renseignez-le manuellement.

        • Chemin d’accès au fichier générique : spécifiez le chemin d’accès au dossier ou au fichier avec des caractères génériques sous votre zone lakehouse non managée donnée (sous Fichiers) pour filtrer vos dossiers ou fichiers sources. Les caractères génériques autorisés sont les suivants : * (correspond à zéro caractère ou plusieurs) et ? (correspond à zéro ou un caractère). Utilisez ^ pour échapper si le nom de votre dossier ou fichier contient un caractère générique ou ce caractère d’échappement.

          • Chemin d’accès au dossier générique : chemin d’accès au dossier sous le conteneur donné. Si vous souhaitez utiliser un caractère générique pour filtrer le dossier, ignorez ce paramètre et spécifiez ces informations dans les paramètres de source d’activité.

          • Nom de fichier générique : nom de fichier sous la zone non managée lakehouse donnée (sous Fichiers) et le chemin d’accès au dossier.

            Capture d’écran montrant le chemin d’accès au fichier générique.

        • Liste des fichiers : indique de copier un jeu de fichiers donné.

          • Chemin d’accès au dossier : pointe vers un dossier qui inclut les fichiers que vous souhaitez copier.
          • Chemin d’accès à la liste de fichiers : pointe vers un fichier texte qui inclut une liste de fichiers que vous souhaitez copier, un fichier par ligne, qui est le chemin d’accès relatif au chemin d’accès au fichier configuré.

          Capture d’écran montrant le chemin d’accès à la liste des fichiers.

      • Récursivement : indique si les données sont lues de manière récursive à partir des sous-dossiers ou uniquement à partir du dossier spécifié. Si cette option est activée, tous les fichiers du dossier d’entrée et de ses sous-dossiers sont traités de manière récursive. Cette propriété ne s’applique pas lorsque vous configurez votre type de chemin d’accès de fichier en tant que Liste de fichiers.

      • Format de fichier : sélectionnez votre format de fichier dans la liste déroulante. Sélectionnez le bouton Paramètres pour configurer le format de fichier. Pour connaître les paramètres des différents formats de fichier, reportez-vous aux articles de Format pris en charge pour plus d’informations.

      • Sous Avancé, vous pouvez spécifier les champs suivants :

        • Filtrer par dernière modification : les fichiers sont filtrés en fonction des dates de dernière modification. Cette propriété ne s’applique pas lorsque vous configurez votre type de chemin d’accès de fichier en tant que Liste de fichiers.
          • Heure de début : les fichiers sont sélectionnés si leur dernière modification est supérieure ou égale à l’heure configurée.
          • Heure de fin : les fichiers sont sélectionnés si leur heure de dernière modification est inférieure à l’heure configurée.
        • Activer la découverte de partitions : pour les fichiers partitionnés, spécifiez s’il faut analyser les partitions à partir du chemin d’accès au fichier et les ajouter en tant que colonnes sources supplémentaires.
          • Chemin d’accès racine de partition : lorsque la découverte de partition est activée, spécifiez le chemin racine absolu afin de lire les dossiers partitionnés en tant que colonnes de données.
        • Nombre maximal de connexions simultanées : indique la limite supérieure de connexions simultanées établies au magasin de données pendant l’exécution de l’activité. Spécifiez une valeur uniquement lorsque vous souhaitez limiter les connexions simultanées.

Destination

Les propriétés suivantes sont prises en charge pour Lakehouse sous l’onglet Destination d’une activité de copie.

Capture d’écran montrant l’onglet destination.

Les propriétés suivantes sont requises :

  • Type de magasin de données : sélectionnez Espace de travail.
  • Type de magasin de données de l’espace de travail : sélectionnez Lakehouse dans la liste type de magasin de données.
  • Lakehouse : sélectionnez un Lakehouse existant dans l’espace de travail. Si aucun n’existe, créez un lakehouse en sélectionnant Nouveau.
  • Dossier racine : sélectionnez Tables ou fichiers, qui indique la vue virtuelle de la zone gérée ou non managée dans votre lac. Pour plus d’informations, consultez Présentation de Lakehouse.
    • Si vous sélectionnez Tables :

      • Nom de la table : choisissez une table existante dans la liste de tables ou spécifiez un nom de table comme destination.

        Capture d’écran montrant le nom de la table.

      • Sous Avancé, vous pouvez spécifier les champs suivants :

        • Nombre maximal de lignes par fichier : spécifiez le nombre maximal de lignes par fichier lors de l’écriture de données dans Lakehouse.
        • Actions de table : spécifiez l’opération par rapport à la table sélectionnée.
          • Append : ajoutez de nouvelles valeurs à une table existante.
          • Remplacer : remplacez les données et le schéma existants dans la table à l’aide des nouvelles valeurs. Si cette opération est sélectionnée, vous pouvez activer la partition sur votre table cible :
            • Activer la partition : cette sélection vous permet de créer des partitions dans une structure de dossiers basée sur une ou plusieurs colonnes. Chaque valeur de colonne distincte (paire) est une nouvelle partition. Par exemple, « year=2000/month=01/file ». Cette sélection prend en charge le mode d’insertion uniquement et nécessite un répertoire vide dans la destination.
              • Nom de la colonne de partition : sélectionnez parmi les colonnes de destination dans le mappage de schémas. Les types de données pris en charge sont string, integer, boolean et datetime. Le format respecte les paramètres de conversion de type sous l’onglet Mappage .
        • Nombre maximal de connexions simultanées : limite supérieure des connexions simultanées établies au magasin de données pendant l’exécution de l’activité. Spécifiez une valeur uniquement lorsque vous souhaitez limiter les connexions simultanées.
    • Si vous sélectionnez Fichiers :

      • Chemin du fichier : sélectionnez Parcourir pour choisir le fichier que vous souhaitez copier, ou renseignez-le manuellement.

        Capture d’écran montrant le chemin des fichiers dans la destination.

      • Format de fichier : sélectionnez votre format de fichier dans la liste déroulante. Sélectionnez Paramètres pour configurer le format de fichier. Pour connaître les paramètres des différents formats de fichier, reportez-vous aux articles dans Format pris en charge pour obtenir des informations détaillées.

      • Sous Avancé, vous pouvez spécifier les champs suivants :

        • Comportement de copie : définit le comportement de copie lorsque la source est des fichiers d’un magasin de données basé sur un fichier. Vous pouvez choisir Ajouter du contenu dynamique, Aucun, Aplatir la hiérarchie ou Conserver la hiérarchie comme comportement de copie. La configuration de chaque paramètre est la suivante :

          • Ajouter du contenu dynamique : pour spécifier une expression pour une valeur de propriété, sélectionnez Ajouter du contenu dynamique. Ce champ ouvre le générateur d’expressions dans lequel vous pouvez générer des expressions à partir de variables système, de sortie d’activité, de fonctions et de variables ou paramètres spécifiés par l’utilisateur pris en charge. Pour plus d’informations sur le langage d’expression, accédez à Expressions et fonctions.

          • Aucun : choisissez cette sélection pour ne pas utiliser de comportement de copie.

          • Hiérarchie aplatissement : tous les fichiers du dossier source se trouvent au premier niveau du dossier de destination. Les fichiers de destination ont des noms générés automatiquement.

          • Conserver la hiérarchie : conserve la hiérarchie de fichiers dans le dossier cible. Le chemin d’accès relatif d’un fichier source au dossier source est identique au chemin relatif d’un fichier cible vers le dossier cible.

            Capture d’écran montrant le comportement de copie.

        • Nombre maximal de connexions simultanées : limite supérieure des connexions simultanées établies au magasin de données pendant l’exécution de l’activité. Spécifiez une valeur uniquement lorsque vous souhaitez limiter les connexions simultanées.

        • Taille de bloc (Mo) : spécifiez la taille de bloc en Mo lors de l’écriture de données dans Lakehouse. Les valeurs autorisées sont comprises entre 4 et 100 Mo.

        • Métadonnées : définissez des métadonnées personnalisées lors de la copie dans le magasin de données de destination. Chaque objet sous le tableau metadata représente une colonne supplémentaire. name définit le nom de clé de métadonnées et value indique la valeur des données de cette clé. Si la fonctionnalité de conservation des attributs est utilisée, les métadonnées spécifiées vont s’unir/remplacer les métadonnées du fichier source. Les valeurs de données autorisées sont les suivantes :

          • $$LASTMODIFIED : une variable réservée indique de stocker l’heure de la dernière modification des fichiers sources. Appliquez à une source basée sur un fichier au format binaire uniquement.

          • Expression

          • Valeur statique

            Capture d’écran montrant les métadonnées.

Mappage

Pour la configuration de l’onglet Mappage , accédez à Mappage. Si vous choisissez Binaire comme format de fichier, le mappage n’est pas pris en charge.

Paramètres

Pour la configuration de l’onglet Paramètres , accédez à Paramètres.

Résumé de la table

Les tableaux suivants contiennent plus d’informations sur une activité de copie dans Lakehouse.

Informations sources

Nom Description Valeur Obligatoire Propriété de script JSON
Type de banque de données Votre type de magasin de données. Espace de travail Yes /
Type de magasin de données d’espace de travail Section permettant de sélectionner le type de magasin de données de votre espace de travail. Lakehouse Oui type
Lakehouse Lakehouse que vous utilisez comme source. <votre Lakehouse> Yes workspaceId
artifactId
Dossier racine Type du dossier racine. * Tables
* Fichiers
No rootFolder :
Table ou Fichiers
Nom de la table Nom de la table à lire. <nom de la table> Oui lorsque vous sélectionnez Tables dans le dossier racine table
(sous typeProperties ->source ->typeProperties)
Timestamp Horodatage pour interroger un instantané plus ancien. <timestamp> No timestampAsOf
Version Version permettant d’interroger un instantané plus ancien. <version> No versionAsOf
Colonnes supplémentaires Colonnes de données supplémentaires pour stocker le chemin d’accès relatif ou la valeur statique des fichiers sources. L’expression est prise en charge pour ce dernier. *Nom
*Valeur
No additionalColumns :
*Nom
*Valeur
Type de chemin d’accès au fichier Type du chemin d’accès au fichier que vous utilisez. * Chemin d’accès au fichier
* Chemin d’accès au fichier générique
* Liste des fichiers
Yes /
Chemin de fichier Copiez à partir du chemin d’accès à un dossier/fichier sous le magasin de données source. Appliquez lorsque vous choisissez Chemin d’accès au fichier dans Type de chemin d’accès de fichier. <file path> Oui lorsque vous choisissez Chemin d’accès au fichier * folderPath
*Fichier
Chemins d’accès génériques Chemin d’accès au dossier avec des caractères génériques sous le magasin de données source configuré pour filtrer les dossiers sources. Appliquez lors du choix du chemin d’accès au fichier générique dans Type de chemin d’accès de fichier. <chemins d’accès génériques> Oui lors du choix du chemin d’accès au fichier générique * wildcardFolderPath
* wildcardFileName
Chemin d’accès du dossier Pointe vers un dossier qui inclut les fichiers que vous souhaitez copier. Appliquez lorsque vous choisissez Liste de fichiers dans Type de chemin d’accès de fichier. <chemin d’accès au dossier> Non folderPath
Chemin d’accès à la liste des fichiers Indique de copier un ensemble de fichiers donné. Pointez sur un fichier texte qui inclut une liste de fichiers que vous souhaitez copier, un fichier par ligne, qui est le chemin d’accès relatif au chemin d’accès configuré. Appliquez lorsque vous choisissez Liste de fichiers dans Type de chemin d’accès de fichier. <chemin d’accès à la liste des fichiers> No fileListPath
Recursively Traitez tous les fichiers du dossier d’entrée et de ses sous-dossiers de manière récursive ou uniquement ceux du dossier sélectionné. Ce paramètre est désactivé lorsqu’un seul fichier est sélectionné. sélectionner ou désélectionner No Récursive:
True ou False
Format de fichier Format du fichier que vous utilisez. <format de fichier> Yes type (sous formatSettings) :
DelimitedTextReadSettings
Filtrer par date de dernière modification Les fichiers avec l’heure de la dernière modification dans la plage [Heure de début, Heure de fin) seront filtrés pour un traitement ultérieur.

L’heure sera appliquée au fuseau horaire UTC au format « aaaa-mm-jjThh:mm:ss.fffZ ».

Cette propriété peut être ignorée, ce qui signifie qu’aucun filtre d’attribut de fichier ne sera appliqué. Cette propriété ne s’applique pas lorsque vous configurez votre type de chemin d’accès de fichier en tant que Liste de fichiers.
* Heure de début
* Heure de fin
Non modifiedDatetimeStart
modifiedDatetimeEnd
Activer la découverte de partition Indique s’il faut analyser les partitions à partir du chemin du fichier et les ajouter en tant que colonnes sources supplémentaires. Sélectionné ou non sélectionné No enablePartitionDiscovery :
true ou false (valeur par défaut)
Chemin racine de la partition Chemin d’accès racine de la partition absolue pour lire les dossiers partitionnés sous forme de colonnes de données. <chemin racine de votre partition> Non partitionRootPath
Nombre maximal de connexions simultanées La limite supérieure de connexions simultanées établies au magasin de données pendant l’exécution de l’activité. Une valeur est nécessaire uniquement lorsque vous souhaitez limiter les connexions simultanées. <nombre maximal de connexions simultanées> Non maxConcurrentConnections

Informations de destination

Nom Description Valeur Obligatoire Propriété de script JSON
Type de banque de données Votre type de magasin de données. Espace de travail Yes /
Type de magasin de données de l’espace de travail Section permettant de sélectionner le type de magasin de données de votre espace de travail. Lakehouse Oui type
Lakehouse Lakehouse que vous utilisez comme destination. <votre Lakehouse> Yes workspaceId
artifactId
Dossier racine Type du dossier racine. * Tables
* Fichiers
Yes rootFolder :
Table ou fichiers
Nom de la table Nom de la table dans laquelle vous souhaitez écrire des données. <nom de votre table> Oui lorsque vous sélectionnez Tables dans le dossier racine table
(sous typeProperties ->sink ->typeProperties)
Nombre maximal de lignes par fichier Lorsque vous écrivez des données dans un dossier, vous pouvez choisir d’écrire dans plusieurs fichiers et de spécifier le nombre maximal de lignes par fichier. <nombre maximal de lignes par flie> No maxRowsPerFile
Action table Ajoutez de nouvelles valeurs à une table existante ou remplacez les données et le schéma existants dans la table à l’aide des nouvelles valeurs. * Ajouter
* Écraser
No tableActionOption :
Ajouter ou remplacer
Nombre maximal de connexions simultanées La limite supérieure de connexions simultanées établies au magasin de données pendant l’exécution de l’activité. Spécifiez une valeur uniquement lorsque vous souhaitez limiter les connexions simultanées. <nombre maximal de connexions simultanées> Non maxConcurrentConnections
Chemin de fichier Écrire des données dans le chemin d’accès à un dossier/fichier sous le magasin de données de destination. <file path> No * folderPath
*Fichier
Format de fichier Format du fichier que vous utilisez. <format de fichier> Yes type (sous formatSettings) :
DelimitedTextWriteSettings
Comportement de copie Comportement de copie défini lorsque la source est des fichiers d’un magasin de données basé sur un fichier. * Ajouter du contenu dynamique
* Aucun
* Hiérarchie aplatit
* Conserver la hiérarchie
No copyBehavior :


* FlattenHierarchy
* PreserveHierarchy
Taille de bloc (Mo) Taille de bloc en Mo utilisée pour écrire des données dans Lakehouse. Les valeurs autorisées sont comprises entre 4 et 100 Mo. <taille de bloc> Non blockSizeInMB
Métadonnées Définition des métadonnées personnalisées lors de la copie vers une destination. * $$LASTMODIFIED
*Expression
* Valeur statique
Non metadata

Étapes suivantes