Configurer Lakehouse dans une activité de copie

Cet article explique comment utiliser l’activité de copie dans un pipeline de données pour copier des données depuis et vers Fabric Lakehouse. Par défaut, les données sont écrites dans Lakehouse Table dans V-Order, et vous pouvez accéder à l’optimisation de la table Delta Lake et V-Order pour plus d’informations.

Format pris en charge

Lakehouse prend en charge les formats de fichier suivants. Reportez-vous à chaque article pour les paramètres basés sur le format.

Configuration prise en charge

Pour la configuration de chaque onglet sous l’activité de copie, accédez respectivement aux sections suivantes.

Général

Pour la configuration de l’onglet Général, accédez à Général.

Source

Les propriétés suivantes sont prises en charge pour Lakehouse sous l’onglet Source d’une activité de copie.

Capture d'écran montrant l'onglet source et la liste des propriétés.

Les propriétés suivantes sont requises :

  • Type de magasin de données : sélectionnez Espace de travail.

  • Type de magasin de données de l’espace de travail: sélectionnez Lakehouse dans la liste type de magasin de données.

  • Lakehouse : sélectionnez un Lakehouse existant dans l’espace de travail. Si aucun n’existe, créez un Lakehouse en sélectionnant Nouveau. Si vous utilisez Ajouter du contenu dynamique pour spécifier votre Lakehouse, ajoutez un paramètre et spécifiez l'ID d'objet Lakehouse comme valeur de paramètre. Pour obtenir votre ID d'objet Lakehouse, ouvrez votre Lakehouse dans votre espace de travail et l'ID se trouve après /lakehouses/dans votre URL.

    Capture d'écran montrant l’ID objet Lakehouse.

  • Dossier racine : sélectionnez Tables ou fichiers, qui indique la vue virtuelle de la zone gérée ou non managée dans votre lac. Pour plus d'informations, voir l'introduction de Lakehouse.

    • Si vous sélectionnez Tables :
      • Nom de la table : choisissez une table existante dans la liste de tables ou spécifiez un nom de table comme source.
      • Sous Avancé, vous pouvez spécifier les champs suivants :
        • Horodatage : spécifiez pour interroger un instantané plus ancien par horodatage.
        • Version : spécifiez pour interroger une ancienne instantané par version.
        • Colonnes supplémentaires : ajoutez des colonnes de données supplémentaires au chemin d’accès relatif ou à la valeur statique des fichiers sources du magasin. L’expression est prise en charge pour ce dernier.
    • Si vous sélectionnez Fichiers :
      • Type de chemin d’accès de fichier : vous pouvez choisir Chemin d’accès au fichier, Chemin d’accès au fichier générique ou Liste des fichiers comme type de chemin d’accès de fichier. La liste suivante décrit la configuration de chaque paramètre :

        Capture d'écran montrant le chemin d'accès d'un fichier.

        • Chemin du fichier : sélectionnez Parcourir pour choisir le fichier que vous souhaitez copier, ou renseignez-le manuellement.

        • Chemin d’accès au fichier générique : spécifiez le chemin d’accès au dossier ou au fichier avec des caractères génériques sous votre zone Lakehouse non managée donnée (sous Fichiers) pour filtrer vos dossiers ou fichiers sources. Les caractères génériques autorisés sont les suivants : * (correspond à zéro caractère ou plusieurs) et ? (correspond à zéro ou un caractère). Utilisez ^ comme caractère d’échappement si le nom de votre fichier ou dossier contient des caractères génériques ou ce caractère d’échappement.

          • Chemin d'accès au dossier caractère générique : Chemin d’accès au dossier sous le conteneur donné. Si vous souhaitez utiliser un joker pour filtrer le dossier, ignorez ce paramètre et spécifiez cette information dans les paramètres de la source d'activité.

          • Nom de fichier générique : nom de fichier sous la zone non managée Lakehouse donnée (sous Fichiers) et le chemin d’accès au dossier.

            Capture d'écran montrant le chemin d'accès d'un fichier caractère générique.

        • Liste des fichiers : Indique qu'il faut copier un ensemble de fichiers donné.

          • Chemin d’accès au dossier : pointe vers un dossier qui inclut les fichiers que vous souhaitez copier.
          • Chemin d'accès à la liste des fichiers  : Pointez vers un fichier texte contenant la liste des fichiers que vous voulez copier, un fichier par ligne indiquant le chemin relatif configuré dans le jeu de données.

          Capture d'écran montrant le chemin d'accès à la liste des fichiers.

      • De manière récursive : Indique si les données sont lues de manière récursive à partir des sous-dossiers ou uniquement du dossier spécifié. Si cette option est activée, tous les fichiers du dossier d’entrée et de ses sous-dossiers sont traités de manière récursive. Cette propriété ne s’applique pas lorsque vous configurez votre type de chemin d’accès de fichier en tant que Liste de fichiers.

      • Format de fichier : sélectionnez votre format de fichier dans la liste déroulante. Sélectionnez le bouton Paramètres pour configurer le format de fichier. Pour connaître les paramètres des différents formats de fichier, reportez-vous aux articles de Format pris en charge pour plus d’informations.

      • Sous Avancé, vous pouvez spécifier les champs suivants :

        • Filtrer par dernière modification : les fichiers sont filtrés en fonction des dates de dernière modification. Cette propriété ne s’applique pas lorsque vous configurez votre type de chemin d’accès de fichier en tant que Liste de fichiers.
          • Heure de début : Les fichiers sont sélectionnés si leur dernière heure de modification est supérieure ou égale à l’heure configurée.
          • Heure de fin : les fichiers sont sélectionnés si leur heure de dernière modification est inférieure à l’heure configurée.
        • Activer la découverte des partitions : Pour les fichiers partitionnés, spécifiez s’il faut analyser les partitions à partir du chemin d’accès au fichier et les ajouter en tant que colonnes sources supplémentaires.
          • Chemin d'accès à la racine de la partition  : Lorsque la découverte de partition est activée, spécifiez le chemin racine absolu pour pouvoir lire les dossiers partitionnés en tant que colonnes de données.
        • Nombre maximal de connexions simultanées : indique la limite supérieure de connexions simultanées établies au magasin de données pendant l’exécution de l’activité. Spécifiez une valeur uniquement lorsque vous souhaitez limiter les connexions simultanées.

Destination

Les propriétés suivantes sont prises en charge pour Lakehouse sous l’onglet Destination d’une activité de copie.

Capture d'écran montrant l'onglet de destination.

Les propriétés suivantes sont requises :

  • Type de magasin de données : sélectionnez Espace de travail.

  • Type de magasin de données de l’espace de travail: sélectionnez Lakehouse dans la liste type de magasin de données.

  • Lakehouse : sélectionnez un Lakehouse existant dans l’espace de travail. Si aucun n’existe, créez un Lakehouse en sélectionnant Nouveau. Si vous utilisez Ajouter du contenu dynamique pour spécifier votre Lakehouse, ajoutez un paramètre et spécifiez l'ID d'objet Lakehouse comme valeur de paramètre. Pour obtenir votre ID d'objet Lakehouse, ouvrez votre Lakehouse dans votre espace de travail et l'ID se trouve après /lakehouses/dans votre URL.

    Capture d'écran montrant l’ID objet Lakehouse.

  • Dossier racine : sélectionnez Tables ou fichiers, qui indique la vue virtuelle de la zone gérée ou non managée dans votre lac. Pour plus d'informations, voir l'introduction de Lakehouse.

    • Si vous sélectionnez Tables :

      • Nom de la table : choisissez une table existante dans la liste de tables ou spécifiez un nom de table comme destination.

        Capture d’écran montrant le nom de table.

      • Sous Avancé, vous pouvez spécifier les champs suivants :

        • Nombre maximal de lignes par fichier : spécifiez le nombre maximal de lignes par fichier lors de l’écriture de données dans Lakehouse.
        • Actions de table : spécifiez l’opération par rapport à la table sélectionnée.
          • Ajouter : ajoutez de nouvelles valeurs à une table existante.
            • Activer la partition : cette sélection vous permet de créer des partitions dans une structure de dossiers basée sur une ou plusieurs colonnes. Chaque valeur de colonne distincte (paire) est une nouvelle partition. Par exemple, « year=2000/month=01/file ».
              • Nom de colonne de partitionnement : sélectionnez les colonnes de destination dans la mise en correspondance des schémas lorsque vous ajoutez des données à une nouvelle table. Lorsque vous ajoutez des données à une table existante qui a déjà des partitions, les colonnes de partitionnement sont dérivées automatiquement de la table existante. Les types de données pris en charge sont chaîne, entier, booléen et DateHeure. Le format respecte les paramètres de conversion de type sous l’onglet Mappage.
          • Remplacer : remplacer les données et le schéma existants dans la table avec les nouvelles valeurs. Si cette opération est sélectionnée, vous pouvez activer la partition sur votre table cible :
            • Activer la partition : cette sélection vous permet de créer des partitions dans une structure de dossiers basée sur une ou plusieurs colonnes. Chaque valeur de colonne distincte (paire) est une nouvelle partition. Par exemple, « year=2000/month=01/file ».
              • Nom de la colonne de partition : sélectionnez parmi les colonnes de destination dans le mappage de schémas. Les types de données pris en charge sont chaîne, entier, booléen et DateHeure. Le format respecte les paramètres de conversion de type sous l’onglet Mappage.
        • Nombre maximal de connexions simultanées : la limite supérieure de connexions simultanées établies au magasin de données pendant l’exécution de l’activité. Spécifiez une valeur uniquement lorsque vous souhaitez limiter les connexions simultanées.
    • Si vous sélectionnez Fichiers :

      • Chemin du fichier : sélectionnez Parcourir pour choisir le fichier que vous souhaitez copier, ou renseignez-le manuellement.

        Capture d'écran montrant le chemin d'accès dans la destination.

      • Format de fichier : sélectionnez votre format de fichier dans la liste déroulante. Sélectionnez Paramètres pour configurer le format de fichier. Pour connaître les paramètres des différents formats de fichier, reportez-vous aux articles de Format pris en charge pour plus d’informations.

      • Sous Avancé, vous pouvez spécifier les champs suivants :

        • Comportement de copie :Définit le comportement de copie lorsque la source est constituée de fichiers d’une banque de données basée sur un fichier. Vous pouvez choisir Ajouter du contenu dynamique, Aucun, Aplatir la hiérarchie ou Conserver la hiérarchie comme comportement de copie. La configuration de chaque paramètre est la suivante :

          • Ajouter du contenu dynamique : pour spécifier une expression pour une valeur de propriété, sélectionnez Ajouter du contenu dynamique. Ce champ ouvre le Générateur d’expressions, où vous pouvez générer des expressions à partir des variables système prises en charge, de la sortie de l’activité, des fonctions et des variables ou paramètres spécifiés par l’utilisateur. Pour plus d’informations sur le langage d’expression, accédez à Expressions et fonctions.

          • Aucun : choisissez cette sélection pour ne pas utiliser de comportement de copie.

          • - FlattenHierarchy : tous les fichiers du dossier source figurent dans le premier niveau du dossier de destination. Les noms des fichiers de destination sont générés automatiquement.

          • PreserveHierarchy : conserve la hiérarchie des fichiers dans le dossier cible. Le chemin relatif du fichier source vers un dossier source est identique au chemin relatif du fichier cible vers un dossier cible.

            Capture d'écran montrant le comportement de la copie.

        • Nombre maximal de connexions simultanées : la limite supérieure de connexions simultanées établies au magasin de données pendant l’exécution de l’activité. Spécifiez une valeur uniquement lorsque vous souhaitez limiter les connexions simultanées.

        • Taille de bloc (Mo) : spécifiez la taille de bloc en Mo lors de l’écriture de données dans Lakehouse. Les valeurs autorisées sont comprises entre 4 et 100 Mo.

        • Métadonnées : définissez des métadonnées personnalisées lors de la copie vers le magasin de données de destination. Chaque objet sous le tableau metadata représente une colonne supplémentaire. name définit le nom de clé de métadonnées et value indique la valeur des données de cette clé. Si la fonctionnalité de conservation des attributs est utilisée, les métadonnées spécifiées vont s’unir/remplacer les métadonnées du fichier source. Les valeurs de données autorisées sont :

          • $$LASTMODIFIED : une variable réservée indique de stocker l’heure de la dernière modification des fichiers sources. Appliquez à une source basée sur un fichier uniquement avec le format binaire.

          • Expression

          • Valeur statique

            Capture d’écran affichant des métadonnées.

Mappage

Pour la configuration de l’onglet Mappage, si vous n’appliquez pas la table Lakehouse comme magasin de données de destination, accédez à Mappage.

Si vous appliquez la table Lakehouse comme magasin de données de destination, à l’exception de la configuration dans Mappage, vous pouvez modifier le type de vos colonnes de destination. Après avoir sélectionné Importer des schémas, vous pouvez spécifier le type de colonne dans votre destination.

Par exemple, le type de colonne PersonID dans la source est int, et vous pouvez le remplacer par le type string lors du mappage à la colonne de destination.

Capture d’écran du type de colonne de destination de mappage.

Remarque

La modification du type de destination n’est actuellement pas prise en charge lorsque votre source est de type décimal.

Si vous choisissez Binaire comme format de fichier, le mappage n’est pas pris en charge.

Paramètres

Pour la configuration de l’onglet Paramètres, accédez à Paramètres.

Résumé de la table

Les tableaux suivants contiennent plus d’informations sur une activité de copie dans Lakehouse.

Informations sur la source

Nom Description Valeur Obligatoire Propriété de script JSON
Type de banque de données Votre type de magasin de données. Espace de travail Oui /
Type de magasin de données de l’espace de travail Section permettant de sélectionner le type de magasin de données de votre espace de travail. Lakehouse Oui type
Lakehouse Lakehouse que vous utilisez comme source. <votre Lakehouse> Oui workspaceId
artifactId
Dossier racine Type du dossier racine. * Tables
* Fichiers
Non rootFolder :
Table ou Fichiers
Nom de la table Nom de la table à lire. <nom de tableau> Oui lorsque vous sélectionnez Tables dans le dossier racine table
(sous typeProperties ->source ->typeProperties)
Timestamp Horodatage pour interroger un instantané plus ancien. <timestamp> Non timestampAsOf
Version Version permettant d’interroger un instantané plus ancien. <version> Non versionAsOf
Colonnes supplémentaires Colonnes de données supplémentaires pour stocker le chemin d’accès relatif ou la valeur statique des fichiers sources. L’expression est prise en charge pour ce dernier. * Nom
* Valeur
Non additionalColumns :
* nom
* valeur
Type de chemin d’accès au fichier Type du chemin d’accès au fichier que vous utilisez. * Chemin d’accès du fichier
* Chemin du fichier générique
* Liste de fichiers
Oui /
Chemin de fichier Copiez à partir du chemin d’accès à un dossier/fichier sous le magasin de données source. Appliquez lorsque vous choisissez Chemin d’accès au fichier dans Type de chemin d’accès au fichier. <file path> Oui lorsque vous choisissez Chemin d’accès au fichier * folderPath
* fileName
Chemins avec des caractères génériques Chemin du dossier avec des caractères génériques sous le magasin de données source configuré pour filtrer les dossiers sources. Appliquez lorsque vous choisissez Chemin d’accès au fichier générique dans Type de chemin d’accès au fichier. <chemins avec des caractères génériques> Oui lorsque vous choisissez le chemin d’accès au fichier générique * wildcardFolderPath
* wildcardFileName
Chemin d’accès du dossier Pointe vers un dossier qui inclut les fichiers que vous souhaitez copier. Appliquer lorsque vous choisissez Liste de fichiers dans Type de chemin d’accès de fichier. <chemin d’accès du dossier> Non folderPath
Chemin d’accès à la liste des fichiers Indique de copier un ensemble de fichiers donné. Pointez vers un fichier texte contenant la liste des fichiers que vous voulez copier, un fichier par ligne indiquant le chemin relatif configuré. Appliquer lorsque vous choisissez Liste de fichiers dans Type de chemin d’accès de fichier. <chemin d’accès à la liste des fichiers> Non fileListPath
Recursively Traitez tous les fichiers du dossier d’entrée et de ses sous-dossiers de manière récursive ou uniquement ceux du dossier sélectionné. Ce paramètre est désactivé lorsqu’un seul fichier est sélectionné. sélectionner ou désélectionner Non récursive :
True ou False
Format de fichier Format du fichier que vous utilisez. <format de fichier> Oui type(sous formatSettings) :
DelimitedTextReadSettings
Filtrer par date de dernière modification Les fichiers dont l’heure de la dernière modification se trouve dans la plage [Heure de début, Heure de fin) seront filtrés pour un traitement ultérieur.

L’heure est appliquée au fuseau horaire UTC au format yyyy-mm-ddThh:mm:ss.fffZ.

Cette propriété peut être ignorée, ce qui signifie qu’aucun filtre d’attribut de fichier n’est appliqué. Cette propriété ne s’applique pas lorsque vous configurez votre type de chemin d’accès de fichier en tant que Liste de fichiers.
* Heure de début
* Heure de fin
Non modifiedDatetimeStart
modifiedDatetimeEnd
Activer la découverte de partition Indique s'il faut analyser les partitions à partir du chemin d'accès au fichier et les ajouter en tant que colonnes source supplémentaires. Sélectionné ou non sélectionné Non enablePartitionDiscovery :
true ou false (par défaut)
Chemin racine de la partition Chemin d’accès racine de la partition absolue pour lire les dossiers partitionnés sous forme de colonnes de données. <chemin racine de votre partition> Non partitionRootPath
Connexions simultanées maximales La limite supérieure de connexions simultanées établies au magasin de données pendant l’exécution de l’activité. Une valeur est uniquement nécessaire lorsque vous souhaitez limiter les connexions simultanées. <connexions simultanées maximales> Non maxConcurrentConnections

Informations de destination

Nom Description Valeur Obligatoire Propriété de script JSON
Type de banque de données Votre type de magasin de données. Espace de travail Oui /
Type de magasin de données de l’espace de travail Section permettant de sélectionner le type de magasin de données de votre espace de travail. Lakehouse Oui type
Lakehouse Lakehouse que vous utilisez comme destination. <votre Lakehouse> Oui workspaceId
artifactId
Dossier racine Type du dossier racine. * Tables
* Fichiers
Oui rootFolder :
Table ou Fichiers
Nom de la table Nom de la table dans laquelle vous souhaitez écrire des données. <nom de votre table> Oui lorsque vous sélectionnez Tables dans le dossier racine table
(sous typeProperties ->sink ->typeProperties)
Nombre maximal de lignes par fichier Lorsque vous écrivez des données dans un dossier, vous pouvez choisir d’écrire dans plusieurs fichiers et de spécifier le nombre maximal de lignes par fichier. <nombre maximal de lignes par fichier> Non maxRowsPerFile
Action table Ajoutez de nouvelles valeurs à une table existante ou remplacez les données et le schéma existants dans la table à l’aide des nouvelles valeurs. * Ajouter
* Remplacer
Non tableActionOption :
Ajouter ou remplacer
Connexions simultanées maximales La limite supérieure de connexions simultanées établies au magasin de données pendant l’exécution de l’activité. Spécifiez une valeur uniquement lorsque vous souhaitez limiter les connexions simultanées. <connexions simultanées maximales> Non maxConcurrentConnections
Chemin de fichier Écrivez des données dans le chemin d’accès à un dossier/fichier sous le magasin de données de destination. <file path> Non * folderPath
* fileName
Format de fichier Format du fichier que vous utilisez. <format de fichier> Oui type(sous formatSettings) :
DelimitedTextWriteSettings
Comportement de copie Le comportement de copie définit lorsque la source est constituée de fichiers d’une banque de données basée sur un fichier. * Ajouter du contenu dynamique
* Aucun
* Hiérarchie aplatie
* Conserver la hiérarchie
Non copyBehavior :


* FlattenHierarchy
* PreserveHierarchy
Taille des blocs (Mo) Taille du bloc en Mo utilisée pour écrire des données dans Lakehouse. Les valeurs autorisées sont comprises entre 4 et 100 Mo. <taille des blocs> Non blockSizeInMB
Métadonnées Définition des métadonnées personnalisées lors de la copie vers une destination. * $$LASTMODIFIED
* Expression
* Valeur statique
Non metadata