Partager via


Configurer Lakehouse dans une activité de copie

Cet article explique comment utiliser l’activité de copie dans un pipeline de données pour copier des données depuis et vers Fabric Lakehouse. Par défaut, les données sont écrites dans Lakehouse Table dans V-Order, et vous pouvez accéder à l’optimisation de la table Delta Lake et V-Order pour plus d’informations.

Format pris en charge

Lakehouse prend en charge les formats de fichier suivants. Reportez-vous à chaque article pour les paramètres basés sur le format.

Configuration prise en charge

Pour la configuration de chaque onglet sous l’activité de copie, accédez respectivement aux sections suivantes.

Général

Pour la configuration de l’onglet Général, accédez à Général.

Source

Les propriétés suivantes sont prises en charge pour Lakehouse sous l’onglet Source d’une activité de copie.

Capture d’écran montrant l’onglet source et la liste des propriétés.

Les propriétés suivantes sont requises :

  • Connexion : sélectionnez une connexion Lakehouse dans la liste des connexions. Si aucune connexion n’existe, créez une connexion Lakehouse en sélectionnant Plus au bas de la liste des connexions. Si vous utilisez Ajouter du contenu dynamique pour spécifier votre Lakehouse, ajoutez un paramètre et spécifiez l’ID d’objet Lakehouse comme valeur de paramètre. Pour obtenir votre ID d’objet Lakehouse, ouvrez votre Lakehouse dans votre espace de travail et l’ID se trouve après /lakehouses/dans votre URL.

    Capture d’écran montrant l’ID objet Lakehouse.

  • Dossier racine : sélectionnez Tables ou fichiers, qui indique la vue virtuelle de la zone gérée ou non managée dans votre lac. Pour plus d’informations, voir l’introduction de Lakehouse.

    • Si vous sélectionnez Tables :

      • Nom de la table : choisissez une table existante dans la liste de tables ou spécifiez un nom de table comme source. Vous pouvez également sélectionner Nouveau pour créer une table.

        Capture d’écran montrant le nom de table.

      • Table : lorsque vous appliquez Lakehouse avec des schémas dans la connexion, choisissez une table existante avec un schéma dans la liste de tables ou spécifiez une table avec un schéma comme source. Vous pouvez également sélectionner Nouveau pour créer une table avec un schéma. Si vous ne spécifiez pas de nom de schéma, le service utilise dbo comme schéma par défaut.

        Capture d’écran montrant le nom de la table avec le schéma.

      • Sous Avancé, vous pouvez spécifier les champs suivants :

        • Horodatage : spécifiez pour interroger un instantané plus ancien par horodatage.
        • Version : spécifiez pour interroger une ancienne instantané par version.
        • Colonnes supplémentaires : ajoutez des colonnes de données supplémentaires au chemin d’accès relatif ou à la valeur statique des fichiers sources du magasin. L’expression est prise en charge pour ce dernier.

      Reader version 1 est pris en charge. Vous trouverez les fonctionnalités Delta Lake correspondantes prises en charge dans cet article.

    • Si vous sélectionnez Fichiers :

      • Type de chemin d’accès de fichier : vous pouvez choisir Chemin d’accès au fichier, Chemin d’accès au fichier générique ou Liste des fichiers comme type de chemin d’accès de fichier. La liste suivante décrit la configuration de chaque paramètre :

        Capture d’écran montrant le chemin d’accès d’un fichier.

        • Chemin du fichier : sélectionnez Parcourir pour choisir le fichier que vous souhaitez copier, ou renseignez-le manuellement.

        • Chemin d’accès au fichier générique : spécifiez le chemin d’accès au dossier ou au fichier avec des caractères génériques sous votre zone Lakehouse non managée donnée (sous Fichiers) pour filtrer vos dossiers ou fichiers sources. Les caractères génériques autorisés sont les suivants : * (correspond à zéro caractère ou plusieurs) et ? (correspond à zéro ou un caractère). Utilisez ^ comme caractère d’échappement si le nom de votre fichier ou dossier contient des caractères génériques ou ce caractère d’échappement.

          • Chemin d’accès au dossier caractère générique : Chemin d’accès au dossier sous le conteneur donné. Si vous souhaitez utiliser un joker pour filtrer le dossier, ignorez ce paramètre et spécifiez cette information dans les paramètres de la source d’activité.

          • Nom de fichier générique : nom de fichier sous la zone non managée Lakehouse donnée (sous Fichiers) et le chemin d’accès au dossier.

            Capture d’écran montrant le chemin d’accès d’un fichier caractère générique.

        • Liste des fichiers : Indique qu’il faut copier un ensemble de fichiers donné.

          • Chemin d’accès au dossier : pointe vers un dossier qui inclut les fichiers que vous souhaitez copier.
          • Chemin d’accès à la liste des fichiers  : Pointez vers un fichier texte contenant la liste des fichiers que vous voulez copier, un fichier par ligne indiquant le chemin relatif configuré dans le jeu de données.

          Capture d’écran montrant le chemin d’accès à la liste des fichiers.

      • De manière récursive : Indique si les données sont lues de manière récursive à partir des sous-dossiers ou uniquement du dossier spécifié. Si cette option est activée, tous les fichiers du dossier d’entrée et de ses sous-dossiers sont traités de manière récursive. Cette propriété ne s’applique pas lorsque vous configurez votre type de chemin d’accès de fichier en tant que Liste de fichiers.

      • Format de fichier : sélectionnez votre format de fichier dans la liste déroulante. Sélectionnez le bouton Paramètres pour configurer le format de fichier. Pour connaître les paramètres des différents formats de fichier, reportez-vous aux articles de Format pris en charge pour plus d’informations.

      • Sous Avancé, vous pouvez spécifier les champs suivants :

        • Filtrer par dernière modification : les fichiers sont filtrés en fonction des dates de dernière modification. Cette propriété ne s’applique pas lorsque vous configurez votre type de chemin d’accès de fichier en tant que Liste de fichiers.
          • Heure de début : Les fichiers sont sélectionnés si leur dernière heure de modification est supérieure ou égale à l’heure configurée.
          • Heure de fin : les fichiers sont sélectionnés si leur heure de dernière modification est inférieure à l’heure configurée.
        • Activer la découverte des partitions : Pour les fichiers partitionnés, spécifiez s’il faut analyser les partitions à partir du chemin d’accès au fichier et les ajouter en tant que colonnes sources supplémentaires.
          • Chemin d’accès à la racine de la partition  : Lorsque la découverte de partition est activée, spécifiez le chemin racine absolu pour pouvoir lire les dossiers partitionnés en tant que colonnes de données.
        • Nombre maximal de connexions simultanées : indique la limite supérieure de connexions simultanées établies au magasin de données pendant l’exécution de l’activité. Spécifiez une valeur uniquement lorsque vous souhaitez limiter les connexions simultanées.

Destination

Les propriétés suivantes sont prises en charge pour Lakehouse sous l’onglet Destination d’une activité de copie.

Capture d’écran montrant l’onglet de destination.

Les propriétés suivantes sont requises :

  • Connexion : sélectionnez une connexion Lakehouse dans la liste des connexions. Si aucune connexion n’existe, créez une connexion Lakehouse en sélectionnant Plus au bas de la liste des connexions. Si vous utilisez Ajouter du contenu dynamique pour spécifier votre Lakehouse, ajoutez un paramètre et spécifiez l’ID d’objet Lakehouse comme valeur de paramètre. Pour obtenir votre ID d’objet Lakehouse, ouvrez votre Lakehouse dans votre espace de travail et l’ID se trouve après /lakehouses/dans votre URL.

    Capture d’écran montrant l’ID objet Lakehouse.

  • Dossier racine : sélectionnez Tables ou fichiers, qui indique la vue virtuelle de la zone gérée ou non managée dans votre lac. Pour plus d’informations, voir l’introduction de Lakehouse.

    • Si vous sélectionnez Tables :

      • Nom de la table : choisissez une table existante dans la liste de tables ou spécifiez un nom de table comme destination. Vous pouvez également sélectionner Nouveau pour créer une table.

        Capture d’écran montrant le nom de table.

      • Table : lorsque vous appliquez Lakehouse avec des schémas dans la connexion, choisissez une table existante avec un schéma dans la liste de tables ou spécifiez une table avec un schéma comme destination. Vous pouvez également sélectionner Nouveau pour créer une table avec un schéma. Si vous ne spécifiez pas de nom de schéma, le service utilise dbo comme schéma par défaut.

        Capture d’écran montrant le nom de la table avec le schéma.

      • Sous Avancé, vous pouvez spécifier les champs suivants :

        • Actions de table : spécifiez l’opération par rapport à la table sélectionnée.

          • Ajouter : ajoutez de nouvelles valeurs à une table existante.

            • Activer la partition : cette sélection vous permet de créer des partitions dans une structure de dossiers basée sur une ou plusieurs colonnes. Chaque valeur de colonne distincte (paire) est une nouvelle partition. Par exemple, « year=2000/month=01/file ».
              • Nom de colonne de partitionnement : sélectionnez les colonnes de destination dans la mise en correspondance des schémas lorsque vous ajoutez des données à une nouvelle table. Lorsque vous ajoutez des données à une table existante qui a déjà des partitions, les colonnes de partitionnement sont dérivées automatiquement de la table existante. Les types de données pris en charge sont chaîne, entier, booléen et DateHeure. Le format respecte les paramètres de conversion de type sous l’onglet Mappage.
          • Remplacer : remplacer les données et le schéma existants dans la table avec les nouvelles valeurs. Si cette opération est sélectionnée, vous pouvez activer la partition sur votre table cible :

            • Activer la partition : cette sélection vous permet de créer des partitions dans une structure de dossiers basée sur une ou plusieurs colonnes. Chaque valeur de colonne distincte (paire) est une nouvelle partition. Par exemple, « year=2000/month=01/file ».
              • Nom de la colonne de partition : sélectionnez parmi les colonnes de destination dans le mappage de schémas. Les types de données pris en charge sont chaîne, entier, booléen et DateHeure. Le format respecte les paramètres de conversion de type sous l’onglet Mappage.

            Il prend en charge le voyage dans le temps Delta Lake. La table remplacée contient des journaux delta pour les versions précédentes ; vous pouvez y accéder dans votre Lakehouse. Vous pouvez également copier la table de la version précédente à partir de Lakehouse, en spécifiant Version dans la source d’activité de copie.

        • Nombre maximal de connexions simultanées : la limite supérieure de connexions simultanées établies au magasin de données pendant l’exécution de l’activité. Spécifiez une valeur uniquement lorsque vous souhaitez limiter les connexions simultanées.

      Writer version 2 est pris en charge. Vous trouverez les fonctionnalités Delta Lake correspondantes prises en charge dans cet article.

    • Si vous sélectionnez Fichiers :

      • Chemin du fichier : sélectionnez Parcourir pour choisir le fichier que vous souhaitez copier, ou renseignez-le manuellement.

        Capture d’écran montrant le chemin d’accès dans la destination.

      • Format de fichier : sélectionnez votre format de fichier dans la liste déroulante. Sélectionnez Paramètres pour configurer le format de fichier. Pour connaître les paramètres des différents formats de fichier, reportez-vous aux articles de Format pris en charge pour plus d’informations.

      • Sous Avancé, vous pouvez spécifier les champs suivants :

        • Comportement de copie :Définit le comportement de copie lorsque la source est constituée de fichiers d’une banque de données basée sur un fichier. Vous pouvez choisir d’aplatir la hiérarchie, de fusionner les fichiers, de préserver la hiérarchie ou d’ajouter du contenu dynamique comme comportement de copie. La configuration de chaque paramètre est la suivante :

          • - FlattenHierarchy : tous les fichiers du dossier source figurent dans le premier niveau du dossier de destination. Les noms des fichiers de destination sont générés automatiquement.

          • Fusionner des fichiers : fusionne tous les fichiers du dossier source dans un seul fichier. Si le nom de fichier est spécifié, le nom de fichier fusionné est le nom spécifié. Sinon, le nom du fichier sera généré automatiquement.

          • Conserver la hiérarchie : conserve la hiérarchie des fichiers dans le dossier cible. Le chemin relatif du fichier source vers un dossier source est identique au chemin relatif du fichier cible vers un dossier cible.

          • Ajouter du contenu dynamique : pour spécifier une expression pour une valeur de propriété, sélectionnez Ajouter du contenu dynamique. Ce champ ouvre le Générateur d’expressions, où vous pouvez générer des expressions à partir des variables système prises en charge, de la sortie de l’activité, des fonctions et des variables ou paramètres spécifiés par l’utilisateur. Pour plus d’informations sur le langage d’expression, accédez à Expressions et fonctions.

            Capture d’écran montrant le comportement de la copie.

        • Nombre maximal de connexions simultanées : la limite supérieure de connexions simultanées établies au magasin de données pendant l’exécution de l’activité. Spécifiez une valeur uniquement lorsque vous souhaitez limiter les connexions simultanées.

        • Taille de bloc (Mo) : spécifiez la taille de bloc en Mo lors de l’écriture de données dans Lakehouse. Les valeurs autorisées sont comprises entre 4 et 100 Mo.

        • Métadonnées : définissez des métadonnées personnalisées lors de la copie vers le magasin de données de destination. Chaque objet sous le tableau metadata représente une colonne supplémentaire. name définit le nom de clé de métadonnées et value indique la valeur des données de cette clé. Si la fonctionnalité de conservation des attributs est utilisée, les métadonnées spécifiées vont s’unir/remplacer les métadonnées du fichier source. Les valeurs de données autorisées sont :

          • $$LASTMODIFIED : une variable réservée indique de stocker l’heure de la dernière modification des fichiers sources. Appliquez à une source basée sur un fichier uniquement avec le format binaire.

          • Expression

          • Valeur statique

            Capture d’écran affichant des métadonnées.

Mappage

Pour la configuration de l’onglet Mappage, si vous n’appliquez pas la table Lakehouse comme magasin de données de destination, accédez à Mappage.

Si vous appliquez la table Lakehouse comme magasin de données de destination, à l’exception de la configuration dans Mappage, vous pouvez modifier le type de vos colonnes de destination. Après avoir sélectionné Importer des schémas, vous pouvez spécifier le type de colonne dans votre destination.

Par exemple, le type de colonne PersonID dans la source est int, et vous pouvez le remplacer par le type string lors du mappage à la colonne de destination.

Capture d’écran du type de colonne de destination de mappage.

Notes

La modification du type de destination n’est actuellement pas prise en charge lorsque votre source est de type décimal.

Si vous choisissez Binaire comme format de fichier, le mappage n’est pas pris en charge.

Paramètres

Pour la configuration de l’onglet Paramètres, accédez à Paramètres.

Résumé de la table

Les tableaux suivants contiennent plus d’informations sur une activité de copie dans Lakehouse.

Informations sur la source

Nom Description Valeur Obligatoire Propriété de script JSON
Connection La section pour sélectionner votre connexion. < votre connexion Lakehouse> Oui workspaceId
artifactId
Dossier racine Type du dossier racine. Tables
Fichiers
Non rootFolder :
Table ou Fichiers
Nom de la table Le nom de la table dont vous voulez lire les données. <nom de votre table> Oui lorsque vous sélectionnez Tables dans le dossier racine table
Enregistrement Nom de la table avec un schéma que vous souhaitez lire lorsque vous appliquez Lakehouse avec des schémas comme connexion. <votre table avec un schéma> Oui lorsque vous sélectionnez Tables dans le dossier racine /
Pour les Tables
nom de schéma Nom du schéma. <nom de votre schéma>
(la valeur par défaut est dbo)
Non (sous source ->datasetSettings ->typeProperties)
schéma
nom de la table Nom de la table. <nom de votre table> Oui table
Timestamp Horodatage pour interroger un instantané plus ancien. <timestamp> Non timestampAsOf
Version Version permettant d’interroger un instantané plus ancien. <version> Non versionAsOf
Colonnes supplémentaires Colonnes de données supplémentaires pour stocker le chemin d’accès relatif ou la valeur statique des fichiers sources. L’expression est prise en charge pour ce dernier. • Nom
• Valeur
Non additionalColumns :
• nom
• valeur
Type de chemin d’accès au fichier Type du chemin d’accès au fichier que vous utilisez. Chemin d’accès au fichier
Chemin d’accès au fichier générique
Liste de fichiers
Oui lorsque vous sélectionnez Fichiers dans le dossier racine /
Chemin de fichier Copiez à partir du chemin d’accès à un dossier/fichier sous le magasin de données source. <file path> Oui lorsque vous choisissez Chemin d’accès au fichier • folderPath
• fileName
Chemins avec des caractères génériques Chemin du dossier avec des caractères génériques sous le magasin de données source configuré pour filtrer les dossiers sources. <chemins avec des caractères génériques> Oui lorsque vous choisissez le chemin d’accès au fichier générique • wildcardFolderPath
• wildcardFileName
Chemin d’accès du dossier Pointe vers un dossier qui inclut les fichiers que vous souhaitez copier. <chemin d’accès du dossier> Non folderPath
Chemin d’accès à la liste des fichiers Indique de copier un ensemble de fichiers donné. Pointez vers un fichier texte contenant la liste des fichiers que vous voulez copier, un fichier par ligne indiquant le chemin relatif configuré. <chemin d’accès à la liste des fichiers> Non fileListPath
Recursively Traitez tous les fichiers du dossier d’entrée et de ses sous-dossiers de manière récursive ou uniquement ceux du dossier sélectionné. Ce paramètre est désactivé lorsqu’un seul fichier est sélectionné. sélectionner ou désélectionner Non récursive :
True ou False
Format de fichier Format de fichier pour vos données sources. Pour plus d’informations sur les différents formats de fichier, reportez-vous aux articles de Format pris en charge. / Oui lorsque vous sélectionnez Fichiers dans le dossier racine /
Filtrer par date de dernière modification Les fichiers dont l’heure de la dernière modification se trouve dans la plage [Heure de début, Heure de fin) seront filtrés pour un traitement ultérieur.

L’heure est appliquée au fuseau horaire UTC au format yyyy-mm-ddThh:mm:ss.fffZ.

Cette propriété peut être ignorée, ce qui signifie qu’aucun filtre d’attribut de fichier n’est appliqué. Cette propriété ne s’applique pas lorsque vous configurez votre type de chemin d’accès de fichier en tant que Liste de fichiers.
Heure de début
Heure de fin
Non modifiedDatetimeStart
modifiedDatetimeEnd
Activer la découverte de partition Indique s’il faut analyser les partitions à partir du chemin d’accès au fichier et les ajouter en tant que colonnes source supplémentaires. Sélectionné ou non sélectionné Non enablePartitionDiscovery :
true ou false (par défaut)
Chemin racine de la partition Chemin d’accès racine de la partition absolue pour lire les dossiers partitionnés sous forme de colonnes de données. <chemin racine de votre partition> Non partitionRootPath
Connexions simultanées maximales La limite supérieure de connexions simultanées établies au magasin de données pendant l’exécution de l’activité. Une valeur est uniquement nécessaire lorsque vous souhaitez limiter les connexions simultanées. <connexions simultanées maximales> Non maxConcurrentConnections

Informations de destination

Nom Description Valeur Obligatoire Propriété de script JSON
Connection La section pour sélectionner votre connexion. < votre connexion Lakehouse> Oui workspaceId
artifactId
Dossier racine Type du dossier racine. Tables
Fichiers
Oui rootFolder :
Table ou Fichiers
Nom de la table Le nom de la table dans laquelle vous souhaitez écrire des données. <nom de votre table> Oui lorsque vous sélectionnez Tables dans le dossier racine table
Enregistrement Nom de la table avec un schéma que vous souhaitez écrire lorsque vous appliquez Lakehouse avec des schémas comme connexion. <votre table avec un schéma> Oui lorsque vous sélectionnez Tables dans le dossier racine /
Pour les Tables
nom de schéma Nom du schéma. <nom de votre schéma>
(la valeur par défaut est dbo)
Non (sous sink ->datasetSettings ->typeProperties)
schéma
nom de la table Nom de la table. <nom de votre table> Oui table
Action table Ajoutez de nouvelles valeurs à une table existante ou remplacez les données et le schéma existants dans la table à l’aide des nouvelles valeurs. Ajouter
Remplacer
Non tableActionOption :
Ajouter ou remplacer le schéma
Activer les partitions Cette sélection vous permet de créer des partitions dans une structure de dossiers basée sur une ou plusieurs colonnes. Chaque valeur de colonne distincte (paire) est une nouvelle partition. Par exemple, « year=2000/month=01/file ». Sélectionné ou non sélectionné Non partitionOption :
PartitionByKey ou Aucune
Colonnes de partition Les colonnes de destination dans le mappage des schémas. <vos colonnes de partition> Non partitionNameList
Chemin de fichier Écrivez des données dans le chemin d’accès à un dossier/fichier sous le magasin de données de destination. <file path> Non • folderPath
• fileName
Format de fichier Format de fichier pour vos données de destination. Pour plus d’informations sur les différents formats de fichier, reportez-vous aux articles de Format pris en charge. / Oui lorsque vous sélectionnez Fichiers dans le dossier racine /
Comportement de copie Le comportement de copie définit lorsque la source est constituée de fichiers d’une banque de données basée sur un fichier. Aplatir la hiérarchie
Fusionner des fichiers
Conserver la hiérarchie
Ajouter du contenu dynamique
Non copyBehavior :
• FlattenHierarchy
• MergeFiles
• PreserveHierarchy
Connexions simultanées maximales La limite supérieure de connexions simultanées établies au magasin de données pendant l’exécution de l’activité. Spécifiez une valeur uniquement lorsque vous souhaitez limiter les connexions simultanées. <connexions simultanées maximales> Non maxConcurrentConnections
Taille des blocs (Mo) Taille du bloc en Mo utilisée pour écrire des données dans Lakehouse. Les valeurs autorisées sont comprises entre 4 et 100 Mo. <taille des blocs> Non blockSizeInMB
Métadonnées Définition des métadonnées personnalisées lors de la copie vers une destination. $$LASTMODIFIED
• Expression
• Valeur statique
Non metadata