Partager via


Charger dans une table Delta Lake

Le Lakehouse dans Microsoft Fabric propose une fonctionnalité permettant de charger efficacement les types de fichiers courants dans une table Delta optimisée prête pour l’analytique. La fonctionnalité Charger dans une table permet aux utilisateurs de charger un seul fichier ou un dossier de fichiers dans une table. Cette fonctionnalité augmente la productivité des ingénieurs de données en leur permettant d’utiliser rapidement une action de clic droit pour permettre le chargement de table sur des fichiers et des dossiers. Le chargement dans la table est également une expérience sans code, ce qui réduit la barre d’entrée pour tous.

Présentation des fonctionnalités de chargement dans une table

Voici une liste des fonctionnalités que nous avons activées dans l’expérience intégrée de chargement de table afin d’offrir à nos utilisateurs une certaine flexibilité tout en augmentant leur productivité :

  • Types de fichiers pris en charge : cette fonctionnalité prend actuellement uniquement en charge le chargement des types de fichiers PARQUET ou CSV. Le cas d’extension de fichier n’a pas d’importance.

  • Chargement à fichier unique : les utilisateurs peuvent charger un seul fichier de leur choix dans l’un des formats pris en charge en sélectionnant « Charger dans la table delta » dans l’action du menu contextuel du fichier.

  • Chargement au niveau du dossier : vous pouvez charger tous les fichiers sous un dossier et ses sous-dossiers à la fois en sélectionnant « Charger dans la table delta » après avoir cliqué sur un dossier. Cette fonctionnalité permet de parcourir automatiquement tous les fichiers et de les charger dans une table Delta. Il est important de noter que seuls les fichiers du même type peuvent être chargés en même temps dans une table.

  • Charger sur une table nouvelle et existante : l’utilisateur peut choisir de charger ses fichiers et dossiers dans une nouvelle table ou une table existante de son choix. S'ils décident de charger une table existante, ils peuvent soit ajouter, soit écraser leurs données dans la table.

  • Option de fichier source CSV : pour les fichiers CSV, nous permettons à l’utilisateur de spécifier si son fichier source inclut des en-têtes qu’il souhaite utiliser comme noms de colonnes. Les utilisateurs peuvent également spécifier un séparateur de leur choix pour remplacer le séparateur de virgules par défaut en place.

  • Chargé en tant que tables Delta : les tables sont toujours chargées à l’aide du format de table Delta Lake avec l’optimisation V-Order activée.

    Gif de l'expérience globale de chargement du dossier à la table.

Remarque

Actuellement, vous ne pouvez pas spécifier le schéma de la table via l'interface utilisateur de Lakehouse ; vous devez utiliser un bloc-notes à cette fin.

Recommandations et règles de validation

La norme suivante s’applique à l’expérience Charger dans une table :

  • Les noms de table ne peuvent contenir que des caractères alphanumériques et des traits de soulignement. Il permet également toute lettre anglaise, majuscule ou minuscule et trait de soulignement (_), avec une longueur maximale de 256 caractères. Aucun tiret (-) ou caractère d’espace n’est autorisé.

  • Les fichiers texte sans en-têtes de colonne sont remplacés par la notation standard col# comme noms de colonnes de table.

  • Les noms de colonnes acceptent les lettres anglaises, les majuscules ou minuscules, le trait de soulignement (_) et les caractères dans une autre langue, comme le chinois en UTF, et peuvent comprendre jusqu’à 32 caractères. Les noms de colonnes sont validés pendant l’action de chargement. L’algorithme Charger vers Delta remplace les valeurs interdites par la barre inférieure (_). Si aucun nom de colonne approprié n’est obtenu pendant la validation, l’action de chargement échoue.

  • Pour les fichiers CSV, le séparateur ne peut pas être vide, ne peut pas être plus long que 8 caractères ou utiliser l’un des caractères suivants : (, ), [, ],{, }, apostrophe ('), guillemet double (") et espace blanc.