Partage via


Se connecter aux tables Delta dans Azure Data Lake Storage

Connectez-vous aux données des tables Delta et intégrez-les à Dynamics 365 Customer Insights - Data.

Delta est un terme introduit avec Delta Lake, la base de stockage des données et des tables dans la plateforme Databricks Lakehouse. Delta Lake désigne une couche de stockage open source qui apporte des transactions ACID (atomicité, cohérence, isolation et durabilité) aux charges de travail Big Data. Pour plus d’informations, consultez la page de documentation Delta Lake.

Principales raisons de se connecter aux données stockées au format Delta :

  • Importez directement des données au format Delta pour gagner du temps et des efforts.
  • Éliminez les coûts de calcul et de stockage associés à la transformation et au stockage d’une copie de vos données Lakehouse.
  • Améliorez automatiquement la fiabilité de l’ingestion de données dans Customer Insights - Data fournie par le contrôle de version Delta.

Conditions préalables

  • Le Azure Data Lake Storage doit se trouver dans le même locataire et la même région Azure que Customer Insights - Data.

  • Le principal de service Customer Insights - Data doit avoir les autorisations du collaborateur Storage Blob Data pour accéder au compte de stockage. Pour plus d’informations, voir Accorder des autorisations au principal du service pour accéder au compte de stockage.

  • L’utilisateur qui configure ou met à jour la source de données a besoin du minimum d’autorisations Lecteur Storage Blob Data sur le compte Azure Data Lake Storage.

  • Les données stockées dans des services en ligne peuvent être stockées dans un emplacement différent de celui où les données sont traitées ou stockées. En important ou en vous connectant aux données stockées dans des services en ligne, vous acceptez que les données puissent être transférées. En savoir plus dans le Centre de gestion de la confidentialité Microsoft.

  • Les tables Delta doivent se trouver dans un dossier du conteneur de stockage et ne peuvent pas se trouver dans le répertoire racine du conteneur. Par exemple :

    storageaccountcontainer/
        DeltaDataRoot/
           ADeltaTable/
                 _delta_log/
                     0000.json
                     0001.json
                 part-0001-snappy.parquet
                 part-0002-snappy.parquet
    
  • Les données de votre Azure Data Lake Storage doivent être des tables Delta. Customer Insights - Data s’appuie sur la propriété version dans l’historique de la table pour identifier les dernières modifications en vue d’un traitement incrémentiel.

Se connecter aux données Delta depuis Azure Data Lake Storage

  1. Accédez à Données>Sources de données.

  2. Sélectionnez Ajouter une source de données.

  3. Sélectionnez Tables Delta Azure Data Lake.

    Boîte de dialogue permettant de saisir les détails de connexion pour Data Lake.

  4. Entrez le nom de la source de données et une description facultative. Le nom est référencé dans les processus en aval et ne peut pas être modifié après la création de la source de données.

  5. Choisissez l’une des options suivantes pour Connecter votre stockage à l’aide de.

    • Abonnement Azure : Sélectionnez le compte Abonnement, puis le Groupe de ressources et le Compte de stockage.
    • Ressource Azure : Entrez l’ID de la ressource.
  6. Facultativement, si vous souhaitez ingérer des données à partir d’un compte de stockage via un lien privé Azure, sélectionnez Activer la liaison privée. Pour plus d’informations, consultez Liaisons privées.

  7. Choisissez le nom du Conteneur qui contient le dossier de vos données, et sélectionnez Suivant.

  8. Accédez au dossier contenant les données tables Delta et sélectionnez-le. Sélectionnez ensuite Suivant. La liste des tables disponibles s’affiche.

  9. Sélectionnez les tables que vous souhaitez inclure.

  10. Pour les tables sélectionnées où une clé primaire n’a pas été définie, Obligatoire s’affiche sous Clé primaire. Pour chacune de ces tables :

    1. Sélectionnez Obligatoire. Le panneau Modifier l’entité s’affiche.
    2. Choisissez la Clé primaire. La clé primaire est un attribut unique à la table. Pour qu’un attribut soit une clé primaire valide, il ne doit inclure aucune valeur en double, aucune valeur manquante, ni aucune valeur nulle. Les attributs de type de données chaîne, entier et GUID sont pris en charge en tant que clés primaires.
    3. Sélectionnez Fermer, puis enregistrez et fermez le volet.

    Boîte de dialogue indiquant Obligatoire pour la clé primaire

  11. Pour activer le profilage des données sur l’une des colonnes, sélectionnez le nombre de Colonnes pour la table. La page Gérer les attributs s’affiche.

    Boîte de dialogue pour sélectionner le profilage des données.

    1. Sélectionnez Profilage des données pour l’ensemble de la table ou pour des colonnes spécifiques. Par défaut, aucune table n’est activée pour le profilage des données.
    2. Cliquez sur Terminé.
  12. Sélectionnez Enregistrer. La page Source de données s’ouvre et affiche la nouvelle source de données avec le statut Actualisation en cours.

    Astuce

    Il existe des statuts pour les tâches et les processus. La plupart des processus dépendent d’autres processus en amont, tels que l’actualisation des sources de données et du profilage des données.

    Sélectionnez le statut pour ouvrir le volet Détails de la progression et afficher la progression des tâches. Pour annuler la tâche, sélectionnez Annuler la tâche en bas du volet.

    Sous chaque tâche, sélectionnez Afficher les détails pour plus d’informations sur l’avancement, telles que l’heure du traitement, la date du dernier traitement et les erreurs et avertissements applicables associés à la tâche ou au processus. Sélectionnez l’option Afficher le statut du système en bas du volet pour voir les autres processus du système.

Le chargement des données peut prendre du temps. Après une actualisation réussie, les données ingérées peuvent être consultées à partir de la page Tables.

Gérer les modifications du schéma

Lorsqu’une colonne est ajoutée ou supprimée du schéma d’une source de données des dossiers Delta, le système exécute une actualisation complète des données. Une actualisation complète nécessite plus de temps pour traiter toutes les données qu’une actualisation incrémentielle.

Ajouter une colonne

Lorsqu’une colonne est ajoutée au source de données, les informations s’ajoutent automatiquement aux données Customer Insights - Data une fois l’actualisation effectuée. Si vous avez déjà configuré l’unification de la table, la nouvelle colonne doit être ajoutée au processus d’unification.

  1. À partir de l’étape Données client, sélectionnez Sélectionner des tables et des colonnes et sélectionnez la nouvelle colonne.

  2. À l’étape Vue unifiée des données, assurez-vous que la colonne n’est pas exclue du profil client. Sélectionnez Exclu et lisez la colonne.

  3. À l’étape Exécuter des mises à jour du profil unifié, sélectionnez Unifier les profils client et les dépendances.

Modifier ou supprimer une colonne

Lorsqu’une colonne est supprimée d’un source de données, le système vérifie les dépendances dans d’autres processus. S’il existe une dépendance sur les colonnes, le système arrête l’actualisation et génère une erreur indiquant que les dépendances doivent être supprimées. Ces dépendances s’affichent dans une notification pour vous aider à les localiser et à les supprimer.

Valider un changement de schéma

Après l’actualisation de source de données, accédez à la page Données>Tables. Sélectionnez la table pour la source de données et vérifiez le schéma.

Le déplacement du temps Delta Lake et les données sont actualisés

Le déplacement du temps Delta Lake consiste en la capacité d’interroger les versions de table selon un horodatage ou un numéro de version. Les modifications apportées aux dossiers Delta sont versionnées et Customer Insights - Data utilise les versions du dossier Delta pour suivre les données à traiter. Lors d’une actualisation régulière de la table delta, les données sont extraites de toutes les versions de la table de données depuis la dernière actualisation. Tant que toutes les versions sont présentes, Customer Insights - Data peut traiter uniquement les éléments modifiés et fournir des résultats plus rapides. En savoir plus sur le déplacement du temps.

Par exemple, si Customer Insights – Données a été synchronisé pour la dernière fois avec la version 23 des données de votre dossier Delta, il s’attend à trouver la version 23 et éventuellement les versions ultérieures disponibles. Si les versions de données attendues ne sont pas disponibles, la synchronisation des données échoue et nécessite une actualisation manuelle complète des données. La synchronisation des données peut échouer si les données de votre dossier Delta ont été supprimées puis recréées. Ou si Customer Insights - Data ne parvient pas à se connecter à vos dossiers Delta pendant une période prolongée pendant que les versions progressent.

Pour éviter d’avoir besoin d’une actualisation complète des données, nous vous recommandons de maintenir un historique raisonnable, par exemple 15 jours.

Exécuter manuellement une actualisation complète des données sur un dossier de table Delta

Une actualisation complète prend toutes les données d’une table au format Delta et les recharge à partir de la version zéro (0) de la table Delta. Les modifications apportées au schéma du dossier Delta déclenchent une actualisation complète automatique. Pour déclencher manuellement une actualisation complète, effectuez les étapes suivantes.

  1. Accédez à Données>Sources de données.

  2. Sélectionnez la source de données Tables Delta Azure Data Lake.

  3. Sélectionnez la table que vous souhaitez actualiser. Le volet Modifier la table s’affiche.

    Volet Modifier la table pour sélectionner une actualisation complète unique.

  4. Sélectionnez Exécuter une actualisation complète unique.

  5. Sélectionnez Enregistrer pour exécuter l’actualisation. La page Sources de données s’ouvre et affiche la source de données avec le statut Actualisation en cours, mais seule la table sélectionnée est actualisée.

  6. Répétez le processus pour les autres tables, le cas échéant.

Échec de la synchronisation des données

La synchronisation des données peut échouer si les données de votre dossier Delta ont été supprimées puis recréées. Ou si Customer Insights - Data ne parvient pas à se connecter à vos dossiers Delta pendant une période prolongée pendant que les versions progressent. Pour réduire l’impact d’un échec intermittent du pipeline de données qui nécessite une actualisation complète, nous vous recommandons de maintenir un historique raisonnable, par exemple 15 jours.

Étapes suivantes