Partager via


Capturer des changements de données avec une évolution de schéma depuis Azure SQL Database vers un récepteur Delta à l’aide d’une ressource de capture des changements de données

S’APPLIQUE À : Azure Data Factory Azure Synapse Analytics

Conseil

Essayez Data Factory dans Microsoft Fabric, une solution d’analyse tout-en-un pour les entreprises. Microsoft Fabric couvre tous les aspects, du déplacement des données à la science des données, en passant par l’analyse en temps réel, l’aide à la décision et la création de rapports. Découvrez comment démarrer un nouvel essai gratuitement !

Dans cet article, vous utilisez l’interface utilisateur Azure Data Factory pour créer une ressource de capture des changements de données (CDC). La ressource récupère les données modifiées d’une source Azure SQL Database et les ajoute à Delta Lake dans Azure Data Lake Storage Gen2 en temps réel. Cette activité présente la prise en charge de l’évolution de schéma à l’aide d’une ressource CDC entre la source et le récepteur.

Dans cet article, vous apprendrez comment :

  • Créez une ressource CDC.
  • Apportez des modifications dynamiques au schéma de la table source.
  • Validez les modifications de schéma sur le récepteur Delta cible.

Vous pouvez modifier et développer le modèle de configuration présenté dans cet article.

Prérequis

Avant de démarrer les procédures décrites dans cet article, vérifiez que vous disposez de ces ressources :

  • Abonnement Azure. Si vous n’avez pas encore d’abonnement Azure, créez un compte Azure gratuit.
  • Base de données SQL. Vous utilisez une instance Azure SQL Database comme magasin de données source. Si vous n’avez pas de base de données SQL, créez-en une dans le portail Azure.
  • Compte de stockage. Vous utilisez Delta Lake stocké dans Azure Data Lake Storage Gen2 comme magasin de données cible. Si vous ne possédez pas de compte de stockage, consultez l’article Créer un compte de stockage pour découvrir comment en créer un.

Créer un artefact CDC

  1. Accédez au volet Auteur dans votre fabrique de données. Sous Pipelines, un nouvel artefact de niveau supérieur s’affiche, appelé Capture des changements de données (préversion).

    Screenshot of a new top-level artifact for change data capture on the Factory Resources pane.

  2. Pointez sur Capture des changements de données (préversion) jusqu’à ce que trois points apparaissent. Sélectionnez ensuite Actions de capture des changements de données (préversion).

    Screenshot of the button for change data capture actions appearing over the new top-level artifact.

  3. Sélectionnez Nouvelle capture des changements de données (préversion). Cette étape ouvre un menu volant permettant de démarrer le processus guidé.

    Screenshot of a list of change data capture actions.

  4. Vous êtes invité à nommer votre ressource CDC. Par défaut, le nom est « adfcdc » avec un nombre incrémenté de 1. Vous pouvez remplacer ce nom par défaut par un nom de votre choix.

    Screenshot of the text box to update the name of a resource.

  5. Utilisez la liste déroulante pour choisir votre source de données. Pour cet article, sélectionnez Azure SQL Database.

    Screenshot of the guided process flyout with source options in a dropdown list.

  6. Vous êtes invité à sélectionner un service lié. Créez un service lié ou sélectionnez-en un existant.

    Screenshot of the box to choose or create a linked service.

  7. Après avoir sélectionné un service lié, vous êtes invité à sélectionner les tables sources. Utilisez les cases à cocher pour sélectionner les tables sources, puis sélectionnez la valeur Colonne incrémentielle à l’aide de la liste déroulante.

    Screenshot that shows selection of a source table and an incremental column.

    Le volet répertorie uniquement les tables contenant des types de données de colonnes incrémentielles pris en charge.

    Remarque

    Pour activer la CDC avec l’évolution de schéma dans une source Azure SQL Database, choisissez des tables basées sur des colonnes en filigrane plutôt que sur des tables activées pour la CDC SQL native.

  8. Après avoir sélectionné les tables sources, sélectionnez Continuer pour définir votre cible de données.

    Screenshot of the Continue button in the guided process to select a data target.

  9. Sélectionnez une valeur de Type cible à l’aide de la liste déroulante. Pour cet article, sélectionnez Delta.

    Screenshot of a dropdown menu of all data target types.

  10. Vous êtes invité à sélectionner un service lié. Créez un service lié ou sélectionnez-en un existant.

    Screenshot of the box to choose or create a linked service to your data target.

  11. Sélectionnez votre dossier de données cible. Vous pouvez utiliser au choix :

    • Le bouton Parcourir sous Chemin d’accès de base cible, qui vous permet de remplir automatiquement le chemin d’accès de navigation pour toutes les nouvelles tables sélectionnées pour une source.
    • Le bouton Parcourir à l’extérieur pour sélectionner individuellement le chemin du dossier.

    Screenshot of a folder icon to browse for a folder path.

  12. Après avoir sélectionné le chemin d’accès d’un dossier, sélectionnez le bouton Continuer.

    Screenshot of the Continue button in the guided process to proceed to the next step.

  13. Un nouvel onglet de capture des changements de données s’affiche. Cet onglet est le studio CDC, où vous pouvez configurer votre nouvelle ressource.

    Screenshot of the change data capture studio.

    Un mappage est créé automatiquement pour vous. Vous pouvez mettre à jour les sélections Table source et Table cible de votre mappage à l’aide de listes déroulantes.

    Screenshot of the source-to-target mapping in the change data capture studio.

  14. Après avoir sélectionné vos tables, leurs colonnes sont mappées par défaut avec le bouton bascule Mappage automatique activé. Cette fonction mappe automatiquement les colonnes par nom dans le récepteur, récupère les nouvelles modifications de colonne lorsque le schéma source évolue et transmet ces informations aux types de récepteurs pris en charge.

    Screenshot of the toggle for automatic mapping turned on.

    Remarque

    L’évolution de schéma fonctionne uniquement lorsque le bouton Mappage automatique est activé. Pour savoir comment modifier des mappages de colonnes ou inclure des transformations, consultez Capturer des données modifiées avec une ressource de capture des changements de données.

  15. Cliquez sur le lien Clés, puis sélectionner la colonne Clés à utiliser pour suivre les opérations de suppression.

    Screenshot of the link to enable Keys column selection.

    Screenshot of selecting a Keys column for the selected source.

  16. Après avoir réalisé vos mappages, définissez la latence CDC à l’aide du bouton Définir la latence.

    Screenshot of the Set Latency button at the top of the canvas.

  17. Sélectionnez la latence de votre CDC, puis sélectionnez Appliquer pour apporter les modifications.

    Par défaut, la latence est définie sur 15 minutes. L’exemple de cet article utilise l’option Temps réel pour la latence. La latence en temps réel récupère en continu les modifications de vos données sources selon un intervalle inférieur à 1 minute.

    Pour d’autres latences (par exemple, si vous sélectionnez 15 minutes), votre capture des changements de données traitera vos données sources et récupérera toutes les données modifiées depuis le dernier traitement effectué.

    Screenshot of the options for setting latency.

  18. Après avoir terminé la configuration de votre CDC, sélectionnez Publier tout pour publier vos modifications.

    Screenshot of the publish button at the top of the canvas.

    Remarque

    Si vous ne publiez pas vos modifications, vous ne pourrez pas démarrer votre ressource CDC. Le bouton Démarrer de l’étape suivante ne sera pas disponible.

  19. Sélectionnez Démarrer pour lancer l’exécution de votre capture des changements de données.

    Screenshot of the Start button at the top of the canvas.

Maintenant que votre capture des changements de données est en cours d’exécution, vous pouvez :

  • Utilisez la page de surveillance pour voir le nombre de modifications (insertions, mises à jour ou suppressions) lues et écrites, ainsi que d’autres informations de diagnostic.

    Screenshot of the monitoring page of a selected change data capture.

    Screenshot of the monitoring page of a selected change data capture with a detailed view.

  • Vérifiez que les données modifiées sont arrivées dans Delta Lake stocké dans Azure Data Lake Storage Gen2, au format Delta.

    Screenshot of a target Delta folder.

  • Vérifiez le schéma des données modifiées qui sont arrivées.

    Screenshot of a Delta file.

Apporter des modifications dynamiques au niveau du schéma aux tables sources

  1. Ajoutez une colonne PersonalEmail à la table source à l’aide d’une instruction T-SQL ALTER TABLE, comme illustré dans l’exemple suivant.

    Screenshot of the ALTER command in Azure Data Studio.

  2. Vérifiez que la nouvelle colonne PersonalEmail apparaît dans la table existante.

    Screenshot of a new table design with a column added for personal email.

Valider les modifications de schéma sur le récepteur Delta

Vérifiez que la nouvelle colonne PersonalEmail s’affiche dans le récepteur Delta. Vous savez maintenant que les données modifiées avec les modifications de schéma sont arrivées à la cible.

Screenshot of a Delta file with a schema change.