Options de configuration avancée dans Azure Synapse Link

Azure Synapse Link offre plusieurs façons d’écrire et de lire vos données pour s’adapter à divers scénarios analytiques.

Notes

Azure Synapse Link for Dataverse était auparavant connu sous le nom d’exportation vers le lac de données. Ce service a été renommé en mai 2021 et continuera d’exporter des données vers Azure Data Lake ainsi que vers Azure Synapse Analytics.

Cet article couvre :

  1. Mises à jour sur place et écritures avec ajout uniquement.
  2. Partitionnement des données spécifié par l’utilisateur.

Mises à jour sur place et écritures avec ajout uniquement

En écrivant les données de table Dataverse dans Azure Data Lake , en fonction de la valeur createdOn, qui correspond à la date et à l’heure de création de l’enregistrement, vous avez le choix entre deux paramètres différents. Il s’agit de Mise à jour sur place et Ajouter uniquement.

Le paramètre par défaut (pour les tables où createdOn est disponible) consiste à effectuer une mise à jour sur place ou une insertion (mise à jour ou insertion) des données incrémentielles dans la destination. Si la modification est nouvelle et qu’une ligne correspondante n’existe pas dans le lac, dans le cas d’une création, les fichiers de destination sont analysés et les modifications sont insérées dans la partition de fichier correspondante dans le lac. Si le changement est une mise à jour et qu’une ligne existe dans le lac, le fichier correspondant dans le lac est mis à jour, plutôt qu’inséré, avec les données incrémentielles. En d’autres termes, le paramètre par défaut pour tous les changements CUD dans les tables Dataverse, où createdOn est disponible, consiste à effectuer une mise à jour sur place dans la destination, dans Azure Data Lake.

Vous pouvez changer le comportement par défaut d’une mise à jour sur place à l’aide d’un paramètre facultatif appelé Ajouter uniquement. Plutôt qu’une Mise à jour sur place, en mode Ajouter uniquement, les données incrémentielles issues des tables Dataverse sont ajoutées à la partition de fichiers correspondante dans le lac. Il s’agit d’un paramètre par table et disponible sous forme de case à cocher sous Avancé > Afficher les paramètres de configuration avancés. Pour les tables Dataverse avec le paramètre Ajouter uniquement activé, toutes les modifications CUD sont ajoutées de manière incrémentielle aux fichiers de destination correspondants dans le lac. Lorsque vous choisissez cette option, la stratégie de partition est définie par défaut sur Année et lorsque les données sont écrites dans le lac de données, elles sont partitionnées par année. Ajouter uniquement est également le paramètre par défaut pour les tables Dataverse qui n’ont pas la valeur createdOn.

Le tableau ci-dessous décrit comment les lignes sont gérées dans le lac par rapport aux événements CUD pour chacune des options d’écriture de données.

Événement Mise à jour sur place Ajouter uniquement
Créer La ligne est insérée dans le fichier de partition et est basée sur la valeur createdOn sur la ligne. La ligne est ajoutée à la fin du fichier de partition et est basée sur la valeur de l’enregistrement createdOn.
Mise à jour Si la ligne existe dans le fichier de partition, elle est remplacée ou mise à jour avec des données mises à jour. Si elle n’existe pas, elle est insérée dans le fichier. La ligne, avec la version mise à jour, est ajoutée à la fin du fichier de partition.
Suppr Si la ligne existe dans le fichier de partition, elle est supprimée du fichier. La ligne est ajoutée à la fin du fichier de partition avec IsDelete column = True.

Notes

Pour les tables Dataverse où Ajouter seulement est activé, la suppression d’une ligne dans la source ne supprimera ni ne retirera la ligne dans le lac. Au lieu de cela, la ligne supprimée est ajoutée en tant que nouvelle ligne dans le lac et la colonne isDeleted est définie sur True.

La lecture modifiée (ALLOW_INCONSISTENT_READS) pour le mode sans serveur est activée pour le mode d’ajout uniquement. ALLOW_INCONSISTENT_READS signifie que l’utilisateur peut lire les fichiers qui peuvent être constamment modifiés pendant que la requête SELECT est en cours d’exécution. Les résultats sont cohérents et équivalents à la lecture d’un instantané du fichier. (Ce n’est pas équivalent à l’isolement d’instantané de base de données en raison du temps de génération d’instantané différent.)

Toutes les modifications CUD ne seront pas capturées dans append only : Synapse Link traite les modifications apportées aux données en groupes ou « lots » avant de les publier vers le lac de données. Par conséquent, si l’utilisateur apporte des modifications dans un court intervalle de temps, toutes les modifications CUD ne seront pas capturées dans le lac de données.

Voici quelques détails supplémentaires sur l’utilisation de l’une ou l’autre des options.

  • Mise à jour sur place : cette option est le paramètre par défaut et n’est recommandé que si vous souhaitez vous connecter directement aux données du lac et que vous avez besoin de l’état actuel (pas d’historique ou de modifications incrémentielles). Le fichier contient le jeu de données complet et peut être utilisé via Power BI ou en copiant l’intégralité des jeux de données pour les pipelines ETL (Extract, Transfer, Load).
  • Ajouter uniquement : Sélectionnez cette option si vous ne vous connectez pas directement aux données du lac et que vous souhaitez copier de manière incrémentielle des données vers une autre cible à l’aide de pipelines ETL. Cette option fournit un historique des modifications pour activer les scénarios AI et ML.

Vous pouvez basculer les Afficher les paramètres de configuration avancés en dessous de Avancés dans Azure Synapse Link for Dataverse pour personnaliser votre stratégie de partition de données et sélectionner des options pour écrire dans Azure Data Lake.

Afficher la configuration avancée.

Partitionnement des données

Quand vous écrivez des données de table Dataverse dans le stockage de lac de données Azure à l’aide de Azure Synapse Link, les tables sont partitionnées (au lieu d’un seul fichier) dans le lac en fonction de la valeur createdOn sur chaque ligne de la source. La stratégie de partition par défaut est mensuelle et les données sont partitionnées dans Azure Data Lake sur une base mensuelle.

Basé sur le volume de la table et la distribution des données Dataverse, vous pouvez choisir de partitionner vos données par année. Avec cette option, lorsque les données de la table Dataverse sont écrites dans Azure Data Lake, elles seront partitionnées chaque année en fonction de la valeur createdOn sur chaque ligne de la source. Pour les tables sans la colonne createdOn, les lignes de données sont partitionnées dans un nouveau fichier tous les cinq millions d’enregistrements. Il s’agit d’un paramètre par table et disponible sous forme de case à cocher sous Avancé > Afficher les paramètres de configuration avancés.

Détails supplémentaires avec des exemples de la façon dont les données sont gérées dans le lac avec une stratégie de partition annuelle ou mensuelle :

Stratégie de partition.

Voir aussi

Azure Synapse Link for Dataverse

Notes

Pouvez-vous nous indiquer vos préférences de langue pour la documentation ? Répondez à un court questionnaire. (veuillez noter que ce questionnaire est en anglais)

Le questionnaire vous prendra environ sept minutes. Aucune donnée personnelle n’est collectée (déclaration de confidentialité).