Partager via


Options de configuration avancées dans Azure Synapse Link

Azure Synapse Link offre plusieurs façons d’écrire et de lire vos données pour répondre à différents scénarios analytiques. En fonction de votre scénario analytique, vous pouvez choisir une configuration spécifique parmi les options ci-dessous.

Scénario S’applique à Options de configuration disponibles
Reporting opérationnel Tables Dataverse, tables de finance et d'opérations et entités Synapse Analytics avec l’option Delta Lake offre de meilleurs temps de réponse aux requêtes, en particulier pour interroger de grandes quantités de données. Plus d’informations : Synapse Link avec l’option Delta Lake
Reporting opérationnel Tables Dataverse uniquement Synapse Link avec l’option de configuration « Mise à jour sur place » fournit des fichiers CSV dans votre lac de données mis à jour en quasi-temps réel

Il s’agit d’une option héritée disponible pour les tables Dataverse. Cette option n’est pas prise en charge pour les tables des applications de finances et d’opérations
Intégration de données Tables Dataverse, tables de finance et d’opérations et entités L’option Ajouter uniquement fournit des fichiers CSV contenant des données incrémentielles. Vous pouvez créer des pipelines qui consomment des données incrémentielles et alimentent les systèmes en aval

La fonctionnalité Partition de données spécifiée par l'utilisateur permet de choisir une stratégie de partitionnement de données personnalisée spécialement pour les tables Dataverse. Les données des tables de finances et d’opérations sont partitionnées par le système en fonction de la stratégie de partition appropriée. Cette option n’est pas disponible pour les applications de finances et d’opérations

Note

Azure Synapse Link for Dataverse était précédemment appelé exportation vers un lac de données. Le service a été renommé en mai 2021 et continuera d’exporter des données vers Azure Data Lake Storage ainsi que Azure Synapse Analytics. À compter du septembre 2023, Azure Synapse Link vous permet également de choisir des données dans Dynamics 365 applications financières et opérationnelles. Tous les modèles d’intégration ne sont pas pris en charge avec les applications de finances et d’opérations. Pour obtenir des conseils sur la transition de l’exportation vers la fonctionnalité data lake dans les applications financières et opérationnelles vers Synapse Link, accédez au guide Transition.

Cet article couvre les paramètres de configuration avancés disponibles pour les tables Dataverse. Ces options ne sont pas disponibles pour les applications de finances et d’opérations.

  1. Mises à jour sur place et écritures avec ajout uniquement.
  2. Partitionnement des données spécifié par l’utilisateur.

Mises à jour sur place et écritures avec ajout uniquement

Lors de l’écriture de données de table Dataverse dans le lac de données Azure, en fonction de la valeur createdOn, qui est la date et l’heure de création de l’enregistrement, il existe deux paramètres différents à choisir. Il s’agit de Mise à jour sur place et Ajouter uniquement.

Le paramètre par défaut (pour les tables où createdOn est disponible) consiste à effectuer une mise à jour ou une insertion des données incrémentielles directement dans la destination. Si la modification est nouvelle et qu’une ligne correspondante n’existe pas dans le lac, dans le cas d’une création, les fichiers de destination sont analysés et les modifications sont insérées dans la partition de fichier correspondante dans le lac. Si le changement est une mise à jour et qu’une ligne existe dans le lac, le fichier correspondant dans le lac est mis à jour, plutôt qu’inséré, avec les données incrémentielles. En d'autres termes, le paramètre par défaut pour toutes les modifications CUD (créer, mettre à jour, supprimer) dans les tables Dataverse, où createdOn est disponible, consiste à effectuer une mise à jour en place dans la destination, dans Azure Data Lake.

Vous pouvez changer le comportement par défaut d’une mise à jour sur place à l’aide d’un paramètre facultatif appelé Ajouter uniquement. Plutôt qu’une Mise à jour sur place, en mode Ajouter uniquement, les données incrémentielles issues des tables Dataverse sont ajoutées à la partition de fichiers correspondante dans le lac. Il s’agit d’un paramètre par table et disponible sous forme de case à cocher sous Avancé>Afficher les paramètres de configuration avancés. Pour les tables Dataverse avec le paramètre Ajouter uniquement activé, toutes les modifications CUD sont ajoutées de manière incrémentielle aux fichiers de destination correspondants dans le lac. Lorsque vous choisissez cette option, la stratégie de partition est définie par défaut sur Année et lorsque les données sont écrites dans le lac de données, elles sont partitionnées par année. Ajouter uniquement est également le paramètre par défaut pour les tables Dataverse qui n’ont pas la valeur createdOn.

Ce tableau décrit comment les lignes sont gérées dans le lac par rapport aux événements CUD pour chacune des options d’écriture de données.

Événement Mise à jour in situ Ajouter uniquement
Créer La ligne est insérée dans le fichier de partition et est basée sur la valeur createdOn de la ligne. La ligne est ajoutée à la fin du fichier de partition et est basée sur la valeur de l’enregistrement createdOn.
Mise à jour Si la ligne existe dans le fichier de partition, elle est remplacée ou mise à jour avec des données mises à jour. Si elle n’existe pas, elle est insérée dans le fichier. La ligne, avec la version mise à jour, est ajoutée à la fin du fichier de partition.
Supprimer Si la ligne existe dans le fichier de partition, elle est supprimée du fichier. La ligne est ajoutée à la fin du fichier de partition avec IsDelete column = True.

Note

Pour les tables Dataverse où Ajouter seulement est activé, la suppression d’une ligne dans la source ne supprimera ni ne retirera la ligne dans le lac. Au lieu de cela, la ligne supprimée est ajoutée en tant que nouvelle ligne dans le lac et la colonne isDeleted est définie sur True.

La lecture modifiée (ALLOW_INCONSISTENT_READS) pour le mode sans serveur est activée pour le mode d’ajout uniquement. ALLOW_INCONSISTENT_READS signifie que l’utilisateur peut lire les fichiers qui peuvent être constamment modifiés pendant que la requête SELECT est en cours d’exécution. Les résultats sont cohérents et équivalents à la lecture d’un instantané du fichier. (Ce n’est pas équivalent à l'isolement par instantané de base de données en raison de la différence de temps de génération de l’instantané.)

Toutes les modifications CUD ne seront pas capturées dans append uniquement : le Synapse Link traite les modifications des données dans des groupes ou des « lots » avant de les publier dans le lac de données. Par conséquent, si l’utilisateur apporte des modifications dans un court intervalle de temps, toutes les modifications CUD ne seront pas capturées dans le lac de données.

Voici quelques détails supplémentaires sur l’utilisation de l’une ou l’autre des options.

  • Mise à jour sur place (héritée) : cette option est le paramètre par défaut et recommandée uniquement si vous souhaitez vous connecter directement aux données du lac et avoir besoin de l’état actuel (pas d’historique ou de modifications incrémentielles). Le fichier contient le jeu de données complet et peut être utilisé via Power BI ou en copiant l’intégralité du jeu de données pour les pipelines ETL (Extraire, Transférer, Charger).

    Important

    La mise à jour en place est un mode hérité et n’est pas correctement mise à l’échelle avec des volumes de données élevés ou lorsque les modifications sont fréquentes. Si votre table a une grande quantité de données ou connaît un taux élevé de créations, de mises à jour ou de suppressions, utilisez Append uniquement pour garantir une exportation de données fiable et performante.

  • Ajouter uniquement : Sélectionnez cette option si vous ne vous connectez pas directement aux données du lac et que vous souhaitez copier de manière incrémentielle des données vers une autre cible à l’aide de pipelines ETL. Cette option fournit un historique des modifications pour activer les scénarios AI et ML. Il s’agit de l’option recommandée pour les tables avec des volumes de données volumineux ou des modifications fréquentes des données.

Vous pouvez activer/désactiver les paramètres de configuration avancés Show advanced configuration sous Advanced dans Azure Synapse Link pour Dataverse afin de personnaliser votre stratégie de partition de données et sélectionner des options d’écriture dans le lac de données Azure.

Afficher la configuration avancée.

Partitionnement des données

Lorsque vous écrivez des données de table Dataverse dans Azure Data Lake Storage à l’aide d'Azure Synapse Link, les tables sont partitionnées (plutôt qu'en un seul fichier) dans le lac en fonction de la valeur createdOn sur chaque ligne de la source. La stratégie de partition par défaut est par mois et les données sont partitionnées dans Azure Data Lake mensuellement.

Basé sur le volume de la table et la distribution des données Dataverse, vous pouvez choisir de partitionner vos données par année. Avec cette option, lorsque les données de table Dataverse sont écrites dans le lac de données Azure, elles sont partitionnée annuellement en fonction de la valeur createdOn sur chaque ligne de la source. Pour les tables sans la colonne createdOn, les lignes de données sont partitionnées dans un nouveau fichier tous les cinq millions d’enregistrements. Il s’agit d’un paramètre par table et disponible sous forme de case à cocher sous Avancé>Afficher les paramètres de configuration avancés.

Détails supplémentaires avec des exemples de la façon dont les données sont gérées dans le lac avec une stratégie de partition annuelle ou mensuelle :

Stratégie de partition.

Voir aussi

Azure Synapse Link pour Dataverse