Vue d’ensemble de l’ingestion des données Azure Synapse Data Explorer (préversion)

2025-04-23

Important

Azure Synapse Analytics Data Explorer (version préliminaire) sera retiré le 7 octobre 2025. Après cette date, les charges de travail exécutées sur Synapse Data Explorer seront supprimées et les données d’application associées seront perdues. Nous vous recommandons vivement de migrer vers Eventhouse dans Microsoft Fabric.

Le programme Microsoft Cloud Migration Factory (CMF) est conçu pour aider les clients à migrer vers Fabric. Le programme offre des ressources clavier pratiques sans coût pour le client. Ces ressources sont affectées pendant une période de 6 à 8 semaines, avec une étendue prédéfinie et acceptée. Les nominations des clients sont acceptées par l’équipe de compte Microsoft ou directement en envoyant une demande d’aide à l’équipe CMF.

L’ingestion des données est le processus utilisé pour charger des enregistrements de données à partir d’une ou plusieurs sources pour importer des données dans une table dans un pool Azure Synapse Data Explorer. Une fois ingérées, les données sont disponibles pour les requêtes.

Le service de gestion des données Azure Synapse Data Explorer, responsable de l’ingestion des données, implémente le processus suivant :

Extrait des données par lots ou en streaming à partir d’une source externe et lit les demandes à partir d’une file d’attente Azure en attente.
Les données batch qui circulent vers la même base de données et la même table sont optimisées pour le débit d’ingestion.
Les données initiales sont validées et le format est converti si nécessaire.
D’autres manipulations de données, notamment le schéma correspondant, l’organisation, l’indexation, l’encodage et la compression des données.
Les données sont conservées dans le stockage en fonction de la stratégie de rétention définie.
Les données ingérées sont validées dans le moteur, où elles sont disponibles pour la requête.

Formats de données, propriétés et autorisations pris en charge

Formats de données pris en charge
Propriétés d’ingestion : propriétés qui affectent la façon dont les données seront ingérées (par exemple, balisage, mappage, heure de création).
Autorisations : pour ingérer des données, le processus nécessite des autorisations au niveau de l’ingestion de base de données. D’autres actions, telles que la requête, peuvent nécessiter des autorisations d’administrateur de base de données, d’utilisateur de base de données ou d’administrateur de table.

Ingestions par lot ou en streaming

L’ingestion par lots effectue un traitement par lots de données et est optimisée pour un débit d’ingestion élevé. Cette méthode est le type d’ingestion préféré et le plus performant. Les données sont traitées par lot en fonction des propriétés d’ingestion. Les petits lots de données sont fusionnés et optimisés pour les résultats de requête rapides. La stratégie de traitement par lots d’ingestion peut être définie sur des bases de données ou des tables. Par défaut, la valeur de traitement par lot maximale est de 5 minutes, 1 000 éléments ou une taille totale de 1 Go. La limite de taille des données pour une commande d’ingestion par lots est de 4 Go.
L’ingestion en continu consiste à ingérer des données provenant d'une source de streaming. L’ingestion en streaming permet une latence en quasi temps réel pour les petits jeux de données par table. Les données sont initialement ingérées dans un rowstore, puis déplacées dans des étendues columnstore.

Méthodes et outils d’ingestion

Azure Synapse Data Explorer prend en charge plusieurs méthodes d’ingestion, chacune avec ses propres scénarios cibles. Ces méthodes incluent les outils d’ingestion, les connecteurs et les plug-ins pour divers services, les pipelines managés, l’ingestion programmatique à l’aide de kits SDK et l’accès direct à l’ingestion.

Ingestion à l’aide de pipelines gérés

Pour les organisations qui souhaitent avoir une gestion (limitation, nouvelles tentatives, analyses, alertes, etc.) effectuées par un service externe, l’utilisation d’un connecteur est probablement la solution la plus appropriée. L’ingestion en file d’attente convient aux grands volumes de données. Azure Synapse Data Explorer prend en charge les pipelines Azure suivants :

Event Hub : pipeline qui transfère les événements des services vers Azure Synapse Data Explorer. Pour plus d’informations, consultez Ingestion de données à partir d’Event Hub dans Azure Synapse Data Explorer.

Pipelines Synapse : un service d’intégration de données entièrement managé pour les charges de travail analytiques dans les pipelines Synapse se connecte à plus de 90 sources prises en charge pour fournir un transfert de données efficace et résilient. Les pipelines Synapse préparent, transforment et enrichissent les données pour fournir des insights qui peuvent être surveillés de différentes manières. Ce service peut être utilisé comme solution ponctuelle, sur une chronologie périodique ou déclenché par des événements spécifiques.

Ingestion par programmation à l’aide de kits SDK

Azure Synapse Data Explorer fournit des kits SDK qui peuvent être utilisés pour l’ingestion des requêtes et des données. L’ingestion par programmation est optimisée pour réduire les coûts d’ingestion (COG), en réduisant les transactions de stockage pendant et en suivant le processus d’ingestion.

Avant de commencer, procédez comme suit pour obtenir les points de terminaison du pool Data Explorer pour la configuration de l’ingestion par programmation.

Dans Synapse Studio, dans le volet de gauche, sélectionnez Gérer>Pools Data Explorer.
Sélectionnez le pool Data Explorer que vous souhaitez utiliser pour afficher ses détails.
Notez les points de terminaison de requête et d’ingestion des données. Utilisez le point de terminaison de requête comme cluster lors de la configuration des connexions à votre pool Data Explorer. Lors de la configuration des kits SDK pour l’ingestion de données, utilisez le point de terminaison d’ingestion des données.

Kits de développement logiciel (SDK) disponibles et projets open source

Outils

Ingestion en un clic : vous permet d’ingérer rapidement des données en créant et en ajustant des tables à partir d’un large éventail de types sources. L’ingestion en un clic suggère automatiquement des tables et des structures de mappage basées sur la source de données dans Azure Synapse Data Explorer. L’ingestion en un clic peut être utilisée pour l’ingestion ponctuelle ou pour définir l’ingestion continue via Event Grid sur le conteneur auquel les données ont été ingérées.

Commandes de contrôle d’ingestion KQL

Il existe plusieurs méthodes par lesquelles les données peuvent être ingérées directement dans le moteur par des commandes KQL (Kusto Query Language). Étant donné que cette méthode contourne les services de gestion des données, elle convient uniquement à l’exploration et au prototypage. N’utilisez pas cette méthode dans les scénarios de production ou de volume élevé.

Ingestion en ligne : une commande de contrôle .ingest inline est envoyée au moteur, avec les données à ingérer intégrées dans le texte même de la commande. Cette méthode est destinée à des fins de test improvisées.
Ingérer à partir de requête : une commande de contrôle .set, .append, .set-or-append ou .set-or-replace est envoyée au moteur, avec les données spécifiées indirectement en tant que résultats d’une requête ou d’une commande.
Ingérer à partir du stockage (pull): une commande de contrôle .ingérer dans est envoyée au moteur, avec les données stockées dans un stockage externe (par exemple, Stockage Blob Azure) accessible par le moteur et pointées par la commande.

Pour obtenir un exemple d’utilisation des commandes de contrôle d’ingestion, consultez Analyser avec l’Explorateur de données.

Processus d’ingestion

Une fois que vous avez choisi la méthode d’ingestion la plus appropriée pour vos besoins, procédez comme suit :

Définir la stratégie de rétention

Les données ingérées dans une table dans Azure Synapse Data Explorer sont soumises à la stratégie de rétention effective de la table. Sauf si elle est définie explicitement sur une table, la stratégie de rétention effective est dérivée de la stratégie de rétention de la base de données. La rétention à chaud est une fonction de la taille du cluster et de votre stratégie de rétention. Le fait d’ingérer plus de données que d’espace disponible forcera la conservation à froid des premières données entrées.

Assurez-vous que la stratégie de rétention de la base de données est appropriée pour vos besoins. Si ce n’est pas le cas, remplacez-la explicitement au niveau de la table. Pour plus d’informations, consultez la stratégie de rétention.
Créer une table

Pour ingérer des données, une table doit être créée au préalable. Utilisez l’une des options suivantes :
- Créez une table avec une commande. Pour obtenir un exemple d’utilisation de la commande créer une table, consultez Analyser avec l’Explorateur de données.
- Créez une table à l’aide de l’ingestion en un clic.
Remarque

Si un enregistrement est incomplet ou qu’un champ ne peut pas être analysé comme type de données requis, les colonnes de table correspondantes sont remplies de valeurs Null.
Créer un mappage de schéma

Le mappage de schéma permet de lier des champs de données sources aux colonnes de table de destination. Le mappage vous permet de prendre des données provenant de différentes sources dans la même table, en fonction des attributs définis. Différents types de mappages sont pris en charge, à la fois orientés lignes (CSV, JSON et AVRO) et orientés colonnes (Parquet). Dans la plupart des méthodes, les mappages peuvent également être précréés sur la table et référencés à partir du paramètre de commande d’ingestion.
Définir la stratégie de mise à jour (facultatif)

Certains mappages de format de données (Parquet, JSON et Avro) prennent en charge des transformations simples et utiles lors de l'ingestion. Lorsque le scénario nécessite un traitement plus complexe au moment de l’ingestion, utilisez la stratégie de mise à jour, ce qui permet un traitement léger à l’aide de commandes du langage de requête Kusto. La stratégie de mise à jour exécute automatiquement des extractions et des transformations sur les données ingérées sur la table d’origine, et ingère les données résultantes dans une ou plusieurs tables de destination. Définissez votre stratégie de mise à jour.