Diffusion en continu sur une informatique sans serveur

Cette page explique comment choisir la configuration appropriée pour les charges de travail de diffusion en continu serverless sur Azure Databricks, notamment les pipelines continus, l’ingestion incrémentielle et les connecteurs managés. Le choix de la configuration appropriée dépend des besoins en matière de source, de forme et de latence du flux.

Ce qui compte en tant que charge de travail de diffusion en continu

Une charge de travail de streaming lit des données non bornées à partir d’une source (par exemple un stockage d’objets dans le cloud, un bus de messages ou un flux de modifications) et les écrit de manière incrémentielle dans un récepteur. Azure Databricks prend en charge deux modèles de charges de travail de streaming :

Continu : Un pipeline qui s’exécute sans interruption et traite les nouvelles données à mesure qu’elles arrivent. La latence est mesurée en secondes.
Incrémentiel (également appelé déclenché) : pipeline qui s’exécute de façon planifiée ou sur déclenchement, traite toutes les données arrivées depuis la dernière exécution et s’arrête. La latence est mesurée en minutes.

Certaines charges de travail semblent être des pipelines de diffusion en continu, mais ne sont pas techniquement des pipelines. Par exemple, un service qui contient un websocket ouvert pour écouter des événements, une application de conversation qui gère une connexion persistante par utilisateur ou un récepteur webhook qui gère les requêtes HTTP entrantes. Il s’agit d’applications, et non de pipelines de diffusion en continu. Pour obtenir l’option serverless appropriée pour ces charges de travail, consultez Charges de travail qui ne sont pas des pipelines de diffusion en continu.

Choisir la configuration de diffusion en continu appropriée

Ce tableau met en correspondance les cas d’usage avec les configurations serverless qui leur conviennent le mieux. Les sections qui suivent sur cette page fournissent plus de détails sur ces recommandations.

Cas d’utilisation	Configuration recommandée	Pourquoi
ETL ou transformations en streaming continu à faible latence	pipelines Lakeflow en mode continu	Le mode continu est conçu pour les flux actifs en permanence. Le pipeline de flux exécute des microbatches simultanément, ce qui améliore le débit et la latence. L’état managé conserve la récupération automatique.
Ingestion incrémentielle depuis le stockage cloud	Utilisez le chargeur automatique à l’intérieur des pipelines Lakeflow (pour une faible latence) ou dans un travail serverless avec `Trigger.AvailableNow()` (si une latence inférieure est acceptable).	Le chargeur automatique effectue le suivi efficace des nouveaux fichiers. `Trigger.AvailableNow()` traite le backlog, puis se termine, ce qui convient à une exécution planifiée ou à la demande.
Ingestion gérée à partir de sources SaaS ou d’une CDC de base de données	Connecteurs standard dans Lakeflow Connect	Connecteurs entièrement gérés avec des pipelines d’ingestion sans serveur. Aucun code n’est requis pour les sources prises en charge.
Diffusion en continu de SQL sur des tables Delta	Tables de streaming	Traitement incrémentiel natif SQL pour les sources de type append, avec des pipelines gérés et actualisation.
Traitement périodique par micro-lots dans un notebook ou un travail	Travail serverless avec `Trigger.AvailableNow()`	Rentable lorsqu’une actualisation à la minute suffit. Le calcul sans serveur démarre rapidement et s’arrête lorsque le traitement par lots est terminé.

Diffusion en continu

Pour le streaming continu avec le calcul serverless, utilisez les pipelines Lakeflow en mode continu. Le pipeline reste actif, traite les enregistrements à mesure qu’ils arrivent et se rétablit automatiquement après des défaillances.

Pour configurer un flux continu :

Configurez le pipeline en mode sans serveur. Consultez Configurer un pipeline serverless.
Définissez le mode pipeline sur continu. Consultez Mode pipeline déclenché ou continu.
Utilisez des tables de diffusion en continu pour les sorties gérées de manière incrémentielle.

Tip

La mise en pipeline des flux est activée par défaut dans les pipelines Lakeflow serverless. Les microbatches s’exécutent simultanément plutôt que séquentiellement, ce qui améliore le débit pour les flux lourds d’ingestion.

Les déclencheurs de flux structuré basés sur le temps, tels que Trigger.ProcessingTime(interval) et Trigger.Continuous(interval), ne sont pas disponibles dans les notebooks ou travaux serverless. Utilisez des pipelines Lakeflow en mode continu pour le modèle always-on. Consultez les limitations de streaming. Trigger.Once() est pris en charge mais déconseillé : migrez les requêtes existantes vers Trigger.AvailableNow().

Streaming incrémentiel et sur déclenchement

Pour le streaming incrémentiel, exécutez Structured Streaming avec Trigger.AvailableNow() dans un job serverless. Chaque exécution traite toutes les données arrivées depuis le dernier point de contrôle, puis se termine.

Pour configurer une tâche serverless avec un streaming incrémentiel :

Planifiez le travail à la cadence dont vous avez besoin. Consultez Exécuter des travaux selon une planification.
Utilisez Trigger.AvailableNow() sur chaque requête de streaming dans la tâche. Consultez Configurer les intervalles de déclenchement pour Structured Streaming.
Ajustez la taille du lot avec maxFilesPerTrigger ou maxBytesPerTrigger pour maintenir une utilisation de la mémoire prévisible. Consultez les meilleures pratiques pour l’informatique sans serveur.

L’exemple suivant lit de nouveaux fichiers à partir du stockage cloud (source_path) avec le chargeur automatique, traite toutes les données disponibles au moment de l’exécution et écrit dans une table Delta :

(spark.readStream
   .format("cloudFiles")
   .option("cloudFiles.format", "json")
   .option("cloudFiles.maxFilesPerTrigger", 1000)
   .load(source_path)
   .writeStream
   .trigger(availableNow=True)
   .option("checkpointLocation", checkpoint_path)
   .toTable("catalog.schema.target_table"))

Une tâche Trigger.AvailableNow() planifiée est le schéma de streaming le plus rentable sur une infrastructure serverless lorsqu’une latence de l’ordre de la minute est acceptable. La capacité de calcul démarre en quelques secondes, exécute le traitement par lots, puis s’arrête.

Ingestion managée

Si la source est une application SaaS ou une base de données opérationnelle, utilisez Lakeflow Connect au lieu d’écrire du code Structured Streaming. Lakeflow Connect exécute des pipelines d’ingestion serverless pour les connecteurs tels que Salesforce, Workday, SQL Server CDC et PostgreSQL CDC. Consultez Connecteurs gérés dans Lakeflow Connect.

Ce chemin d’accès est la bonne réponse quand :

Un connecteur existe pour votre source.
Vous souhaitez un pipeline managé plutôt que du code personnalisé.
Vous avez besoin de l’évolution du schéma, du lignage et de la supervision prêts à l’emploi.

Traitement incrémentiel managé par SQL

Pour les équipes axées sur SQL, utilisez des tables de streaming pour les charges de travail de streaming natives en SQL. Vous pouvez définir des tables de diffusion en continu à l’intérieur de pipelines Lakeflow ou en tant que tables de diffusion en continu autonomes.

Pour les tables de diffusion en continu autonomes créées avec l’instruction CREATE OR REFRESH STREAMING TABLE SQL, l’actualisation initiale des données et la population commencent immédiatement. Un pipeline serverless dédié est créé et géré automatiquement par le système pour chaque table de streaming.

Si vous avez besoin de résultats de requête sémantique par lots avec actualisation managée, utilisez plutôt des vues matérialisées. Consultez Vues matérialisées.

Charges de travail autres que les pipelines de streaming

Une charge de travail qui doit maintenir une connexion persistante, écouter sur un port ou répondre à des requêtes HTTP entrantes n’est pas un pipeline de traitement en continu ; c’est une application. N’exécutez pas ces charges de travail sur un job serverless. Les options Databricks appropriées sont les suivantes :

Services de longue durée nécessitant une connexion persistante ou un point de terminaison HTTP : créez le service avec Databricks Apps. Databricks Apps est la plateforme serverless permettant d’héberger des applications personnalisées sur Azure Databricks, notamment FastAPI, Flask, Streamlit, Dash, Gradio, Node.jset les applications Shiny. Consultez Databricks Apps.
Webhooks entrants ou écouteurs d’événements : exposez un point de terminaison HTTP sur Databricks Apps, ou terminez le webhook dans un service externe et écrivez les événements dans un stockage cloud ou un bus de messages, puis récupérez-les à l’aide d’un pipeline de streaming serverless.
Jeton personnalisé ou échange d’informations d’identification : utilisez des principaux de service avec OAuth ou appelez les API REST Databricks à partir d’une application. Les pipelines de streaming ne contiennent pas de sessions par utilisateur ou d’état de jeton personnalisé.

Si vous évaluez si votre charge de travail correspond à un pipeline de diffusion en continu, demandez :

La charge de travail lit-elle à partir d’une source de données non bornée et écrit-elle dans un récepteur ? Si oui, il s’agit d’un pipeline de diffusion en continu.
La charge de travail doit-elle contenir une connexion ouverte à un client ? Si oui, il s’agit d’une application ; utilisez Databricks Apps.

Limitations

Le calcul serverless impose les contraintes de streaming suivantes. Aucune d’entre elles n’empêche les charges de travail ci-dessus lorsqu’elles sont associées au produit approprié.

Les déclencheurs temporels de Structured Streaming (Trigger.ProcessingTime(interval) et Trigger.Continuous(interval)) ne sont pas pris en charge dans les notebooks ou travaux serverless. Utilisez des pipelines Lakeflow en mode continu pour les flux toujours actifs, ou Trigger.AvailableNow() pour les exécutions déclenchées. Consultez les limitations de streaming.
Les requêtes de streaming sans déclencheur explicite échouent avec INFINITE_STREAMING_TRIGGER_NOT_SUPPORTED. Par défaut, Apache Spark utilise Trigger.ProcessingTime("0 seconds"), qui n’est pas pris en charge en calcul serverless. Définissez toujours Trigger.AvailableNow() pour chaque requête de diffusion en continu, ou utilisez les pipelines Lakeflow en mode continu.
Toutes les limitations du streaming en mode d’accès standard s’appliquent également au calcul serverless. Consultez les limitations de streaming.

Étapes suivantes

Configurer un pipeline sans serveur
Exécuter des travaux Lakeflow avec le calcul serverless
Explorer les connecteurs managés dans Lakeflow Connect

Commentaires

Cette page a-t-elle été utile ?

Last updated on 2026-07-10