Streaming sur Azure Databricks

Article
10/14/2024

Vous pouvez utiliser Azure Databricks pour l’ingestion de données, le traitement, le Machine Learning et l’IA en quasi-temps réel pour le streaming des données.

Azure Databricks offre de nombreuses optimisations pour le streaming et le traitement incrémentiel, y compris les suivantes :

Delta Live Tables fournit une syntaxe déclarative pour le traitement incrémental. Consultez l’article Qu’est-ce que Delta Live Tables ?.
Le chargeur automatique simplifie l’ingestion incrémentielle à partir du stockage d’objets cloud. Consultez Qu’est-ce que Auto Loader ?.
Unity Catalog ajoute la gouvernance des données aux charges de travail de diffusion en continu. Consultez Utilisation de Unity Catalog avec Structured Streaming.

Delta Lake fournit la couche de stockage de ces intégrations. Voir Lectures et écritures en diffusion en continu sur des tables Delta.

Pour découvrir la mise en service de modèles en temps réel, consultez Mise en service de modèles avec Azure Databricks.

Didacticiel

Découvrez les principes de base du traitement en quasi-temps réel et incrémentiel avec Structured Streaming sur Azure Databricks.
Concepts

Découvrez les concepts fondamentaux de la configuration des charges de travail incrémentielles et en quasi-temps réel avec Structured Streaming.
Streaming avec état

La gestion des informations d’état intermédiaire des requêtes de Structured Streaming avec état peut aider à éviter des problèmes inattendus de latence et de production.
Considérations relatives à la production

Cet article contient des recommandations pour configurer des charges de travail de traitement incrémental de production avec Structured Streaming sur Azure Databricks afin de répondre aux exigences de latence et de coût pour les applications en temps réel ou par lots.
Surveiller les flux

Découvrez comment surveiller des applications de Structured Streaming sur Azure Databricks.
Intégration d’Unity Catalog

Découvrez comment tirer parti d’Unity Catalog conjointement avec Structured Streaming sur Azure Databricks.
Diffusion en continu avec Delta

Découvrez comment utiliser les tableaux Delta comme sources et récepteurs de streaming.
Exemples

Consultez des exemples d’utilisation de la diffusion en continu de Spark avec Cassandra, Azure Synapse Analytics, les Notebooks Python et les blocs-notes Scala dans Azure Databricks.

Azure Databricks dispose de fonctionnalités spécifiques permettant d’utiliser des champs de données semi-structurés contenus dans des charges utiles de données Avro, JSON et de mémoire tampon de protocole. Pour plus d'informations, consultez les rubriques suivantes :

Ressources supplémentaires

Apache Spark fournit un Guide de programmation Structured Streaming qui contient plus d’informations sur Structured Streaming.

Pour obtenir des informations de référence sur Structured Streaming, Databricks recommande les références d’API Apache Spark suivantes :

Partage via

Streaming sur Azure Databricks

Ressources supplémentaires

Commentaires

Ressources supplémentaires