Streaming sur Azure Databricks

Article
03/01/2024

Vous pouvez utiliser Azure Databricks pour l’ingestion de données, le traitement, le Machine Learning et l’IA en quasi-temps réel pour le streaming des données.

Azure Databricks offre de nombreuses optimisations pour le streaming et le traitement incrémentiel. Pour la plupart des tâches de streaming ou de traitement de données incrémentielles ou ETL, Databricks recommande Delta Live Tables. Voir Qu’est-ce que Delta Live Tables ?.

La plupart des charges de travail incrémentielles et de streaming sur Azure Databricks sont optimisées par Structured Streaming, incluant Delta Live Tables et Auto Loader. Consultez Qu’est-ce que Auto Loader ?.

Delta Lake et le flux structuré ont une intégration étroite pour alimenter le traitement incrémentiel dans le lakehouse Databricks. Voir Lectures et écritures en diffusion en continu sur des tables Delta.

Pour découvrir la mise en service de modèles en temps réel, consultez Mise en service de modèles avec Azure Databricks.

Pour en savoir plus sur la création de solutions de diffusion en continu sur la plateforme Azure Databricks, consultez la page produit de la diffusion de données.

Azure Databricks dispose de fonctionnalités spécifiques permettant d’utiliser des champs de données semi-structurés contenus dans des charges utiles de données Avro, JSON et de mémoire tampon de protocole. Pour plus d'informations, consultez les rubriques suivantes :

Qu’est-ce que Structured Streaming ?

Apache Spark Structured Streaming est un moteur de traitement en quasi-temps réel qui offre une tolérance de panne de bout en bout assortie de garanties de traitement exactement une fois avec des API Spark familières. Structured Streaming vous permet d’exprimer un calcul sur des données de diffusion en continu de la même façon que vous exprimez un calcul par lot sur des données statiques. Le moteur Structured Streaming effectue le calcul de façon incrémentielle et met à jour en continu le résultat au fur et à mesure que des données de streaming arrivent.

Si vous débutez avec Structured Streaming, consultez Exécuter votre première charge de travail Structured Streaming.

Si vous souhaitez obtenir plus d’informations sur l’utilisation de Structured Streaming avec Unity Catalog, consultez Utilisation de Unity Catalog avec Structured Streaming.

Quels récepteurs et sources de diffusion en continu Azure Databricks prend-il en charge ?

Databricks recommande d’utiliser un Chargeur automatique pour ingérer des types de fichiers pris en charge à partir d’un stockage d’objets cloud dans Delta Lake. Pour les pipelines d’ETL, Databricks recommande d’utiliser Delta Live Tables (qui utilise des tables Delta et Structured Streaming). Vous pouvez également configurer des charges de travail d’ETL incrémentielles en diffusant en continu vers et depuis des tables Delta Lake.

En plus de Delta Lake et d’un Chargeur automatique, Structured Streaming peut se connecter à des services de messagerie tels qu’Apache Kafka.

Vous pouvez également Utiliser foreachBatch pour écrire dans des récepteurs de données arbitraires.

Ressources supplémentaires

Apache Spark fournit un Guide de programmation Structured Streaming qui contient plus d’informations sur Structured Streaming.

Pour obtenir des informations de référence sur Structured Streaming, Databricks recommande les références d’API Apache Spark suivantes :