Configurer les sources de diffusion de données en continu

Article
03/01/2024

Azure Databricks peut s’intégrer à des services de messagerie en continu pour l’ingestion de données en temps quasi-réel dans Databricks Lakehouse. Azure Databricks peut également synchroniser des données enrichies et transformées dans le lakehouse avec d’autres systèmes de streaming

Structured Streaming fournit un accès en streaming natif aux formats de fichiers pris en charge par Apache Spark, mais Databricks recommande Auto Loader pour la plupart des opérations de streaming structurées qui lisent des données à partir du stockage d’objets cloud. Consultez Qu’est-ce que Auto Loader ?.

L’ingestion de messages diffusés en continu dans Delta Lake vous permet de conserver les messages indéfiniment, et ainsi de relire des flux de données sans craindre de perdre des données en raison de seuils de rétention.

Pour en savoir plus sur les configurations spécifiques pour la diffusion en continu à partir de files d’attente de messages, consultez :

Configurer les sources de diffusion de données en continu

Ressources supplémentaires