Streaming no Azure Databricks

Você pode usar o Azure Databricks para ingestão de dados quase em tempo real, processamento, aprendizado de máquina e IA para dados de streaming.

O Azure Databricks oferece várias otimizações para streaming e processamento incremental. Para a maioria das tarefas de streaming ou processamento incremental de dados ou ETL, o Databricks recomenda o Delta Live Tables. ConsulteO que é o Delta Live Tables?.

A maioria das cargas de trabalho incrementais e de streaming no Azure Databricks é alimentada pelo Streaming Estruturado, incluindo o Delta Live Tables e o Carregador Automático. Confira O que é o Carregador Automático?.

O Delta Lake e o Fluxo Estruturado têm uma integração robusta para potencializar o processamento incremental no lakehouse do Databricks. Consulte Streaming de tabela Delta lê e grava.

Para serviço de modelo em tempo real, consulte Serviço de modelo com o Azure Databricks.

Para saber mais sobre como criar soluções de fluxo na plataforma do Azure Databricks, confira a página do produto de fluxo de dados.

O Azure Databricks tem recursos específicos para trabalhar com campos de dados semiestruturados contidos em buffers de protocolo e conteúdos de dados Avro e JSON. Para obter mais informações, consulte:

O que é o Streaming Estruturado?

O Streaming Estruturado do Apache Spark é um mecanismo de processamento quase em tempo real que oferece tolerância a falhas de ponta a ponta com garantias de processamento único usando APIs conhecidas do Spark. Ele permite expressar a computação nos dados de streaming da mesma maneira que a computação em lote é expressada em dados estáticos. O mecanismo de Streaming Estruturado executa a computação incrementalmente e atualiza continuamente o resultado à medida que os dados de fluxo são recebidos.

Se você não estiver familiarizado com o Streaming Estruturado, consulte Executar sua primeira carga de trabalho de Streaming Estruturado.

Para ver detalhes sobre como usar o Streaming Estruturado com o Catálogo do Unity, consulte Como usar o Catálogo do Unity com o Streaming Estruturado.

Quais coletores e fontes de streaming são compatíveis com o Azure Databricks?

O Databricks recomenda usar o Carregador Automático para ingerir no Delta Lake os tipos de arquivos do armazenamento de objetos de nuvem que são compatíveis. Para pipelines de ETL, o Databricks recomenda o uso do Delta Live Tables (que usa tabelas Delta e o Streaming Estruturado). Também é possível configurar cargas de trabalho de ETL incrementais por streaming de/para tabelas do Delta Lake.

Além do Delta Lake e do Carregador Automático, o Streaming Estruturado pode se conectar a serviços de mensagens, como o Apache Kafka.

Você também pode Usar foreachBatch para gravar em coletores de dados arbitrários.

Recursos adicionais

O Apache Spark fornece um Guia de Programação de Streaming Estruturado que tem mais informações sobre Streaming Estruturado.

Para obter informações de referência sobre o Streaming Estruturado, o Databricks recomenda as seguintes referências à API do Apache Spark: