Потоковая передача в Azure Databricks

Статья
03/01/2024

Azure Databricks можно использовать для приема, обработки, обработки, машинного обучения и искусственного интеллекта для потоковой передачи данных.

Azure Databricks предлагает множество вариантов для потоковой и добавочной обработки. Для большинства потоковой или добавочной обработки данных или задач ETL Databricks рекомендует delta Live Tables. См. раздел "Что такое разностные динамические таблицы?".

Большинство добавочных и потоковых рабочих нагрузок в Azure Databricks работают на основе структурированной потоковой передачи, включая разностные динамические таблицы и автозагрузчик. См. статью об автозагрузчике.

Delta Lake и Структурированная потоковая передача тесно интегрируются с добавочной обработкой в Databricks lakehouse. См. потоковую передачу потоковой передачи и записи в разностной таблице.

Сведения о службе моделей в режиме реального времени см. в разделе "Модель" с помощью Azure Databricks.

Дополнительные сведения о создании решений потоковой передачи на платформе Azure Databricks см. на странице продукта потоковой передачи данных.

Azure Databricks имеет определенные функции для работы с полуструктурированных полей данных, содержащихся в avro, буферах протокола и полезных данных JSON. Дополнительные сведения см. на следующих ресурсах:

Что такое структурированная потоковая передача?

Структурированная потоковая передача Apache Spark — это механизм обработки практически в реальном времени, который обеспечивает комплексную отказоустойчивость с однократными гарантиями обработки с помощью знакомых API Spark. Структурированная потоковая передача позволяет выражать вычисления с данными потоковой передачи таким же образом, как для пакетных вычислений по статическим данным. Механизм структурированной потоковой передачи выполняет инкрементное вычисление и постоянно обновляет результат по мере поступления потоковых данных.

Если вы не знакомы со структурированной потоковой передачей, ознакомьтесь с первой структурированной рабочей нагрузкой потоковой передачи.

Сведения об использовании структурированной потоковой передачи с каталогом Unity см. в разделе "Использование каталога Unity с структурированной потоковой передачей".

Какие источники и приемники потоковой передачи поддерживает Azure Databricks?

Databricks рекомендует использовать автозагрузчик для приема поддерживаемых типов файлов из облачного хранилища объектов в Delta Lake. Для конвейеров ETL Databricks рекомендует использовать разностные динамические таблицы (в которых используются разностные таблицы и структурированная потоковая передача). Вы также можете настроить добавочные рабочие нагрузки ETL с потоковой передачей в таблицы Delta Lake и из них.

Помимо Delta Lake и автозагрузчика, структурированная потоковая передача может подключаться к службам сообщений, например Apache Kafka.

Вы также можете использовать foreachBatch для записи в произвольные приемники данных.

Дополнительные ресурсы

Apache Spark предоставляет руководство по программированию структурированной потоковой передачи, которое содержит дополнительные сведения о структурированной потоковой передаче.

Для получения справочных сведений о структурированной потоковой передаче Databricks рекомендует следующие ссылки на API Apache Spark:

Share via

Потоковая передача в Azure Databricks

Что такое структурированная потоковая передача?

Какие источники и приемники потоковой передачи поддерживает Azure Databricks?

Дополнительные ресурсы

Дополнительные ресурсы