Потоковая передача в Azure Databricks
Azure Databricks можно использовать для приема, обработки, обработки, машинного обучения и искусственного интеллекта для потоковой передачи данных.
Azure Databricks предлагает множество оптимизаций для потоковой и добавочной обработки, включая следующие:
- Разностные динамические таблицы предоставляют декларативный синтаксис для добавочной обработки. См. раздел "Что такое разностные динамические таблицы?".
- Автозагрузчик упрощает добавочное прием из облачного хранилища объектов. См. статью об автозагрузчике.
- Каталог Unity добавляет управление данными в рабочие нагрузки потоковой передачи. См. раздел Использование каталога Unity со структурированной потоковой передачей.
Delta Lake предоставляет уровень хранения для этих интеграции. См. потоковую передачу потоковой передачи и записи в разностной таблице.
Сведения о службе моделей в режиме реального времени см. в разделе "Модель" с помощью Azure Databricks.
-
Ознакомьтесь с основами практически в реальном времени и добавочной обработкой с помощью структурированной потоковой передачи в Azure Databricks.
-
Ознакомьтесь с основными понятиями для настройки добавочных и практически в реальном времени рабочих нагрузок с помощью структурированной потоковой передачи.
Потоковая передача с отслеживанием состояния
Управление сведениями о промежуточном состоянии для запросов структурированной потоковой передачи с отслеживанием состояния позволяет предотвратить непредвиденные задержки и проблемы в рабочей среде.
-
Эта статья содержит рекомендации по настройке рабочих нагрузок добавочной обработки с помощью структурированной потоковой передачи в Azure Databricks, чтобы выполнить требования к задержкам и затратам для приложений, работающих в реальном времени, или пакетных приложений.
-
Сведения о том, как отслеживать приложения структурированной потоковой передачи в Azure Databricks.
-
Сведения о том, как использовать каталог Unity в сочетании со структурированной потоковой передачей в Azure Databricks.
Потоковая передача с помощью Delta
Узнайте, как использовать таблицы Delta Lake в качестве источников потоковой передачи и приемников.
-
См. примеры использования структурированной потоковой передачи Spark с Cassandra, Azure Synapse Analytics, записными книжками Python и записными книжками Scala в Azure Databricks.
Azure Databricks имеет определенные функции для работы с полуструктурированных полей данных, содержащихся в avro, буферах протокола и полезных данных JSON. Дополнительные сведения см. на следующих ресурсах:
Дополнительные ресурсы
Apache Spark предоставляет руководство по программированию структурированной потоковой передачи, которое содержит дополнительные сведения о структурированной потоковой передаче.
Для получения справочных сведений о структурированной потоковой передаче Databricks рекомендует следующие ссылки на API Apache Spark: