Поделиться через


Декларативные конвейеры Lakeflow Spark

Декларативные конвейеры Lakeflow Spark (SDP) — это фреймворк для создания пакетных и потоковых конвейеров данных в SQL и Python. SDP Lakeflow расширяется и совместим с декларативными пайплайнами Apache Spark, работая на платформе Databricks Runtime, оптимизированной для производительности. Распространенные варианты использования конвейеров включают прием данных из таких источников, как облачное хранилище (например, Amazon S3, Azure ADLS 2-го поколения и Google Cloud Storage) и автобусы сообщений (например, Apache Kafka, Amazon Kinesis, Google Pub/Sub, Azure EventHub и Apache Pulsar), а также добавочные пакетные и потоковые преобразования.

Замечание

Для использования декларативных конвейеров обработки данных Spark Lakeflow требуется тарифный план Premium. Чтобы получить дополнительные сведения, обратитесь к группе учетной записи Databricks.

В этом разделе содержатся подробные сведения об использовании конвейеров. Следующие разделы помогут вам приступить к работе.

Тема Description
Основные понятия декларативных конвейеров Lakeflow для Spark Узнайте о высокоуровневых концепциях SDP, включая конвейеры, потоки, потоковую передачу таблиц и материализованные представления.
Учебники Следуйте инструкциям, чтобы получить практический опыт работы с использованием конвейеров.
Разработка конвейеров Узнайте, как разрабатывать и тестировать конвейеры, которые создают потоки для приема и преобразования данных.
Настроить трубопроводы Узнайте, как запланировать и настроить конвейеры.
Мониторинг конвейеров Узнайте, как контролировать ваши конвейерные линии и решать проблемы с запросами в работе конвейерных линий.
Разработчики Узнайте, как использовать Python и SQL при разработке конвейеров.
Конвейеры в Databricks SQL Узнайте об использовании потоковых таблиц и материализованных представлений в Databricks SQL.

Дополнительные сведения