Поделиться через


Стандартные соединители в Lakeflow Connect

На этой странице описаны стандартные соединители в Databricks Lakeflow Connect, которые предлагают более высокие уровни настройки конвейера приема по сравнению с управляемыми соединителями.

Слои стека ETL

Некоторые соединители работают на одном уровне стека ETL. Например, Databricks предлагает полностью управляемые соединители для корпоративных приложений, таких как Salesforce и базы данных, такие как SQL Server. Другие соединители работают на нескольких уровнях стека ETL. Например, можно использовать стандартные коннекторы в Structured Streaming для полной настройки или Lakeflow Spark Declarative Pipelines для более управляемого опыта.

Схема стека ETL

Databricks рекомендует начать с самого управляемого слоя. Если он не соответствует вашим требованиям (например, если он не поддерживает источник данных), перейдите на следующий уровень.

В следующей таблице описаны три уровня продуктов приема, упорядоченные от наиболее настраиваемых до наиболее управляемых:

Уровень Описание
Структурированная потоковая передача Структурированные потоки данных Apache Spark — это потоковый движок, который обеспечивает сквозную отказоустойчивость с гарантией точной однократной обработки с использованием API Spark.
Lakeflow Spark Декларативные конвейеры Декларативные конвейеры Spark Lakeflow создаются на основе структурированной потоковой передачи, предлагая декларативную платформу для создания конвейеров данных. Вы можете определить преобразования, которые нужно выполнить применительно к вашим данным, а Декларативные конвейеры Lakeflow Spark обеспечивают управление оркестрацией, мониторингом, качеством данных, обработкой ошибок и многим другим. Поэтому она обеспечивает большую автоматизацию и меньше затрат, чем структурированная потоковая передача.
Управляемые соединители Полностью управляемые соединители создаются на основе декларативных конвейеров Spark Lakeflow, предлагая еще больше автоматизации для самых популярных источников данных. Они расширяют функциональные возможности Декларативных конвейеров Lakeflow Spark, чтобы также включать проверку подлинности для конкретного источника, CDC, обработку крайних случаев, долгосрочное обслуживание API, автоматизированные повторные попытки, автоматическую эволюцию схемы и т. д. Поэтому они предлагают еще больше автоматизации для любых поддерживаемых источников данных.

Выберите соединитель

В следующей таблице перечислены стандартные соединители приема по источнику данных и уровню настройки конвейера. Для полностью автоматизированного приема используйте вместо этого управляемые соединители .

Примеры SQL для инкрементального приема из облачного хранилища объектов используют CREATE STREAMING TABLE синтаксис. Он предлагает пользователям SQL масштабируемый и надежный интерфейс приема, поэтому это рекомендуемая альтернатива COPY INTO.

Исходный материал Дополнительные настройки Некоторые настройки Больше автоматизации
Облачное хранилище объектов Автозагрузчик с структурированной потоковой передачей
(Python, Scala)
Автозагрузчик с декларативными конвейерами Lakeflow Spark
(Python, SQL)
Автозагрузчик с Databricks SQL
(SQL)
Серверы SFTP Прием файлов с серверов SFTP
(Python, SQL)
N/A N/A
Apache Kafka Структурированная потоковая передача с источником Kafka
(Python, Scala)
Декларативные конвейеры Spark Lakeflow с источником Kafka
(Python, SQL)
Databricks SQL с источником Kafka
(SQL)
Публикация и подписка Google Структурированная потоковая передача с источником Pub/Sub
(Python, Scala)
Декларативные конвейеры Lakeflow Spark с источником Pub/Sub
(Python, SQL)
Databricks SQL с использованием источника Pub/Sub
(SQL)
Apache Pulsar Структурированная потоковая передача с источником Pulsar
(Python, Scala)
Декларативные конвейеры Lakeflow Spark с источником Pulsar
(Python, SQL)
Databricks SQL с источником данных Pulsar
(SQL)

Расписания приема

Конвейеры приема можно настроить для выполнения по повторяющемуся расписанию или непрерывно.

Сценарий использования Режим конвейера
Пакетная загрузка Активировано: обрабатывает новые данные по расписанию или при запуске вручную.
Поглощение потоковых данных Непрерывный: обрабатывает новые данные по мере поступления в источник.