Примечание
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
В этой статье приведены общие сведения о структурированной потоковой передаче в Azure Databricks.
Что такое структурированная потоковая передача?
Структурированная потоковая передача Apache Spark — это механизм обработки практически в режиме реального времени, который предлагает сквозную отказоустойчивость с гарантией обработки точно один раз с помощью знакомых API Spark. Структурированная потоковая передача позволяет выражать вычисления с данными потоковой передачи таким же образом, как для пакетных вычислений по статическим данным. Механизм структурированной потоковой передачи выполняет инкрементное вычисление и постоянно обновляет результат по мере поступления потоковых данных.
Чтение из потока данных
Структурированная потоковая передача можно использовать для добавочного приема данных из поддерживаемых источников данных. К общим источникам данных относятся следующие:
- Файлы данных в облачном хранилище объектов. См. статью об автозагрузчике.
- Шины сообщений и очереди. См. статью "Стандартные соединители" в Lakeflow Connect.
- Delta Lake. См. потоковые чтения и записи таблиц Delta.
Каждый источник данных предоставляет ряд параметров для указания способа загрузки пакетов данных. Во время настройки считывателя может потребоваться настроить параметры для выполнения следующих действий:
- Укажите источник данных или формат (например, тип файла, разделители и схему).
- Настройте доступ к исходным системам (например, параметры портов и учетные данные).
- Укажите, с какого места начать поток (например, смещение в Kafka или чтение всех существующих файлов).
- Управление объемом данных, обрабатываемых в каждом пакете (например, максимальное смещение, файлы или байты на пакет). См. настройку размера пакета структурированной потоковой передачи в Azure Databricks.
Запись в хранилище данных
Приемник данных — это цель операции потоковой записи. К общим приемникам, используемым в рабочих нагрузках потоковой передачи Azure Databricks, относятся следующие:
- Delta Lake
- Автобусы сообщений и очереди
- Базы данных "Ключ-значение"
Как и в случае с источниками данных, большинство приемников данных предоставляют ряд параметров для управления записью данных в целевую систему. Во время конфигурации модуля записи укажите следующие параметры:
- Режим вывода (режим добавления по умолчанию). См. раздел Выбор выходного режима для структурированной потоковой передачи.
- Расположение контрольной точки (необходимо для каждого устройства записи). Смотрите контрольные точки структурированной потоковой передачи.
- Интервалы триггера. См. раздел "Настройка интервалов триггера структурированной потоковой передачи".
- Параметры, указывающие приемник данных или формат (например, тип файла, разделители и схема).
- Параметры, которые настраивают доступ к целевым системам (например, параметры порта и учетные данные).