Настройка размера пакета структурированной потоковой передачи в Azure Databricks

В этой статье объясняется, как использовать элементы управления допуска для поддержания согласованного размера пакета для потоковых запросов.

Элементы управления приемом ограничивают скорость ввода запросов структурированной потоковой передачи, что может помочь поддерживать согласованный размер пакета и предотвращать задержки обработки больших пакетов и каскадных задержек обработки микропакетов.

Azure Databricks предоставляет одинаковые параметры для управления размерами пакетов структурированной потоковой передачи для Delta Lake и автозагрузчика.

Замечание

Параметры управления доступом можно изменить, не сбрасывая контрольную точку для потокового запроса. См. раздел «Восстановление после изменений в запросе структурированного потокового вещания».

Изменение параметров управления доступом для увеличения или уменьшения размера пакета влияет на производительность. Чтобы оптимизировать рабочую нагрузку, может потребоваться настроить конфигурации вычислений.

Ограничение скорости ввода с помощью maxFilesPerTrigger

Параметр maxFilesPerTrigger (или cloudFiles.maxFilesPerTrigger для автозагрузчика) задает верхнюю границу для количества файлов, обработанных в каждом микропакете. Для Delta Lake и автозагрузчика значение по умолчанию равно 1000. (Обратите внимание, что этот параметр также присутствует в Apache Spark для других источников файлов, где по умолчанию не существует максимального значения.)

Ограничение скорости ввода с помощью maxBytesPerTrigger

Параметр maxBytesPerTrigger (или cloudFiles.maxBytesPerTrigger для Автозагрузчика) задает "гибкий максимум" для объема данных, обрабатываемых в каждом микропакете. Это означает, что пакетный процесс обрабатывает примерно такой объем данных и может обрабатывать больше предела, чтобы потоковый запрос продвигался вперед, если наименьший входной блок превышает это ограничение. Этот параметр не используется по умолчанию.

Например, если указать строку байтов, например 10g, чтобы ограничить каждый микробатч до 10 ГБ данных, и у вас есть файлы размером 3 ГБ, Azure Databricks обрабатывает 12 ГБ в микробатче.

Настройка нескольких скоростей ввода

Если вы используете maxBytesPerTrigger в сочетании с maxFilesPerTrigger, микроблок обрабатывает данные до достижения нижнего предела maxFilesPerTrigger или maxBytesPerTrigger.

Ограничение скорости ввода для других структурированных источников потоковой передачи

Источники потоковой передачи, такие как Apache Kafka, имеют настраиваемые ограничения ввода, например maxOffsetsPerTrigger. Дополнительные сведения см. в разделе "Стандартные соединители" в Lakeflow Connect.

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2025-05-09