Сравнение режимов обнаружения файлов автозагрузчика

Автозагрузчик поддерживает два режима обнаружения новых файлов: листинг каталога и уведомление о файлах. Можно переключать режимы обнаружения файлов во время перезапуска потоков и по-прежнему иметь гарантии обработки данных "только один раз".

Режим списка каталогов

В режиме списка каталогов автозагрузчик определяет новые файлы путем вывода перечисления входного каталога. Режим листинга каталога позволяет быстро запускать потоки Автозагрузчика без каких бы то ни было конфигураций разрешений, кроме доступа к данным в облачном хранилище.

В Databricks Runtime 9.1 и более поздних версиях автозагрузчик может автоматически определить, приходят ли файлы с лексическим упорядочением в облачное хранилище и значительно сокращают количество вызовов API, необходимых для обнаружения новых файлов. Дополнительные сведения см. в разделе "Что такое режим списка каталогов автозагрузчика"?

Режим уведомлений о файлах

В режиме уведомлений о файлах используются службы уведомлений о файлах и очереди в учетной записи облачной инфраструктуры. Автозагрузчик может автоматически настроить службу уведомлений и службу очередей, которые подписываются на события файлов из входного каталога.

Режим уведомлений файлов является более производительным и масштабируемым для больших каталогов ввода или большого объема файлов, но требует дополнительных облачных разрешений для настройки. Дополнительные сведения см. в разделе "Что такое режим уведомлений файлов автозагрузчика?".

Облачное хранилище, поддерживаемое режимами

Доступность этих режимов приведена ниже.

При миграции из внешнего расположения или подключения DBFS к тому каталога Unity автозагрузчик продолжает предоставлять точно однократные гарантии.

Облачное хранилище Список каталогов Уведомления о файлах
AWS S3 Все версии Все версии
ADLS 2-го поколения Все версии Все версии
GCS Все версии Databricks Runtime 9.1 и выше
Хранилище BLOB-объектов Azure Все версии Все версии
ADLS 1-го поколения Все версии Не поддерживается
Файловая система Databricks Все версии Только для точек подключения
Том каталога Unity Databricks Runtime 13.3 LTS и более поздних версий Не поддерживается