Поделиться через


Инициация заданий при получении новых файлов

Триггеры прибытия файлов можно использовать для запуска задания Azure Databricks при поступлении новых файлов в внешнее расположение, например Amazon S3, хранилище Azure или Google Cloud служба хранилища. Эту функцию можно использовать, если запланированные задания неэффективны из-за нерегулярного поступления новых данных.

Триггеры прибытия файлов делают все возможное, чтобы проверка для новых файлов каждую минуту, хотя это может повлиять на производительность базового облачного хранилища. Триггеры прибытия файлов не влечет за собой дополнительные затраты, отличные от затрат поставщика облачных служб, связанных с перечислением файлов в расположении хранилища.

Триггер прибытия файла можно настроить для отслеживания корневого каталога Unity external location или volume, или подпата внешнего расположения или тома. Например, для корневого тома /Volumes/mycatalog/myschema/myvolume/каталога Unity ниже приведены допустимые пути для триггера прибытия файла:

/Volumes/mycatalog/myschema/myvolume/
/Volumes/mycatalog/myschema/myvolume/mydirectory/

Требования

Для использования триггеров прибытия файла необходимо следующее:

  • Рабочая область должна включать каталог Unity.
  • Необходимо использовать расположение хранилища, которое является томом каталога Unity или внешним расположением, добавленным в хранилище метаданных каталога Unity. См. статью "Создание внешнего расположения для подключения облачного хранилища к Azure Databricks".
  • У вас должны быть READ разрешения на расположение хранилища и разрешения CAN MANAGE для задания. Дополнительные сведения о разрешениях задания см. в разделе ACL заданий.

Ограничения

  • С помощью триггера прибытия файла в рабочую область Azure Databricks можно настроить не более пятидесяти заданий.
  • Расположение хранилища, настроенное для триггера прибытия файла, может содержать только до 10 000 файлов. Расположения с большими файлами не могут отслеживаться для получения новых поступлений файлов. Если настроенное расположение хранилища является подпатом к внешнему расположению или тому каталога Unity, ограничение в 10 000 файлов применяется к подпутью, а не к корневому каталогу хранилища. Например, корневой каталог расположения хранилища может содержать более 10 000 файлов в его подкаталогах, но настроенная подкаталога не должна превышать 10 000 файлов.
  • Путь, используемый для триггера "При получении файла", не должен содержать внешних таблиц или управляемых расположений каталогов и схем.

Добавление триггера прибытия файла

Чтобы добавить триггер прибытия файла в задание:

  1. На боковой панели щелкните "Рабочие процессы".
  2. В столбце "Имя" на вкладке "Задания " щелкните имя задания.
  3. На панели сведений о задании справа нажмите кнопку "Добавить триггер".
  4. В типе триггера выберите "Прибытие файла".
  5. В служба хранилища расположении введите URL-адрес корневого каталога или подпата внешнего расположения каталога Unity, корневого или подпата тома каталога Unity для отслеживания.
  6. (Необязательно) Настройка дополнительных параметров:
    • Минимальное время между триггерами в секундах: минимальное время ожидания запуска после завершения предыдущего выполнения. Файлы, поступающие в этот период, активируют запуск только после истечения срока ожидания. Используйте этот параметр для управления частотой создания запуска.
    • Подождите после последнего изменения в секундах: время ожидания запуска после прибытия файла. Другой прибытие файла в этот период сбрасывает таймер. Этот параметр можно использовать при поступлении файлов в пакеты, а весь пакет должен обрабатываться после поступления всех файлов.
  7. Чтобы проверить конфигурацию, нажмите кнопку "Проверить подключение".
  8. Нажмите кнопку Сохранить.

Получение уведомлений о неудавшихся попытках триггеров "При получении файла"

Чтобы получать оповещения, если триггеру "При получении файла" не удается выполнить оценку, настройте уведомления по электронной почте или системные уведомления о сбое задания. См. статью "Добавление уведомлений по электронной почте и системе" для событий задания.