Поделиться через


Создание полностью управляемых конвейеров с помощью разностных динамических таблиц с бессерверными вычислениями

Внимание

Бессерверные конвейеры DLT доступны в общедоступной предварительной версии. Чтобы узнать о включении бессерверных конвейеров DLT, обратитесь к группе учетных записей Azure Databricks.

В этой статье объясняется, как использовать разностные динамические таблицы с бессерверными вычислениями для запуска обновлений конвейера с полностью управляемыми вычислительными ресурсами и подробными сведениями о бессерверных вычислительных функциях, которые повышают производительность конвейеров.

Используйте бессерверные конвейеры DLT для запуска конвейеров Delta Live Tables без настройки и развертывания инфраструктуры. Благодаря бессерверным конвейерам DLT основное внимание уделяется реализации приема и преобразования данных, а Azure Databricks эффективно управляет вычислительными ресурсами, включая оптимизацию и масштабирование вычислений для рабочих нагрузок. Бессерверные конвейеры DLT включают следующие возможности:

  • Автоматически оптимизированные вычислительные ресурсы, которые выполняются только при необходимости.
  • Надежные и полностью управляемые вычислительные ресурсы.
  • Более эффективные обновления набора данных с добавочным обновлением для материализованных представлений.
  • Быстрый запуск вычислительных ресурсов, выполняющих обновление конвейера.

Бессерверные конвейеры DLT также имеют следующие функции для оптимизации производительности обработки конвейеров, поддержки более эффективного использования вычислительных ресурсов и снижения затрат на выполнение конвейера:

  • Конвейерная обработка потоков: для повышения использования, пропускной способности и задержки для рабочих нагрузок потоковой передачи данных, таких как прием данных, с бессерверными конвейерами DLT, микробаты конвейеры передаются в конвейеры. Иными словами, вместо последовательного запуска микробаток, таких как стандартная структурированная потоковая передача Spark, бессерверные конвейеры DLT одновременно выполняют микробаты, что приводит к улучшению использования вычислительных ресурсов. Потоковые каналы включены по умолчанию в бессерверных конвейерах DLT.
  • Вертикальное автомасштабирование: бессерверные конвейеры DLT добавляются в горизонтальное автоматическое масштабирование, предоставляемое Databricks Enhanced Autoscaling, автоматически распределив наиболее экономичные типы экземпляров, которые могут запускать конвейер Delta Live Tables без сбоя из-за ошибок вне памяти. См. раздел "Что такое автомасштабирование по вертикали"?

Так как разрешение на создание кластера не требуется, все пользователи рабочей области могут использовать бессерверные конвейеры DLT для выполнения рабочих процессов.

Требования

  • Чтобы использовать бессерверные конвейеры DLT рабочей области, необходимо включить каталог Unity.

  • Рабочая область должна находиться в бессерверном регионе.

Запуск обновления конвейера с бессерверными конвейерами DLT

Внимание

Так как вычислительные ресурсы полностью управляются для бессерверных конвейеров DLT, параметры вычислений недоступны в пользовательском интерфейсе Delta Live Tables для бессерверного конвейера. При включении бессерверных параметров вычислений, настроенных для конвейера, удаляются. Если переключить конвейер обратно на несерверные обновления, эти параметры вычислений необходимо повторно добавить в конфигурацию конвейера. Вы также не можете вручную добавить параметры вычислений clusters в объект в конфигурации JSON для конвейера.

Чтобы запустить обновление конвейера, использующее бессерверные конвейеры DLT, установите флажок "Бессерверный " при создании или изменении конвейера.

Как материализованные представления обновляются в бессерверных конвейерах DLT?

По возможности результаты запроса обновляются постепенно для материализованных представлений в бессерверном конвейере. При выполнении добавочного обновления результаты эквивалентны полной повторной компиляции. Если материализованное представление не может быть добавочно обновлено, вместо этого процесс обновления использует полное обновление. Сведения об операциях обновления см. в разделе "Операции обновления" для материализованных представлений.

Что такое вертикальное автомасштабирование?

Бессерверные конвейеры DLT вертикального автомасштабирования автоматически выделяют наиболее экономичные доступные типы экземпляров для запуска обновлений конвейера Delta Live Tables без сбоя из-за ошибок вне памяти. Вертикальное автоматическое масштабирование масштабируется вверх, когда для выполнения обновления конвейера требуются более крупные типы экземпляров, а также масштабируется при определении того, что обновление может выполняться с меньшими типами экземпляров. Вертикальное автомасштабирование определяет, следует ли масштабировать узлы драйверов, рабочие узлы или как драйверы, так и рабочие узлы.

Вертикальное автомасштабирование используется для всех бессерверных конвейеров DLT, включая конвейеры, используемые databricks SQL материализованные представления и таблицы потоковой передачи.

Вертикальное автомасштабирование работает путем обнаружения обновлений конвейера, которые завершились сбоем из-за ошибок вне памяти. При обнаружении этих сбоев вертикальное автоматическое масштабирование выделяет более крупные типы экземпляров на основе данных вне памяти, собранных из сбоя обновления. В рабочем режиме новое обновление, использующее новые вычислительные ресурсы, запускается автоматически. В режиме разработки новые вычислительные ресурсы используются при запуске обновления вручную.

Если вертикальное автоматическое масштабирование обнаруживает, что память выделенных экземпляров постоянно недоиспользуется, она приведет к уменьшению масштаба типов экземпляров, используемых в следующем обновлении конвейера.