Поделиться через


Запуск обновления в конвейере Разностных динамических таблиц

В этой статье объясняется, что такое обновление конвейера Delta Live Tables и как запустить его.

После создания конвейера и готовности к его запуску вы запустите обновление. Обновление конвейера выполняет следующее:

  • Запускает кластер с правильной конфигурацией.
  • Обнаруживает все определенные таблицы и представления и проверяет наличие ошибок анализа, таких как недопустимые имена столбцов, отсутствующие зависимости и синтаксические ошибки.
  • Создает или обновляет таблицы и представления, используя самые актуальные доступные данные.

С помощью обновления проверки можно проверить наличие проблем в исходном коде конвейера, не ожидая создания или обновления таблиц. Эта функция полезна при разработке или тестировании конвейеров, так как она позволяет быстро находить и устранять ошибки в конвейере, например неправильные имена таблиц или столбцов.

Сведения о создании конвейера см. в руководстве . Запуск первого конвейера Delta Live Tables.

Запуск обновления конвейера

Azure Databricks имеет несколько вариантов запуска обновлений конвейера, включая следующие:

  • В пользовательском интерфейсе разностных динамических таблиц доступны следующие параметры:
    • Нажмите кнопку на странице сведений о Значок запуска разностных динамических таблиц конвейере.
    • В списке конвейеров щелкните Значок стрелки вправо столбец "Действия ".
  • Чтобы запустить обновление записной книжки, щелкните Delta Live Tables > Start на панели инструментов записной книжки. См . статью "Открыть" или запустить конвейер Delta Live Tables из записной книжки.
  • Конвейеры можно активировать программным способом с помощью API или ИНТЕРФЕЙСА командной строки. См статью: _.
  • Конвейер можно запланировать как задание с помощью пользовательского интерфейса разностных динамических таблиц или пользовательского интерфейса заданий. Дополнительные сведения см. в подразделе Создание расписания конвейера.

Примечание.

Поведение по умолчанию для обновлений конвейера вручную с помощью любого из этих методов заключается в обновлении всех.

Как разностные динамические таблицы обновляют таблицы и представления

Обновленные таблицы и представления, а также обновление этих таблиц и представлений зависят от типа обновления:

  • Обновите все: все таблицы обновляются, чтобы отразить текущее состояние источников входных данных. Для потоковых таблиц новые строки добавляются в таблицу.
  • Полное обновление: все таблицы обновляются, чтобы отразить текущее состояние их входных источников данных. Для потоковых таблиц разностные динамические таблицы пытаются очистить все данные из каждой таблицы, а затем загрузить все данные из источника потоковой передачи.
  • Выбор обновления: поведение refresh selection идентично refresh all , но позволяет обновлять только выбранные таблицы. Выбранные таблицы обновляются, чтобы отразить текущее состояние источников входных данных. Для потоковых таблиц новые строки добавляются в таблицу.
  • Полный выбор обновления: поведение full refresh selection идентично full refresh all , но позволяет выполнять полное обновление только выбранных таблиц. Выбранные таблицы обновляются, чтобы отразить текущее состояние источников входных данных. Для потоковых таблиц разностные динамические таблицы пытаются очистить все данные из каждой таблицы, а затем загрузить все данные из источника потоковой передачи.

Для существующих материализованных представлений обновление имеет то же поведение, что и SQL REFRESH в материализованном представлении. Для новых материализованных представлений поведение совпадает с операцией SQL CREATE .

Запуск обновления конвейера для выбранных таблиц

При необходимости можно повторно обрабатывать данные только для выбранных таблиц в конвейере. Например, во время разработки вы измените только одну таблицу и захотите сократить время тестирования, или обновление конвейера завершится сбоем, и вам нужно будет обновить только таблицы с ошибками.

Примечание.

Выборочное обновление можно использовать только с активированными конвейерами.

Чтобы запустить обновление только выбранных таблиц, на странице Сведения о конвейере:

  1. Щелкните Выбрать таблицы для обновления. Откроется диалоговое окно Выбор таблиц для обновления.

    Если вы не видите таблицы выбора для обновления , убедитесь, что на странице сведений о конвейере отображается последнее обновление и что обновление завершено. Если daG не отображается для последнего обновления, например из-за сбоя обновления, кнопка "Выбрать таблицы для обновления " не отображается.

  2. Чтобы выбрать таблицы для обновления, щелкните каждую таблицу. Выбранные таблицы будут выделены и помечены. Чтобы удалить таблицу из обновления, снова щелкните таблицу.

  3. Нажмите Обновить выбор.

    Примечание.

    На кнопке Обновить выбор отображается количество выбранных таблиц в круглых скобках.

Чтобы повторно обработать данные, уже обработанные для выбранных таблиц, нажмите Синий вниз caret рядом с кнопкой "Обновить выбор" и нажмите кнопку "Полное обновление".

Запуск обновления конвейера для таблиц со сбоями

Если обновление конвейера завершается сбоем из-за ошибок в одной или нескольких таблицах в графе конвейера, можно запустить обновление только таблиц со сбоями и всех подчиненных зависимостей.

Примечание.

Исключенные таблицы не обновляются, даже если они зависят от таблицы со сбоем.

Чтобы обновить таблицы со сбоями, на странице Сведения о конвейере нажмите кнопку Обновить со сбоями таблицы.

Чтобы обновить только выбранные таблицы со сбоями:

  1. Нажмите Кнопка рядом с кнопкой "Обновить неудачные таблицы " и нажмите кнопку " Выбрать таблицы для обновления". Откроется диалоговое окно Выбор таблиц для обновления.

  2. Чтобы выбрать таблицы для обновления, щелкните каждую таблицу. Выбранные таблицы будут выделены и помечены. Чтобы удалить таблицу из обновления, снова щелкните таблицу.

  3. Нажмите Обновить выбор.

    Примечание.

    На кнопке Обновить выбор отображается количество выбранных таблиц в круглых скобках.

Чтобы повторно обработать данные, уже обработанные для выбранных таблиц, нажмите Синий вниз caret рядом с кнопкой "Обновить выбор" и нажмите кнопку "Полное обновление".

Проверка конвейера ошибок без ожидания обновления таблиц

Внимание

Функция обновления разностных динамических таблиц Validate доступна в общедоступной предварительной версии.

Чтобы проверить, является ли исходный код конвейера допустимым без выполнения полного обновления, используйте проверку. Обновление Validate разрешает определения наборов данных и потоков, определенных в конвейере, но не материализует или не публикует наборы данных. Ошибки, обнаруженные во время проверки, например неправильные имена таблиц или столбцов, сообщаются в пользовательском интерфейсе.

Чтобы запустить обновление, щелкнитеСиний вниз caret страницу сведений о конвейере Validate рядом с кнопкой "Пуск" и нажмите кнопку "Проверить".

Validate После завершения обновления журнал событий отображает события, связанные только с Validate обновлением, и в DAG не отображаются метрики. Если обнаружены ошибки, сведения доступны в журнале событий.

Результаты можно просмотреть только для последнего Validate обновления. Validate Если обновление было последним, вы можете просмотреть результаты, выбрав его в журнале обновлений. Если после обновления выполняется другое Validate обновление, результаты больше не доступны в пользовательском интерфейсе.

Выбор границ конвейера

Конвейер Разностных динамических таблиц может обрабатывать обновления одной таблицы, многие таблицы с зависимыми связями, многие таблицы без связей или несколько независимых потоков таблиц с зависимыми связями. В этом разделе содержатся рекомендации, которые помогут определить, как разбить конвейеры.

Конвейеры больших динамических таблиц delta имеют несколько преимуществ. следующие основные параметры.

  • Более эффективно используйте ресурсы кластера.
  • Уменьшите количество конвейеров в рабочей области.
  • Уменьшите сложность оркестрации рабочих процессов.

Ниже приведены некоторые распространенные рекомендации по разделу конвейеров обработки:

  • Разделение функциональных возможностей в границах группы. Например, команда данных может поддерживать конвейеры для преобразования данных, а аналитики данных поддерживают конвейеры, которые анализируют преобразованные данные.
  • Разделение функциональных возможностей на границах, связанных с приложением, чтобы уменьшить связь и упростить повторное использование общих функциональных возможностей.

Разработка и применение в рабочей среде

Можно оптимизировать выполнение конвейера, переключаясь между режимами разработки и рабочей среды. Используйте кнопки Значок переключателя среды разностных динамических таблиц в пользовательском интерфейсе Pipelines для переключения между этими двумя режимами. По умолчанию конвейеры работают в режиме разработки.

При запуске конвейера в режиме разработки система разностных динамических таблиц выполняет следующие действия:

  • Повторно использует кластер, чтобы избежать дополнительных расходов на перезапуски. По умолчанию кластеры выполняются в течение двух часов при включении режима разработки. Это можно изменить с pipelines.clusterShutdown.delay помощью параметра в конвейере "Настройка вычислений для динамических таблиц Delta".
  • Отключает повторные попытки конвейера, чтобы можно было немедленно обнаруживать и исправлять ошибки.

В рабочем режиме система разностных динамических таблиц выполняет следующие действия:

  • Перезапускает кластер для определенных устранимых ошибок, включая утечки памяти и устаревшие учетные данные.
  • Повторите выполнение в случае определенных ошибок, таких как сбой запуска кластера.

Примечание.

Переключение между режимами разработки и рабочей среды контролирует только поведение выполнения кластера и конвейера. Расположения хранилища и целевые схемы в каталоге для таблиц публикации должны быть настроены как часть параметров конвейера и не затрагиваются при переключении между режимами.

Создание расписания конвейера

Вы можете запускать активированный конвейер вручную или запускать конвейер по расписанию с помощью задания Azure Databricks. Вы можете создать и запланировать задание с одной задачей конвейера непосредственно в пользовательском интерфейсе разностных динамических таблиц или добавить задачу конвейера в рабочий процесс с несколькими задачами в пользовательском интерфейсе заданий. См . задачу конвейера delta Live Tables для заданий.

Чтобы создать задание с одной задачей и расписание для задания в пользовательском интерфейсе разностных динамических таблиц, выполните следующие действия.

  1. Выберите Расписание > Добавить расписание. Если конвейер включен в одно или несколько запланированных заданий, кнопка "Расписание " обновляется, чтобы отобразить количество существующих расписаний, например расписание (5).
  2. Введите имя задания в поле Имя задания.
  3. Установите для параметра Расписание значение По расписанию.
  4. Укажите период, время начала и часовой пояс.
  5. Настройте один или несколько адресов электронной почты, на которые будут отправляться оповещения о запуске конвейера и об его успешном или неуспешном выполнении.
  6. Нажмите кнопку Создать.