Запуск обновления в конвейере Разностных динамических таблиц
В этой статье объясняется, что такое обновление конвейера Delta Live Tables и как запустить его.
После создания конвейера и готовности к его запуску вы запустите обновление. Обновление конвейера выполняет следующее:
- Запускает кластер с правильной конфигурацией.
- Обнаруживает все определенные таблицы и представления и проверяет наличие ошибок анализа, таких как недопустимые имена столбцов, отсутствующие зависимости и синтаксические ошибки.
- Создает или обновляет таблицы и представления, используя самые актуальные доступные данные.
С помощью обновления проверки можно проверить наличие проблем в исходном коде конвейера, не ожидая создания или обновления таблиц. Эта функция полезна при разработке или тестировании конвейеров, так как она позволяет быстро находить и устранять ошибки в конвейере, например неправильные имена таблиц или столбцов.
Сведения о создании конвейера см. в руководстве . Запуск первого конвейера Delta Live Tables.
Запуск обновления конвейера
Azure Databricks имеет несколько вариантов запуска обновлений конвейера, включая следующие:
- В пользовательском интерфейсе разностных динамических таблиц доступны следующие параметры:
- Нажмите кнопку на странице сведений о конвейере.
- В списке конвейеров щелкните столбец "Действия ".
- Чтобы запустить обновление записной книжки, щелкните Delta Live Tables > Start на панели инструментов записной книжки. См . статью "Открыть" или запустить конвейер Delta Live Tables из записной книжки.
- Конвейеры можно активировать программным способом с помощью API или ИНТЕРФЕЙСА командной строки. См статью: _.
- Конвейер можно запланировать как задание с помощью пользовательского интерфейса разностных динамических таблиц или пользовательского интерфейса заданий. Дополнительные сведения см. в подразделе Создание расписания конвейера.
Примечание.
Поведение по умолчанию для обновлений конвейера вручную с помощью любого из этих методов заключается в обновлении всех.
Как разностные динамические таблицы обновляют таблицы и представления
Обновленные таблицы и представления, а также обновление этих таблиц и представлений зависят от типа обновления:
- Обновите все: все таблицы обновляются, чтобы отразить текущее состояние источников входных данных. Для потоковых таблиц новые строки добавляются в таблицу.
- Полное обновление: все таблицы обновляются, чтобы отразить текущее состояние их входных источников данных. Для потоковых таблиц разностные динамические таблицы пытаются очистить все данные из каждой таблицы, а затем загрузить все данные из источника потоковой передачи.
- Выбор обновления: поведение
refresh selection
идентичноrefresh all
, но позволяет обновлять только выбранные таблицы. Выбранные таблицы обновляются, чтобы отразить текущее состояние источников входных данных. Для потоковых таблиц новые строки добавляются в таблицу. - Полный выбор обновления: поведение
full refresh selection
идентичноfull refresh all
, но позволяет выполнять полное обновление только выбранных таблиц. Выбранные таблицы обновляются, чтобы отразить текущее состояние источников входных данных. Для потоковых таблиц разностные динамические таблицы пытаются очистить все данные из каждой таблицы, а затем загрузить все данные из источника потоковой передачи.
Для существующих материализованных представлений обновление имеет то же поведение, что и SQL REFRESH
в материализованном представлении. Для новых материализованных представлений поведение совпадает с операцией SQL CREATE
.
Запуск обновления конвейера для выбранных таблиц
При необходимости можно повторно обрабатывать данные только для выбранных таблиц в конвейере. Например, во время разработки вы измените только одну таблицу и захотите сократить время тестирования, или обновление конвейера завершится сбоем, и вам нужно будет обновить только таблицы с ошибками.
Примечание.
Выборочное обновление можно использовать только с активированными конвейерами.
Чтобы запустить обновление только выбранных таблиц, на странице Сведения о конвейере:
Щелкните Выбрать таблицы для обновления. Откроется диалоговое окно Выбор таблиц для обновления.
Если вы не видите таблицы выбора для обновления , убедитесь, что на странице сведений о конвейере отображается последнее обновление и что обновление завершено. Если daG не отображается для последнего обновления, например из-за сбоя обновления, кнопка "Выбрать таблицы для обновления " не отображается.
Чтобы выбрать таблицы для обновления, щелкните каждую таблицу. Выбранные таблицы будут выделены и помечены. Чтобы удалить таблицу из обновления, снова щелкните таблицу.
Нажмите Обновить выбор.
Примечание.
На кнопке Обновить выбор отображается количество выбранных таблиц в круглых скобках.
Чтобы повторно обработать данные, уже обработанные для выбранных таблиц, нажмите рядом с кнопкой "Обновить выбор" и нажмите кнопку "Полное обновление".
Запуск обновления конвейера для таблиц со сбоями
Если обновление конвейера завершается сбоем из-за ошибок в одной или нескольких таблицах в графе конвейера, можно запустить обновление только таблиц со сбоями и всех подчиненных зависимостей.
Примечание.
Исключенные таблицы не обновляются, даже если они зависят от таблицы со сбоем.
Чтобы обновить таблицы со сбоями, на странице Сведения о конвейере нажмите кнопку Обновить со сбоями таблицы.
Чтобы обновить только выбранные таблицы со сбоями:
Нажмите рядом с кнопкой "Обновить неудачные таблицы " и нажмите кнопку " Выбрать таблицы для обновления". Откроется диалоговое окно Выбор таблиц для обновления.
Чтобы выбрать таблицы для обновления, щелкните каждую таблицу. Выбранные таблицы будут выделены и помечены. Чтобы удалить таблицу из обновления, снова щелкните таблицу.
Нажмите Обновить выбор.
Примечание.
На кнопке Обновить выбор отображается количество выбранных таблиц в круглых скобках.
Чтобы повторно обработать данные, уже обработанные для выбранных таблиц, нажмите рядом с кнопкой "Обновить выбор" и нажмите кнопку "Полное обновление".
Проверка конвейера ошибок без ожидания обновления таблиц
Внимание
Функция обновления разностных динамических таблиц Validate
доступна в общедоступной предварительной версии.
Чтобы проверить, является ли исходный код конвейера допустимым без выполнения полного обновления, используйте проверку. Обновление Validate
разрешает определения наборов данных и потоков, определенных в конвейере, но не материализует или не публикует наборы данных. Ошибки, обнаруженные во время проверки, например неправильные имена таблиц или столбцов, сообщаются в пользовательском интерфейсе.
Чтобы запустить обновление, щелкните страницу сведений о конвейере Validate
рядом с кнопкой "Пуск" и нажмите кнопку "Проверить".
Validate
После завершения обновления журнал событий отображает события, связанные только с Validate
обновлением, и в DAG не отображаются метрики. Если обнаружены ошибки, сведения доступны в журнале событий.
Результаты можно просмотреть только для последнего Validate
обновления. Validate
Если обновление было последним, вы можете просмотреть результаты, выбрав его в журнале обновлений. Если после обновления выполняется другое Validate
обновление, результаты больше не доступны в пользовательском интерфейсе.
Выбор границ конвейера
Конвейер Разностных динамических таблиц может обрабатывать обновления одной таблицы, многие таблицы с зависимыми связями, многие таблицы без связей или несколько независимых потоков таблиц с зависимыми связями. В этом разделе содержатся рекомендации, которые помогут определить, как разбить конвейеры.
Конвейеры больших динамических таблиц delta имеют несколько преимуществ. следующие основные параметры.
- Более эффективно используйте ресурсы кластера.
- Уменьшите количество конвейеров в рабочей области.
- Уменьшите сложность оркестрации рабочих процессов.
Ниже приведены некоторые распространенные рекомендации по разделу конвейеров обработки:
- Разделение функциональных возможностей в границах группы. Например, команда данных может поддерживать конвейеры для преобразования данных, а аналитики данных поддерживают конвейеры, которые анализируют преобразованные данные.
- Разделение функциональных возможностей на границах, связанных с приложением, чтобы уменьшить связь и упростить повторное использование общих функциональных возможностей.
Разработка и применение в рабочей среде
Можно оптимизировать выполнение конвейера, переключаясь между режимами разработки и рабочей среды. Используйте кнопки в пользовательском интерфейсе Pipelines для переключения между этими двумя режимами. По умолчанию конвейеры работают в режиме разработки.
При запуске конвейера в режиме разработки система разностных динамических таблиц выполняет следующие действия:
- Повторно использует кластер, чтобы избежать дополнительных расходов на перезапуски. По умолчанию кластеры выполняются в течение двух часов при включении режима разработки. Это можно изменить с
pipelines.clusterShutdown.delay
помощью параметра в конвейере "Настройка вычислений для динамических таблиц Delta". - Отключает повторные попытки конвейера, чтобы можно было немедленно обнаруживать и исправлять ошибки.
В рабочем режиме система разностных динамических таблиц выполняет следующие действия:
- Перезапускает кластер для определенных устранимых ошибок, включая утечки памяти и устаревшие учетные данные.
- Повторите выполнение в случае определенных ошибок, таких как сбой запуска кластера.
Примечание.
Переключение между режимами разработки и рабочей среды контролирует только поведение выполнения кластера и конвейера. Расположения хранилища и целевые схемы в каталоге для таблиц публикации должны быть настроены как часть параметров конвейера и не затрагиваются при переключении между режимами.
Создание расписания конвейера
Вы можете запускать активированный конвейер вручную или запускать конвейер по расписанию с помощью задания Azure Databricks. Вы можете создать и запланировать задание с одной задачей конвейера непосредственно в пользовательском интерфейсе разностных динамических таблиц или добавить задачу конвейера в рабочий процесс с несколькими задачами в пользовательском интерфейсе заданий. См . задачу конвейера delta Live Tables для заданий.
Чтобы создать задание с одной задачей и расписание для задания в пользовательском интерфейсе разностных динамических таблиц, выполните следующие действия.
- Выберите Расписание > Добавить расписание. Если конвейер включен в одно или несколько запланированных заданий, кнопка "Расписание " обновляется, чтобы отобразить количество существующих расписаний, например расписание (5).
- Введите имя задания в поле Имя задания.
- Установите для параметра Расписание значение По расписанию.
- Укажите период, время начала и часовой пояс.
- Настройте один или несколько адресов электронной почты, на которые будут отправляться оповещения о запуске конвейера и об его успешном или неуспешном выполнении.
- Нажмите кнопку Создать.