Общие сведения о мониторинге Databricks Lakehouse

Внимание

Эта функция предоставляется в режиме общедоступной предварительной версии.

В этой статье описывается Мониторинг Databricks Lakehouse. Он охватывает преимущества мониторинга данных и предоставляет общие сведения о компонентах и использовании Databricks Lakehouse Monitoring.

Databricks Lakehouse Monitoring позволяет отслеживать статистические свойства и качество данных во всех таблицах в вашей учетной записи. Вы также можете использовать его для отслеживания производительности моделей машинного обучения и конечных точек, обслуживающих модели, путем мониторинга таблиц вывода, содержащих входные и прогнозы модели. На схеме показан поток данных через конвейеры данных и машинного обучения в Databricks, а также способы непрерывного отслеживания качества данных и производительности модели.

Обзор мониторинга Databricks Lakehouse

Зачем использовать Мониторинг Databricks Lakehouse?

Чтобы получить полезные аналитические сведения из данных, необходимо иметь уверенность в качестве данных. Мониторинг данных предоставляет количественные меры, которые помогают отслеживать качество и согласованность данных с течением времени. При обнаружении изменений в распределении данных таблицы или производительности соответствующей модели таблицы, созданные Databricks Lakehouse Monitoring, могут записывать и оповещать вас об изменении и помочь вам определить причину.

Databricks Lakehouse Monitoring помогает ответить на такие вопросы:

  • Как выглядит целостность данных и как она изменяется с течением времени? Например, что такое доля значений NULL или ноль в текущих данных и увеличилась?
  • Как выглядит статистическое распределение данных и как оно изменяется с течением времени? Например, что такое 90-й процентиль числового столбца? Или, что такое распределение значений в категориального столбца и как оно отличается от вчерашнего дня?
  • Существует ли смещение между текущими данными и известной базовой базой данных или между последовательными периодами времени данных?
  • Как выглядит статистическое распределение или смещение подмножества или среза данных?
  • Как с течением времени перемещаются входные и прогнозы модели машинного обучения?
  • Как с течением времени тенденция к производительности модели? Работает ли модель A лучше, чем версия B?

Кроме того, Databricks Lakehouse Monitoring позволяет управлять степенью детализации наблюдений и настраивать пользовательские метрики.

Требования

Для использования Databricks Lakehouse Monitoring требуются следующие компоненты:

  • Рабочая область должна быть включена для каталога Unity, и у вас должен быть доступ к Databricks SQL.
  • Поддерживаются только разностные таблицы, включая управляемые таблицы, внешние таблицы, представления, материализованные представления и потоковые таблицы. Мониторы, созданные над материализованными представлениями и таблицами потоковой передачи, не поддерживают добавочную обработку.
  • Не все регионы поддерживаются. Сведения о региональной поддержке см. в регионах Azure Databricks.

Примечание.

Databricks Lakehouse Monitoring использует бессерверные вычисления для рабочих процессов. Сведения об отслеживании расходов на мониторинг Lakehouse см. в разделе Просмотр расходов на мониторинг Lakehouse.

Как работает мониторинг Lakehouse в Databricks

Чтобы отслеживать таблицу в Databricks, создайте монитор, подключенный к таблице. Чтобы отслеживать производительность модели машинного обучения, вы подключаете монитор к таблице вывода, содержащей входные данные модели и соответствующие прогнозы.

Databricks Lakehouse Monitoring предоставляет следующие типы анализа: временные ряды, моментальные снимки и вывод.

Тип графика Description
Временной ряд Используется для таблиц, содержащих набор данных временных рядов на основе столбца метки времени. Мониторинг вычисляет метрики качества данных в временных окнах временных рядов.
Вывод Используется для таблиц, содержащих журнал запросов для модели. Каждая строка — это запрос, с столбцами метки времени, входными данными модели, соответствующим прогнозом и (необязательно) меткой на основе земли. Мониторинг сравнивает производительность модели и метрики качества данных в окнах на основе времени журнала запросов.
Снимок Используется для всех других типов таблиц. Мониторинг вычисляет метрики качества данных по всем данным в таблице. Полная таблица обрабатывается при каждом обновлении.

В этом разделе кратко описаны входные таблицы, используемые Databricks Lakehouse Monitoring и создаваемые метрики. На схеме показана связь между входной таблицей, таблицами метрик, монитором и панелью мониторинга.

Схема мониторинга Databricks Lakehouse

Основная таблица и базовая таблица

Помимо отслеживаемой таблицы, называемой основной таблицей, можно также указать базовую таблицу, которая будет использоваться в качестве ссылки для измерения смещения, или изменения значений с течением времени. Базовая таблица полезна при наличии примера того, что вы ожидаете, что данные будут выглядеть. Идея заключается в том, что смещение затем вычисляется относительно ожидаемых значений и распределений данных.

Базовая таблица должна содержать набор данных, который отражает ожидаемое качество входных данных с точки зрения статистических распределений, распределения отдельных столбцов, отсутствующих значений и других характеристик. Она должна соответствовать схеме отслеживаемой таблицы. Исключением является столбец метки времени для таблиц, используемых с профилями временных рядов или выводов. Если столбцы отсутствуют в основной таблице или базовой таблице, мониторинг использует эвристики лучших усилий для вычисления выходных метрик.

Для мониторов, использующих профиль моментального снимка, базовая таблица должна содержать моментальный снимок данных, в которых распределение представляет приемлемый стандарт качества. Например, при оценке данных распределения можно задать базовый план для предыдущего класса, где классы распределялись равномерно.

Для мониторов, использующих профиль временных рядов, базовая таблица должна содержать данные, представляющие интервалы времени, в которых распределение данных представляет приемлемый стандарт качества. Например, для данных о погоде можно задать базовые показатели на неделю, месяц или год, где температура была близка к ожидаемым нормальным температурам.

Для мониторов, использующих профиль вывода, хорошим выбором для базового плана является данные, которые использовались для обучения или проверки отслеживаемой модели. Таким образом, пользователи могут быть оповещены, когда данные смещались относительно того, на что была обучена и проверена модель. Эта таблица должна содержать те же столбцы признаков, что и первичная таблица, а также должна иметь то же model_id_col самое, что было указано для вывода основной таблицы, чтобы данные агрегировались согласованно. В идеале набор тестов или проверки, используемый для оценки модели, должен использоваться для обеспечения сопоставимых метрик качества модели.

Таблицы метрик и панель мониторинга

Монитор таблиц создает две таблицы метрик и панель мониторинга. Значения метрик вычисляются для всей таблицы, а для подмножеств времени и подмножества данных (или срезов), указанных при создании монитора. Кроме того, для анализа вывода метрики вычисляются для каждого идентификатора модели. Дополнительные сведения о таблицах метрик см. в разделе "Мониторинг таблиц метрик".

  • Таблица метрик профиля содержит сводную статистику. См. схему таблицы метрик профиля.
  • Таблица метрик смещения содержит статистику, связанную с дрейфом данных с течением времени. Если указана базовая таблица, смещение также отслеживается относительно базовых значений. См. схему таблицы смещения метрик.

Таблицы метрик — это разностные таблицы и хранятся в указанной схеме каталога Unity. Эти таблицы можно просматривать с помощью пользовательского интерфейса Databricks, запрашивать их с помощью Databricks SQL и создавать панели мониторинга и оповещения на основе них.

Для каждого монитора Databricks автоматически создает панель мониторинга для визуализации и представления результатов монитора. Панель мониторинга полностью настраивается, как и любая другая устаревшая панель мониторинга.

Начало работы с мониторингом Lakehouse в Databricks

Ознакомьтесь со следующими статьями, чтобы приступить к работе: