Создание монитора с помощью пользовательского интерфейса Databricks
В этой статье показано создание монитора данных с помощью пользовательского интерфейса Databricks. Вы также можете использовать API.
Чтобы получить доступ к пользовательскому интерфейсу Databricks, выполните следующие действия.
- В левой боковой панели рабочей области щелкните , чтобы открыть обозреватель каталогов.
- Перейдите к таблице, которую вы хотите отслеживать.
- Щелкните вкладку " Качество ".
- Нажмите кнопку "Начало работы ".
- В разделе "Создание монитора" выберите параметры, которые нужно настроить.
Профилирование
В меню "Тип профиля" выберите тип монитора, который требуется создать. Типы профилей отображаются в таблице.
Тип графика | Description |
---|---|
Профиль временных рядов | Таблица, содержащая значения, измеряемые с течением времени. Эта таблица содержит столбец метки времени. |
Профиль вывода | Таблица, содержащая прогнозируемые значения в модели классификации машинного обучения или регрессии. Эта таблица включает метку времени, идентификатор модели, входные данные модели (функции), столбец, содержащий прогнозы модели, и необязательные столбцы, содержащие уникальные идентификаторы наблюдений и метки истины земли. Он также может содержать метаданные, такие как демографические сведения, которые не используются в качестве входных данных в модель, но могут оказаться полезными для исследований справедливости и предвзятости или другого мониторинга. |
Профиль моментального снимка | Любая управляемая таблица Delta, внешняя таблица, представление, материализованное представление или потоковая таблица. |
При выборе TimeSeries
или Inference
необходимости требуются дополнительные параметры и описаны в следующих разделах.
Примечание.
- При первом создании временных рядов или профилей вывода монитор анализирует только данные с 30 дней до его создания. После создания монитора обрабатываются все новые данные.
- Мониторы, определенные для материализованных представлений и потоковых таблиц, не поддерживают добавочную обработку.
Совет
Для TimeSeries
и Inference
профилей рекомендуется включить веб-канал данных изменений (CDF) в таблице. Если CDF включен, обрабатываются только только новые добавленные данные, а не повторной обработки всей таблицы при каждом обновлении. Это повышает эффективность выполнения и снижает затраты при масштабировании мониторинга во многих таблицах.
TimeSeries
профиль
TimeSeries
Для профиля необходимо выбрать следующие элементы:
- Укажите детализацию метрик, которая определяет, как секционировать данные в окнах по времени.
- Укажите столбец метки времени, столбец в таблице, содержащей метку времени. Тип данных столбца метки времени должен быть либо
TIMESTAMP
типом, который можно преобразовать в метки времени с помощьюto_timestamp
функции PySpark.
Inference
профиль
Inference
Для профиля в дополнение к детализации и метке времени необходимо выбрать следующие элементы:
- Выберите тип проблемы либо классификацию, либо регрессию.
- Укажите столбец прогнозирования, столбец, содержащий прогнозируемые значения модели.
- При необходимости укажите столбец Label, столбец, содержащий истину земли для прогнозов моделей.
- Укажите столбец идентификатора модели, столбец, содержащий идентификатор модели, используемой для прогнозирования.
Расписание
Чтобы настроить монитор для запуска по расписанию, выберите "Обновить по расписанию " и выберите частоту и время запуска монитора. Если монитор не будет запущен автоматически, нажмите кнопку "Обновить вручную". Если выбрать "Обновить" вручную, можно позже обновить метрики на вкладке " Качество ".
Notifications
Чтобы настроить Уведомления по электронной почте для монитора, введите сообщение электронной почты для уведомления и выберите уведомления, которые нужно включить. Для каждого типа события уведомления поддерживается до 5 сообщений электронной почты.
Общие
В разделе "Общие" необходимо указать один обязательный параметр и некоторые дополнительные параметры конфигурации:
- Необходимо указать схему каталога Unity, в которой хранятся таблицы метрик, созданные монитором. Расположение должно находиться в формате {catalog}. {schema}.
Можно также указать следующие параметры:
Каталог ресурсов. Введите абсолютный путь к существующему каталогу для хранения ресурсов мониторинга, таких как созданная панель мониторинга. По умолчанию ресурсы хранятся в каталоге по умолчанию: "/Users/{user_name}/databricks_lakehouse_monitoring/{table_name}". Если ввести другое расположение в этом поле, ресурсы создаются в разделе "/{table_name}" в указанном каталоге. Этот каталог может находиться в любом месте рабочей области. Для мониторов, предназначенных для общего доступа в организации, можно использовать путь в каталоге "/Shared/".
Это поле не может оставаться пустым.
Имя базовой таблицы каталога Unity. Имя таблицы или представления, содержащей базовые данные для сравнения. Дополнительные сведения о базовых таблицах см. в разделе "Основная входная таблица" и "Базовая таблица".
Выражения срезов метрик. Выражения срезов позволяют определять подмножества таблицы для отслеживания в дополнение к таблице в целом. Чтобы создать выражение срезов, нажмите кнопку "Добавить выражение " и введите определение выражения. Например, выражение
"col_2 > 10"
создает два среза: один дляcol_2 > 10
и один дляcol_2 <= 10
. В другом примере выражение"col_1"
создаст один срез для каждого уникального значения.col_1
Данные группируются по каждому выражению независимо, что приводит к отдельному срезу для каждого предиката и его дополнений.Пользовательские метрики. Пользовательские метрики отображаются в таблицах метрик, таких как любая встроенная метрика. Дополнительные сведения см. в разделе "Использование пользовательских метрик" с databricks Lakehouse Monitoring. Чтобы настроить настраиваемую метрику, нажмите кнопку "Добавить пользовательскую метрику".
- Введите имя настраиваемой метрики.
- Выберите пользовательский тип метрик, один из
Aggregate
нихDerived
илиDrift
. Определения см. в разделе "Типы пользовательских метрик". - В раскрывающемся списке в столбцах входных данных выберите столбцы для применения метрик к.
- В поле "Тип вывода" выберите тип данных Spark для метрики.
- В поле "Определение" введите код SQL, определяющий настраиваемую метрику.
Изменение параметров монитора в пользовательском интерфейсе
После создания монитора можно внести изменения в параметры монитора, нажав кнопку "Изменить конфигурацию монитора" на вкладке "Качество ".
Обновление и просмотр результатов монитора в пользовательском интерфейсе
Чтобы запустить монитор вручную, нажмите кнопку "Обновить метрики".
Сведения о статистике, хранящейся в таблицах метрик монитора, см. в разделе "Мониторинг таблиц метрик". Таблицы метрик — это таблицы каталога Unity. Вы можете запросить их в записных книжках или в обозревателе запросов SQL и просмотреть их в обозревателе каталогов.
Управление доступом к мониторингу выходных данных
Таблицы метрик и панель мониторинга, созданные монитором, принадлежат пользователю, создавшему монитор. С помощью привилегий каталога Unity можно управлять доступом к таблицам метрик. Чтобы предоставить общий доступ к панелям мониторинга в рабочей области, нажмите кнопку "Общий доступ " в правой верхней части панели мониторинга.
Удаление монитора из пользовательского интерфейса
Чтобы удалить монитор из пользовательского интерфейса, щелкните меню кебаб рядом с кнопкой "Обновить метрики " и выберите "Удалить монитор".