Поделиться через


Мониторинг действий учетной записи с помощью системных таблиц

В этой статье описывается концепция системных таблиц в Azure Databricks и выделены ресурсы, которые можно использовать для получения большей части данных системных таблиц.

Что такое системные таблицы?

Системные таблицы — это аналитическое хранилище, размещенное в Azure Databricks, в котором находятся данные вашей учетной записи в каталоге system . Системные таблицы можно использовать для исторической наблюдаемости в вашей учетной записи.

Примечание.

Таблицы схемы сведений работаютsystem.information_schema по-разному от других системных таблиц. См. статью Схема сведений.

Требования

  • Чтобы получить доступ к системным таблицам, в вашей рабочей области должна быть активирована поддержка каталога Unity. Дополнительные сведения см. в разделе "Включение системных таблиц".
  • Системные таблицы недоступны в следующих регионах:
    • регионы Azure для Китая.
    • Регионы Azure для государственных организаций
    • Индия (запад)
    • Западная Швейцария

Какие системные таблицы доступны?

В настоящее время Azure Databricks размещает следующие системные таблицы:

Таблица Описание Поддерживает потоковую передачу Бесплатный срок хранения Включает глобальные или региональные данные
Аудиторские журналы (общедоступная предварительная версия) Включает записи для всех событий аудита из рабочих пространств в вашем регионе. Список доступных событий аудита см. в справочнике по журналу диагностики.
Путь к таблице: system.access.audit
Да 365 дней Региональные события на уровне рабочей области. Глобальный для событий уровня учетной записи.
Платное использование Включает записи о всех платных использованиях в вашей учетной записи.
Путь к таблице: system.billing.usage
Да 365 дней Глобальный
События в чистых комнатах (публичная предварительная версия) Фиксирует события, связанные с чистыми комнатами.
Путь к таблице: system.access.clean_room_events
Да 365 дней Региональный
Clusters (Кластеры) Медленно изменяющаяся таблица измерений, содержащая полную историю конфигураций вычислений с течением времени для любого кластера. Да 365 дней Региональный
Трассировка столбцов Включает запись для каждого события чтения или записи в столбце каталога Unity (но не включает события, не имеющие источника).
Путь к таблице: system.access.column_lineage
Да 365 дней Региональный
Результаты классификации данных (бета-версия) Хранит обнаружение классов конфиденциальных данных на уровне столбцов в разных каталогах в хранилище метаданных.
Путь к таблице: system.data_classification.results
Нет 365 дней Региональный
Результаты мониторинга качества данных (бета-версия) Хранит результаты проверок качества данных (свежесть, полнота) и сведения об инцидентах, включая анализ нижнего уровня влияния и первопричин, в разных таблицах в хранилище метаданных.
Путь к таблице: system.data_quality_monitoring.table_results
Нет Без ограничений Региональный
События помощника Databricks (общедоступная предварительная версия) Отслеживает сообщения пользователей, отправленные помощнику Databricks.
Путь к таблице: system.access.assistant_events
Нет 365 дней Региональный
События материализации данных Delta Sharing Записывает события материализации данных, созданные из представлений, материализованных представлений и общего доступа к потоковым таблицам.
Путь к таблице: system.sharing.materialization_history
Да 365 дней Региональные события на уровне рабочей области.
Временная шкала выполнения задания (общедоступная предварительная версия) Отслеживает время начала и окончания выполнения задания.
Путь к таблице: system.lakeflow.job_run_timeline
Да 365 дней Региональный
График задач (общедоступная предварительная версия) Отслеживает время начала и окончания и вычислительные ресурсы, используемые для выполнения задач задания.
Путь к таблице: system.lakeflow.job_task_run_timeline
Да 365 дней Региональный
Рабочие задачи (открытая предварительная версия) Отслеживает все рабочие задачи, выполняемые в учетной записи.
Путь к таблице: system.lakeflow.job_tasks
Да 365 дней Региональный
Задания (общедоступная предварительная версия) Отслеживает все задания, созданные в учетной записи.
Путь к таблице: system.lakeflow.jobs
Да 365 дней Региональный
События воронки продаж на Marketplace (общедоступная предварительная версия) Включает в себя мнение потребителей и данные по воронке продаж для ваших списков.
Путь к таблице: system.marketplace.listing_funnel_events
Да 365 дней Региональный
Доступ к списку в Marketplace (общедоступная предварительная версия) Включает информацию о потребителе для завершенных событий запроса данных или получения данных в ваших списках.
Путь к таблице: system.marketplace.listing_access_events
Да 365 дней Региональный
Метаданные эксперимента отслеживания MLflow (общедоступная предварительная версия) Каждая строка представляет эксперимент, созданный в системе MLflow под управлением Databricks.
Путь к таблице: system.mlflow.experiments_latest
Да 180 дней Региональный
Метаданные запуска отслеживания MLflow (общедоступная предварительная версия) Каждая строка представляет выполнение, созданное в системе MLflow под управлением Databricks.
Путь к таблице: system.mlflow.runs_latest
Да 180 дней Региональный
Метрики выполнения отслеживания MLflow (общедоступная предварительная версия) Содержит метрики времени, зарегистрированные в MLflow, связанные с данным обучением модели, оценкой или разработкой агента.
Путь к таблице: system.mlflow.run_metrics_history
Да 180 дней Региональный
Данные служебной конечной точки модели (общедоступная предварительная версия) Медленно изменяющаяся таблица измерений, в которой хранятся метаданные для каждой обслуживаемой базовой модели в конечной точке обслуживания модели.
Путь к таблице: system.serving.served_entities
Да 365 дней Региональный
Использование конечной точки сервиса моделей (общедоступная предварительная версия) Записывает количество токенов для каждого запроса к точке доступа обслуживания модели и их ответов. Чтобы записать использование конечной точки в этой таблице, необходимо включить отслеживание использования в конечной точке обслуживания.
Путь к таблице: system.serving.endpoint_usage
Да 90 дней Региональный
События доступа к сети (входящий трафик) ( общедоступная предварительная версия) Таблица, фиксирующая событие всякий раз, когда входящий доступ к рабочей области запрещается политикой входящего трафика.
Путь к таблице: system.access.inbound_network
Да 30 дней Региональный
События доступа к сети (исходящий трафик) ( общедоступная предварительная версия) Таблица, записывающая событие каждый раз, когда исходящий доступ к Интернету запрещен из вашей учетной записи.
Путь к таблице: system.access.outbound_network
Да 365 дней Региональный
Временная шкала узла Фиксирует метрики использования универсальных и рабочих вычислительных ресурсов.
Путь к таблице: system.compute.node_timeline
Да 90 дней Региональный
Типы узлов Записывает доступные в настоящее время типы узлов с основными сведениями о оборудовании.
Путь к таблице: system.compute.node_types
Нет Без ограничений Региональный
Временная шкала обновления конвейера (общедоступная предварительная версия) Отслеживает время начала и окончания и вычислительные ресурсы, используемые для обновлений конвейера.
Путь к таблице: system.lakeflow.pipeline_update_timeline
Да 365 дней Региональный
Конвейеры (общедоступная предварительная версия) Отслеживает все конвейеры, созданные в учетной записи.
Путь к таблице: system.lakeflow.pipelines
Да 365 дней Региональный
Прогнозная оптимизация (общедоступная предварительная версия) Отслеживает журнал операций функции прогнозной оптимизации.
Путь к таблице: system.storage.predictive_optimization_operations_history
Нет 180 дней Региональный
Цены Историческая запись цен на артикул. Запись добавляется при каждом изменении цены SKU.
Путь к таблице: system.billing.list_prices
Нет Без ограничений Глобальный
История запросов (общедоступная предварительная версия) Фиксирует записи всех запросов, выполняемых в хранилищах SQL и бессерверных вычислениях для ноутбуков и задач.
Путь к таблице: system.query.history
Нет 365 дней Региональный
События SQL-хранилища (общедоступная предварительная версия) Записывает события, связанные с хранилищами SQL. Например, запуск, остановка, выполнение, масштабирование вверх и вниз.
Путь к таблице: system.compute.warehouse_events
Да 365 дней Региональный
Хранилища SQL (общедоступная предварительная версия) Содержит полный журнал конфигураций со временем для любого хранилища SQL.
Путь к таблице: system.compute.warehouses
Да 365 дней Региональный
Происхождение таблицы Включает запись данных для каждого события чтения или записи в таблице или пути каталога Unity.
Путь к таблице: system.access.table_lineage
Да 365 дней Региональный
Рабочие области (общедоступная предварительная версия) Таблица workspaces_latest — это медленно изменяющаяся таблица метаданных для всех рабочих областей в учетной записи.
Путь к таблице: system.access.workspaces_latest
Нет Без ограничений Глобальный
Zerobus Ingest (Streams) (бета-версия) Таблица, в которой хранятся все данные, связанные с событиями потоковой передачи, вызванными использованием Ingest Zerobus.
Путь к таблице: system.lakeflow.zerobus_stream
Да 365 дней Региональный
Zerobus Ingest (Бета) Таблица, в которой хранятся все данные, связанные с записями, обработанными с помощью Zerobus Ingest.
Путь к таблице: system.lakeflow.zerobus_ingest
Да 365 дней Региональный

Таблицы с данными по платному использованию и ценам можно использовать бесплатно. Таблицы в общедоступной предварительной версии также можно использовать во время предварительной версии, но в будущем могут взиматься плата.

Примечание.

В вашей учетной записи могут отображаться другие системные таблицы, а также перечисленные выше. Эти таблицы в настоящее время находятся в закрытой предварительной версии и по умолчанию пусты. Если вы хотите использовать любую из этих таблиц, обратитесь к группе учетной записи Databricks.

Отношения системных таблиц

На следующей схеме связей сущностей описывается, как доступные в настоящее время системные таблицы связаны друг с другом. На этой схеме выделены первичные и внешние ключи каждой таблицы.

схема связей сущностей системных таблиц Databricks

Включение системных таблиц

Так как системные таблицы управляются каталогом Unity, в учетной записи должна быть по крайней мере одна рабочая область с поддержкой каталога Unity, чтобы включить системные таблицы учетной записи. Системные таблицы включают данные из всех рабочих областей в вашей учетной записи, но доступ к ним можно получить только из рабочей области с поддержкой каталога Unity.

Хранилище метаданных должно находиться в модели привилегий каталога Unity версии 1.0 для доступа к системным таблицам. См. Обновление до наследования привилегий.

Предоставление доступа к системным таблицам

Доступ к системным таблицам регулируется каталогом Unity. Администраторы учетных записей имеют доступ к системным таблицам по умолчанию. Чтобы дать пользователю возможность запрашивать системные таблицы, администратор должен предоставить ему USE и SELECT разрешения на системные схемы. См. раздел «Управление привилегиями» в каталоге Unity.

Системные таблицы доступны только для чтения и не могут быть изменены.

Примечание.

Если учетная запись была создана после 9 ноября 2023 г., возможно, у вас нет администратора хранилища метаданных по умолчанию. Дополнительные сведения см. в статье "Начало работы с каталогом Unity".

Содержат ли системные таблицы данные для всех рабочих областей в вашей учетной записи?

Системные таблицы содержат операционные данные для всех рабочих областей в учетной записи, развернутой в одном облачном регионе. Некоторые таблицы включают глобальные данные. Дополнительные сведения см. в списке доступных таблиц.

Хотя системные таблицы можно получить только через рабочую область каталога Unity, они включают в себя операционные данные из рабочих областей каталога, отличных от Unity, в вашей учетной записи.

Где хранятся данные системных таблиц?

Данные системной таблицы вашей учетной записи хранятся в учетной записи хранения, размещенной в Azure Databricks, расположенной в том же регионе, что и хранилище метаданных. Данные передаются вам безопасным образом с использованием Delta Sharing.

Каждая таблица имеет бесплатный период хранения данных. Дополнительные сведения см. в столбце "Бесплатный период хранения ", в котором доступны системные таблицы?.

Где находятся системные таблицы в обозревателе каталогов?

Системные таблицы в вашей учетной записи находятся в каталоге с именем system, который входит в каждое хранилище метаданных каталога Unity. В каталоге вы увидите такие схемы, как system, access и billing, содержащие системные таблицы.

Рекомендации по потоковой передаче системных таблиц

Azure Databricks использует Delta Sharing для обмена данными системных таблиц с клиентами. Имейте в виду следующие аспекты при потоковой передаче с помощью Delta Sharing:

  • Если вы используете потоковую передачу с системными таблицами, задайте для параметра skipChangeCommits значение true. Это гарантирует, что задание потоковой передачи не нарушается удалениями в системных таблицах. См. Игнорировать обновления и удаления.
  • Trigger.AvailableNow не поддерживается потоковой передачей Delta Sharing. Он будет преобразован в Trigger.Once.
  • Системные таблицы используют срок хранения по умолчанию в 7 дней (см. Настройка хранения данных для запросов с временными перемещениями), что означает, что выполнение потокового запроса может нарушиться, если он отстает более чем на 7 дней. Следите за вашими потоками, чтобы убедиться, что они синхронизированы с последней версией системной таблицы.

Если вы используете триггер в потоковом задании и обнаружите, что он не догоняет последнюю версию системной таблицы, Databricks рекомендует увеличить запланированную частоту задания.

Чтение добавочных изменений из таблиц системы потоковой передачи

spark.readStream.option("skipChangeCommits", "true").table("system.billing.usage")

Известные проблемы

  • Новые столбцы можно добавлять в существующие системные таблицы в любое время. Запросы, основанные на фиксированной схеме, могут прерваться, если появились новые столбцы. Существующие столбцы не изменятся или не будут удалены. Если данные системной таблицы записываются в другую целевую таблицу, рекомендуется включить эволюцию схемы.
  • Поддержка мониторинга в режиме реального времени не поддерживается. Данные обновляются в течение дня. Если вы не видите запись о недавнем событии, попробуйте проверить позже.
  • Схема __internal_logging системной таблицы поддерживает ведение журналов полезной нагрузки с помощью таблиц вывода с поддержкой шлюза ИИ для моделей внешних и рабочих нагрузок с подготовленной пропускной способностью. Эта схема видна администраторам учетных записей, но ее нельзя включить и не следует использовать для рабочих процессов клиентов.
  • Чтобы включить системные таблицы, может потребоваться предоставить сетевой доступ к Blob storage endpoint, являющемуся конечной точкой хранилища системных таблиц. Чтобы просмотреть список конечных точек хранилища системных таблиц каждого региона, см. сведения о IP-адресах конечной точки хранилища.
  • Системные схемы system.operational_data и system.lineage устарели и будут содержать пустые таблицы.