Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
В этой статье описывается концепция системных таблиц в Azure Databricks и выделены ресурсы, которые можно использовать для получения большей части данных системных таблиц.
Что такое системные таблицы?
Системные таблицы — это аналитическое хранилище, размещенное в Azure Databricks, в котором находятся данные вашей учетной записи в каталоге system . Системные таблицы можно использовать для исторической наблюдаемости в вашей учетной записи.
Примечание.
Таблицы схемы сведений работаютsystem.information_schema по-разному от других системных таблиц. См. статью Схема сведений.
Требования
- Чтобы получить доступ к системным таблицам, в вашей рабочей области должна быть активирована поддержка каталога Unity. Дополнительные сведения см. в разделе "Включение системных таблиц".
- Системные таблицы недоступны в следующих регионах:
- регионы Azure для Китая.
- Регионы Azure для государственных организаций
- Индия (запад)
- Западная Швейцария
Какие системные таблицы доступны?
В настоящее время Azure Databricks размещает следующие системные таблицы:
| Таблица | Описание | Поддерживает потоковую передачу | Бесплатный срок хранения | Включает глобальные или региональные данные |
|---|---|---|---|---|
| Аудиторские журналы (общедоступная предварительная версия) | Включает записи для всех событий аудита из рабочих пространств в вашем регионе. Список доступных событий аудита см. в справочнике по журналу диагностики. Путь к таблице: system.access.audit |
Да | 365 дней | Региональные события на уровне рабочей области. Глобальный для событий уровня учетной записи. |
| Платное использование | Включает записи о всех платных использованиях в вашей учетной записи. Путь к таблице: system.billing.usage |
Да | 365 дней | Глобальный |
| События в чистых комнатах (публичная предварительная версия) | Фиксирует события, связанные с чистыми комнатами. Путь к таблице: system.access.clean_room_events |
Да | 365 дней | Региональный |
| Clusters (Кластеры) | Медленно изменяющаяся таблица измерений, содержащая полную историю конфигураций вычислений с течением времени для любого кластера. | Да | 365 дней | Региональный |
| Трассировка столбцов | Включает запись для каждого события чтения или записи в столбце каталога Unity (но не включает события, не имеющие источника). Путь к таблице: system.access.column_lineage |
Да | 365 дней | Региональный |
| Результаты классификации данных (бета-версия) | Хранит обнаружение классов конфиденциальных данных на уровне столбцов в разных каталогах в хранилище метаданных. Путь к таблице: system.data_classification.results |
Нет | 365 дней | Региональный |
| Результаты мониторинга качества данных (бета-версия) | Хранит результаты проверок качества данных (свежесть, полнота) и сведения об инцидентах, включая анализ нижнего уровня влияния и первопричин, в разных таблицах в хранилище метаданных. Путь к таблице: system.data_quality_monitoring.table_results |
Нет | Без ограничений | Региональный |
| События помощника Databricks (общедоступная предварительная версия) | Отслеживает сообщения пользователей, отправленные помощнику Databricks. Путь к таблице: system.access.assistant_events |
Нет | 365 дней | Региональный |
| События материализации данных Delta Sharing | Записывает события материализации данных, созданные из представлений, материализованных представлений и общего доступа к потоковым таблицам. Путь к таблице: system.sharing.materialization_history |
Да | 365 дней | Региональные события на уровне рабочей области. |
| Временная шкала выполнения задания (общедоступная предварительная версия) | Отслеживает время начала и окончания выполнения задания. Путь к таблице: system.lakeflow.job_run_timeline |
Да | 365 дней | Региональный |
| График задач (общедоступная предварительная версия) | Отслеживает время начала и окончания и вычислительные ресурсы, используемые для выполнения задач задания. Путь к таблице: system.lakeflow.job_task_run_timeline |
Да | 365 дней | Региональный |
| Рабочие задачи (открытая предварительная версия) | Отслеживает все рабочие задачи, выполняемые в учетной записи. Путь к таблице: system.lakeflow.job_tasks |
Да | 365 дней | Региональный |
| Задания (общедоступная предварительная версия) | Отслеживает все задания, созданные в учетной записи. Путь к таблице: system.lakeflow.jobs |
Да | 365 дней | Региональный |
| События воронки продаж на Marketplace (общедоступная предварительная версия) | Включает в себя мнение потребителей и данные по воронке продаж для ваших списков. Путь к таблице: system.marketplace.listing_funnel_events |
Да | 365 дней | Региональный |
| Доступ к списку в Marketplace (общедоступная предварительная версия) | Включает информацию о потребителе для завершенных событий запроса данных или получения данных в ваших списках. Путь к таблице: system.marketplace.listing_access_events |
Да | 365 дней | Региональный |
| Метаданные эксперимента отслеживания MLflow (общедоступная предварительная версия) | Каждая строка представляет эксперимент, созданный в системе MLflow под управлением Databricks. Путь к таблице: system.mlflow.experiments_latest |
Да | 180 дней | Региональный |
| Метаданные запуска отслеживания MLflow (общедоступная предварительная версия) | Каждая строка представляет выполнение, созданное в системе MLflow под управлением Databricks. Путь к таблице: system.mlflow.runs_latest |
Да | 180 дней | Региональный |
| Метрики выполнения отслеживания MLflow (общедоступная предварительная версия) | Содержит метрики времени, зарегистрированные в MLflow, связанные с данным обучением модели, оценкой или разработкой агента. Путь к таблице: system.mlflow.run_metrics_history |
Да | 180 дней | Региональный |
| Данные служебной конечной точки модели (общедоступная предварительная версия) | Медленно изменяющаяся таблица измерений, в которой хранятся метаданные для каждой обслуживаемой базовой модели в конечной точке обслуживания модели. Путь к таблице: system.serving.served_entities |
Да | 365 дней | Региональный |
| Использование конечной точки сервиса моделей (общедоступная предварительная версия) | Записывает количество токенов для каждого запроса к точке доступа обслуживания модели и их ответов. Чтобы записать использование конечной точки в этой таблице, необходимо включить отслеживание использования в конечной точке обслуживания. Путь к таблице: system.serving.endpoint_usage |
Да | 90 дней | Региональный |
| События доступа к сети (входящий трафик) ( общедоступная предварительная версия) | Таблица, фиксирующая событие всякий раз, когда входящий доступ к рабочей области запрещается политикой входящего трафика. Путь к таблице: system.access.inbound_network |
Да | 30 дней | Региональный |
| События доступа к сети (исходящий трафик) ( общедоступная предварительная версия) | Таблица, записывающая событие каждый раз, когда исходящий доступ к Интернету запрещен из вашей учетной записи. Путь к таблице: system.access.outbound_network |
Да | 365 дней | Региональный |
| Временная шкала узла | Фиксирует метрики использования универсальных и рабочих вычислительных ресурсов. Путь к таблице: system.compute.node_timeline |
Да | 90 дней | Региональный |
| Типы узлов | Записывает доступные в настоящее время типы узлов с основными сведениями о оборудовании. Путь к таблице: system.compute.node_types |
Нет | Без ограничений | Региональный |
| Временная шкала обновления конвейера (общедоступная предварительная версия) | Отслеживает время начала и окончания и вычислительные ресурсы, используемые для обновлений конвейера. Путь к таблице: system.lakeflow.pipeline_update_timeline |
Да | 365 дней | Региональный |
| Конвейеры (общедоступная предварительная версия) | Отслеживает все конвейеры, созданные в учетной записи. Путь к таблице: system.lakeflow.pipelines |
Да | 365 дней | Региональный |
| Прогнозная оптимизация (общедоступная предварительная версия) | Отслеживает журнал операций функции прогнозной оптимизации. Путь к таблице: system.storage.predictive_optimization_operations_history |
Нет | 180 дней | Региональный |
| Цены | Историческая запись цен на артикул. Запись добавляется при каждом изменении цены SKU. Путь к таблице: system.billing.list_prices |
Нет | Без ограничений | Глобальный |
| История запросов (общедоступная предварительная версия) | Фиксирует записи всех запросов, выполняемых в хранилищах SQL и бессерверных вычислениях для ноутбуков и задач. Путь к таблице: system.query.history |
Нет | 365 дней | Региональный |
| События SQL-хранилища (общедоступная предварительная версия) | Записывает события, связанные с хранилищами SQL. Например, запуск, остановка, выполнение, масштабирование вверх и вниз. Путь к таблице: system.compute.warehouse_events |
Да | 365 дней | Региональный |
| Хранилища SQL (общедоступная предварительная версия) | Содержит полный журнал конфигураций со временем для любого хранилища SQL. Путь к таблице: system.compute.warehouses |
Да | 365 дней | Региональный |
| Происхождение таблицы | Включает запись данных для каждого события чтения или записи в таблице или пути каталога Unity. Путь к таблице: system.access.table_lineage |
Да | 365 дней | Региональный |
| Рабочие области (общедоступная предварительная версия) | Таблица workspaces_latest — это медленно изменяющаяся таблица метаданных для всех рабочих областей в учетной записи. Путь к таблице: system.access.workspaces_latest |
Нет | Без ограничений | Глобальный |
| Zerobus Ingest (Streams) (бета-версия) | Таблица, в которой хранятся все данные, связанные с событиями потоковой передачи, вызванными использованием Ingest Zerobus. Путь к таблице: system.lakeflow.zerobus_stream |
Да | 365 дней | Региональный |
| Zerobus Ingest (Бета) | Таблица, в которой хранятся все данные, связанные с записями, обработанными с помощью Zerobus Ingest. Путь к таблице: system.lakeflow.zerobus_ingest |
Да | 365 дней | Региональный |
Таблицы с данными по платному использованию и ценам можно использовать бесплатно. Таблицы в общедоступной предварительной версии также можно использовать во время предварительной версии, но в будущем могут взиматься плата.
Примечание.
В вашей учетной записи могут отображаться другие системные таблицы, а также перечисленные выше. Эти таблицы в настоящее время находятся в закрытой предварительной версии и по умолчанию пусты. Если вы хотите использовать любую из этих таблиц, обратитесь к группе учетной записи Databricks.
Отношения системных таблиц
На следующей схеме связей сущностей описывается, как доступные в настоящее время системные таблицы связаны друг с другом. На этой схеме выделены первичные и внешние ключи каждой таблицы.
Включение системных таблиц
Так как системные таблицы управляются каталогом Unity, в учетной записи должна быть по крайней мере одна рабочая область с поддержкой каталога Unity, чтобы включить системные таблицы учетной записи. Системные таблицы включают данные из всех рабочих областей в вашей учетной записи, но доступ к ним можно получить только из рабочей области с поддержкой каталога Unity.
Хранилище метаданных должно находиться в модели привилегий каталога Unity версии 1.0 для доступа к системным таблицам. См. Обновление до наследования привилегий.
Предоставление доступа к системным таблицам
Доступ к системным таблицам регулируется каталогом Unity. Администраторы учетных записей имеют доступ к системным таблицам по умолчанию. Чтобы дать пользователю возможность запрашивать системные таблицы, администратор должен предоставить ему USE и SELECT разрешения на системные схемы. См. раздел «Управление привилегиями» в каталоге Unity.
Системные таблицы доступны только для чтения и не могут быть изменены.
Примечание.
Если учетная запись была создана после 9 ноября 2023 г., возможно, у вас нет администратора хранилища метаданных по умолчанию. Дополнительные сведения см. в статье "Начало работы с каталогом Unity".
Содержат ли системные таблицы данные для всех рабочих областей в вашей учетной записи?
Системные таблицы содержат операционные данные для всех рабочих областей в учетной записи, развернутой в одном облачном регионе. Некоторые таблицы включают глобальные данные. Дополнительные сведения см. в списке доступных таблиц.
Хотя системные таблицы можно получить только через рабочую область каталога Unity, они включают в себя операционные данные из рабочих областей каталога, отличных от Unity, в вашей учетной записи.
Где хранятся данные системных таблиц?
Данные системной таблицы вашей учетной записи хранятся в учетной записи хранения, размещенной в Azure Databricks, расположенной в том же регионе, что и хранилище метаданных. Данные передаются вам безопасным образом с использованием Delta Sharing.
Каждая таблица имеет бесплатный период хранения данных. Дополнительные сведения см. в столбце "Бесплатный период хранения ", в котором доступны системные таблицы?.
Где находятся системные таблицы в обозревателе каталогов?
Системные таблицы в вашей учетной записи находятся в каталоге с именем system, который входит в каждое хранилище метаданных каталога Unity. В каталоге вы увидите такие схемы, как system, access и billing, содержащие системные таблицы.
Рекомендации по потоковой передаче системных таблиц
Azure Databricks использует Delta Sharing для обмена данными системных таблиц с клиентами. Имейте в виду следующие аспекты при потоковой передаче с помощью Delta Sharing:
- Если вы используете потоковую передачу с системными таблицами, задайте для параметра
skipChangeCommitsзначениеtrue. Это гарантирует, что задание потоковой передачи не нарушается удалениями в системных таблицах. См. Игнорировать обновления и удаления. -
Trigger.AvailableNowне поддерживается потоковой передачей Delta Sharing. Он будет преобразован вTrigger.Once. - Системные таблицы используют срок хранения по умолчанию в 7 дней (см. Настройка хранения данных для запросов с временными перемещениями), что означает, что выполнение потокового запроса может нарушиться, если он отстает более чем на 7 дней. Следите за вашими потоками, чтобы убедиться, что они синхронизированы с последней версией системной таблицы.
Если вы используете триггер в потоковом задании и обнаружите, что он не догоняет последнюю версию системной таблицы, Databricks рекомендует увеличить запланированную частоту задания.
Чтение добавочных изменений из таблиц системы потоковой передачи
spark.readStream.option("skipChangeCommits", "true").table("system.billing.usage")
Известные проблемы
- Новые столбцы можно добавлять в существующие системные таблицы в любое время. Запросы, основанные на фиксированной схеме, могут прерваться, если появились новые столбцы. Существующие столбцы не изменятся или не будут удалены. Если данные системной таблицы записываются в другую целевую таблицу, рекомендуется включить эволюцию схемы.
- Поддержка мониторинга в режиме реального времени не поддерживается. Данные обновляются в течение дня. Если вы не видите запись о недавнем событии, попробуйте проверить позже.
- Схема
__internal_loggingсистемной таблицы поддерживает ведение журналов полезной нагрузки с помощью таблиц вывода с поддержкой шлюза ИИ для моделей внешних и рабочих нагрузок с подготовленной пропускной способностью. Эта схема видна администраторам учетных записей, но ее нельзя включить и не следует использовать для рабочих процессов клиентов.
- Чтобы включить системные таблицы, может потребоваться предоставить сетевой доступ к Blob storage endpoint, являющемуся конечной точкой хранилища системных таблиц. Чтобы просмотреть список конечных точек хранилища системных таблиц каждого региона, см. сведения о IP-адресах конечной точки хранилища.
- Системные схемы
system.operational_dataиsystem.lineageустарели и будут содержать пустые таблицы.