Поделиться через


Справочник по системной таблице классификации данных

Это важно

Эта функция доступна в общедоступной предварительной версии.

На этой странице описывается схема таблицы результатов классификации данных и включается примеры запросов. В таблице хранятся результаты обнаружения классов конфиденциальных данных на уровне столбцов в активированных каталогах вашего метахранилища.

Путь к таблице: system.data_classification.results

Схема таблицы результатов классификации данных

В таблице результатов классификации данных используется следующая схема:

Имя столбца Тип данных Description Example
latest_detected_time отметка времени По состоянию на момент последнего сканирования столбца. 2025-06-27T12:34
first_detected_time отметка времени Время, когда впервые было зарегистрировано обнаружение столбцов. 2025-06-27T12:34
catalog_id струна Идентификатор каталога. 3f1a7d6e-9c59-...
table_id струна Идентификатор таблицы. 3f1a7d6e-9c59-...
catalog_name струна Название каталога. main_catalog
schema_name струна Имя схемы. public
table_name струна Имя таблицы. sales_data
column_name струна Имя столбца. customer_email
data_type струна Тип данных столбца. Сложные типы включают полные определения структур. struct<name:string, age:int>
class_tag струна Тег для обнаруженной сущности или ключ тега с необязательным значением. class.us_ssn или pii: confidential
samples array<string> До пяти примеров значений, отвечающих параметрам обнаружения. ["a@b.com", ...]
confidence струна Уверенность в обнаружении. Либо HIGH или LOW HIGH
frequency плавать Оценка доли соответствующих строк в образце. От 0 до 1. 0.87

Примеры запросов

Замените значения параметров собственными перед выполнением.

Получение всех обнаружений для таблицы

SELECT *
FROM system.data_classification.results
WHERE
  catalog_name = "c"
  AND schema_name = "s"
  AND table_name = "t";

Получить все обнаружения высокой степени достоверности.

SELECT *
FROM system.data_classification.results
WHERE
  catalog_name = "c"
  AND schema_name = "s"
  AND table_name = "t"
  AND confidence = "HIGH";

Получение количества таблиц, затронутых определенной классификацией

SELECT
  class_tag,
  COUNT(DISTINCT catalog_name, schema_name, table_name) AS num_tables
FROM
  system.data_classification.results
WHERE
  class_tag IS NOT NULL
GROUP BY class_tag;

Получение количества пользователей, запрашивающих таблицы с конфиденциальными данными за последние 30 дней

WITH table_accesses AS (
  SELECT
    IFNULL(
      request_params.full_name_arg,
      CONCAT(request_params.catalog_name, '.', request_params.schema_name, '.', request_params.name)
    ) AS table_full_name,
    COUNT(DISTINCT user_identity.email) AS num_users
  FROM
    system.access.audit
  WHERE
    action_name IN ("createTable", "getTable", "updateTable", "deleteTable")
    AND (
      -- For performance, limit the blast radius of the audit log query to only the current catalog
      request_params.catalog_name = :catalog_name OR
      request_params.full_name_arg LIKE :catalog_name || '%'
    )
    AND event_time >= DATE_SUB(current_date(), 30)
  GROUP BY table_full_name
),
sensitive_tables AS (
  SELECT
    DISTINCT CONCAT(catalog_name, '.', schema_name, '.', table_name) AS table_full_name
  FROM
    system.data_classification.results
  WHERE class_tag IS NOT NULL
)

SELECT
  st.table_full_name,
  ta.num_users
FROM
  sensitive_tables st
  JOIN table_accesses ta
  ON st.table_full_name = ta.table_full_name