Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Это важно
Эта функция доступна в общедоступной предварительной версии.
На этой странице описывается, как использовать классификацию данных Databricks в каталоге Unity для автоматического классификации конфиденциальных данных и тегов в каталоге.
Каталоги данных могут содержать огромный объем данных, часто содержащий известные и неизвестные конфиденциальные данные. Очень важно, чтобы команды данных понимали, какой тип конфиденциальных данных существует в каждой таблице, чтобы они могли управлять и демократизировать доступ к этим данным.
Для решения этой проблемы классификация данных Databricks использует агент ИИ для автоматической классификации и тегов таблиц в каталоге. Это позволяет обнаруживать конфиденциальные данные и применять элементы управления над результатами, используя такие средства, как управление доступом на основе атрибутов каталога Unity (ABAC). Список поддерживаемых тегов см. в разделе "Поддерживаемые теги классификации".
С помощью этой функции можно:
- Классифицировать данные: подсистема использует агентическую систему ИИ для автоматического классификации и добавления тегов к любым таблицам в каталоге Unity.
- Оптимизируйте затраты с помощью интеллектуального сканирования: система интеллектуально определяет, когда следует сканировать данные, используя каталог Unity и подсистему аналитики данных. Это означает, что сканирование увеличивается и оптимизировано для обеспечения классификации всех новых данных без ручной настройки.
- Просмотр конфиденциальных данных и защита конфиденциальных данных: результаты отображаются для просмотра результатов классификации и защиты конфиденциальных данных путем добавления тегов и создания политик управления доступом для каждого класса.
Это важно
Классификация данных Databricks использует хранилище по умолчанию для хранения результатов классификации. Плата за хранение не взимается.
Классификация данных Databricks использует большую языковую модель (LLM) для поддержки классификации.
Требования
Замечание
Классификация данных — это функция предварительной версии на уровне рабочей области, которая может управляться только администратором рабочей области или учетной записи. Инструкции см. в статье "Управление предварительными версиями Azure Databricks".
Это важно
Эта функция реализована с использованием API базовых моделей сервиса Mosaic AI Model Serving. Llama 3.1 лицензирован в соответствии с лицензией сообщества Llama 3.1, © Meta Platform, Inc. Все права зарезервированы. Дополнительные сведения см. в лицензиях и условиях разработчика применимых моделей .
Если модели появляются в будущем, которые лучше работают в соответствии с внутренними тестами Databricks, Databricks может изменить модели и обновить документацию.
- Необходимо включить бессерверные вычислительные ресурсы. См. раздел "Подключение к бессерверным вычислениям".
- Чтобы включить классификацию данных, вы должны владеть каталогом или иметь на него
USE_CATALOGправа иMANAGEпривилегии. - Чтобы просмотреть таблицу результатов, необходимо иметь следующие разрешения:
USE CATALOGиUSE SCHEMA, а такжеSELECTна таблицу. См . системную таблицу результатов.
Использование классификации данных
Для использования классификации данных в каталоге:
Перейдите к каталогу и перейдите на вкладку "Сведения ".
Щелкните переключатель классификации данных , чтобы включить его.
Откроется диалоговое окно "Включить классификацию данных ". По умолчанию все схемы включаются. Чтобы включить только некоторые схемы, выберите их в раскрывающемся меню Схемы для включения.
Нажмите кнопку "Включить".
Это создает фоновое задание, которое добавочно сканирует все таблицы в каталоге или выбранных схемах.
Подсистема классификации использует интеллектуальную проверку, чтобы определить, когда следует сканировать таблицу. Новые таблицы и столбцы в каталоге обычно сканируются в течение 24 часов после создания.
Просмотр результатов классификации
Чтобы просмотреть результаты классификации, нажмите кнопку "Просмотреть результаты " рядом с переключателем.
Откроется страница результатов, показывающая результаты классификации для всех таблиц в каталоге. Чтобы выбрать другой каталог, используйте селектор в левом верхнем углу страницы. Требуется бессерверное хранилище SQL и отображается в правом верхнем углу страницы.
На странице результатов перечислены все теги классификации, которые были определены в каталоге. Все существующие политики ABAC, ссылающиеся на теги системы классификации данных (class.xx) отображаются в таблице.
Чтобы просмотреть результаты для определенного тега классификации, нажмите кнопку "Проверить " в самом правом столбце соответствующей строки.
Появится панель, отображающая таблицы, для которых классификация данных обнаружила тег классификации с высокой уверенностью. Просмотрите таблицы, столбцы и примеры значений. Примеры значений отображаются только в том случае, если у вас есть доступ к таблице результатов. См . системную таблицу результатов.
Если указанные столбцы соответствуют вашим ожиданиям, можно включить автоматическую маркировку тега классификации для этого каталога. Если включена автоматическая маркировка, все существующие и будущие обнаружения этой классификации помечены.
Чтобы включить автоматическую маркировку, переключите автоматический тег с помощью .... Позже вы можете отключить автоматическую маркировку с помощью одного и того же переключателя. При отключении тегов будущие теги не применяются, но существующие теги не удаляются.
Замечание
При включении автоматического добавления тегов теги не заполняются немедленно. Они будут заполнены при следующем сканировании, которое должно вступить в силу в течение 24 часов. Последующие классификации будут помечены немедленно.
Таблица системы результатов
Классификация данных создает системную таблицу с именем system.data_classification.results для хранения результатов, которые по умолчанию доступны только администратору учетной записи. Администратор учетной записи может предоставить общий доступ к этой таблице. Таблица доступна только при использовании бессерверных вычислений. Дополнительные сведения об этой таблице см. в справочнике по системной таблице классификации данных.
Это важно
Таблица результатов system.data_classification.results содержит все результаты классификации во всем хранилище метаданных и включает примеры значений из таблиц в каждом каталоге. Эту таблицу следует предоставлять пользователям, которым разрешено просматривать результаты классификации на уровне хранилища метаданных, включая примеры значений.
Для просмотра таблицы результатов требуются следующие разрешения: USE CATALOG и USE SCHEMA, а также SELECT для таблицы. Пользователи с доступом MANAGE или SELECT к каталогу могут видеть результаты на странице, но не могут видеть образцы значений.
Настройка элементов управления на основе результатов классификации данных
Маскирование конфиденциальных данных с помощью политики ABAC
Databricks рекомендует использовать управление доступом на основе атрибутов каталога Unity (ABAC) для создания элементов управления на основе результатов классификации данных.
Чтобы создать политику, нажмите кнопку "Создать политику". Форма политики предварительно заполнена для маскирования столбцов с проверяемым тегом классификации. Чтобы маскировать данные, укажите любую функцию маскирования, зарегистрированную в каталоге Unity, и нажмите кнопку "Сохранить".
Вы также можете создать политику, которая охватывает несколько тегов классификации, изменив Когда столбец на соответствует условию и предоставив несколько тегов.
Например, чтобы создать политику с именем "Конфиденциально", которая маскирует любое имя, адрес электронной почты или номер телефона, установите условие на hasTag("class.name") OR hasTag("class.email_address") OR hasTag("class.phone_number").
Обнаружение и удаление данных в соответствии с GDPR
В этом примере записной книжки показано, как использовать классификацию данных, чтобы помочь в обнаружении и удалении данных для соответствия GDPR.
Обнаружение и удаление данных в соответствии с GDPR с помощью записной книжки для классификации данных
Обработка неправильных тегов
Если данные неправильно помечены, можно вручную удалить тег. Тег не будет повторно применяться в будущих сканированиях.
Чтобы удалить тег с помощью пользовательского интерфейса, перейдите в таблицу в обозревателе каталогов и измените теги столбцов.
Удаление тега с помощью SQL:
ALTER TABLE catalog.schema.table
ALTER COLUMN col
UNSET TAGS ('class.phone_number', 'class.us_ssn')
Ошибки сканирования
Если во время сканирования возникают какие-либо ошибки, кнопка "Ошибки " появится в правом верхнем углу таблицы результатов.
Нажмите кнопку, чтобы отобразить таблицы, которые не прошли проверку, и соответствующее сообщение об ошибках.
По умолчанию ошибки, возникшие для отдельных таблиц, пропускаются и извлекаются на следующий день.
Просмотр расходов на классификацию данных
Сведения о выставлении счетов за классификацию данных см. на странице цен. Затраты, связанные с классификацией данных, можно просмотреть, выполнив запрос или просмотр панели мониторинга использования.
Замечание
Начальное сканирование является более дорогостоящим, чем последующие проверки в том же каталоге, так как эти проверки являются добавочными и обычно влечет за собой более низкие затраты.
Просмотр использования из системной таблицы system.billing.usage
Вы можете запросить расходы на классификацию данных из system.billing.usage. Поля created_by и catalog_id можно использовать при необходимости для разбиения затрат:
-
created_by: включите сведения о затратах, связанных с пользователем, который активировал использование. -
catalog_id: включите, чтобы увидеть затраты по каталогу. Идентификатор каталога отображается вsystem.data_classification.resultsтаблице.
Пример запроса за последние 30 дней:
SELECT
usage_date,
identity_metadata.created_by,
usage_metadata.catalog_id,
SUM(usage_quantity) AS dbus
FROM
system.billing.usage
WHERE
usage_date >= DATE_SUB(CURRENT_DATE(), 30)
AND billing_origin_product = 'DATA_CLASSIFICATION'
GROUP BY
usage_date,
created_by,
catalog_id
ORDER BY
usage_date DESC,
created_by;
Просмотр данных с панели мониторинга использования
Если у вас уже есть панель мониторинга использования, настроенная в рабочей области, ее можно использовать для фильтрации использования, выбрав проект источника выставления счетов с меткой "Классификация данных". Если у вас нет панели мониторинга использования, можно импортировать ее и применить ту же фильтрацию. Дополнительные сведения см. в разделе "Панели мониторинга использования".
Поддерживаемые теги классификации
В следующих таблицах перечислены теги, управляемые системой , поддерживаемые классификацией данных.
Теги, доступные глобальным клиентам
| Класс | Описание |
|---|---|
| class.credit_card | Номер кредитной карты |
| class.email_address | Адрес электронной почты |
| class.iban_code | Международный номер банковского счета (IBAN) |
| class.ip_address | Ip-адрес протокола (IPv4 или IPv6) |
| class.location | Местоположение |
| class.name | Имя человека |
| class.phone_number | Номер телефона |
| class.url | URL |
| class.us_bank_number | Номер банка США |
| class.us_driver_license | Лицензия водителя США |
| class.us_itin | Идентификационный номер налогоплательщиков США |
| class.us_passport | Паспорт США |
| class.us_ssn | Номер социального страхования США |
| class.vin | Идентификационный номер транспортного средства (VIN) |
Теги, доступные для европейских клиентов
Эти теги доступны в рабочих областях в регионах Европы.
| Класс | Описание |
|---|---|
| class.de_id_card | Номер карточки немецкого идентификатора (Personalausweisnummer) |
| class.de_svnr | Немецкий номер социального страхования (Sozialversicherungsnummer) |
| class.de_tax_id | Немецкий налоговый идентификатор (Steueridentifikationsnummer) |
| class.uk_nhs | Номер Национальной службы здравоохранения Великобритании (NHS) |
| class.uk_nino | Номер национального страхования Великобритании (NINO) |
Теги, доступные для австралийских клиентов
Эти теги доступны в рабочих областях в австралийских регионах.
| Класс | Описание |
|---|---|
| class.au_medicare | Австралийский номер карты Medicare |
| class.au_tfn | Номер налогового файла Австралии (TFN) |
Ограничения
- Виды и виды метрик не поддерживаются. Если представление основано на существующих таблицах, Databricks рекомендует классифицировать базовые таблицы, чтобы узнать, содержат ли они конфиденциальные данные.