Создание настраиваемого обучаемого классификатора
Организациям часто требуется классифицировать неструктурированные данные, которые не соответствуют предсказуемым шаблонам. Пользовательские обучаемые классификаторы позволяют обучить Microsoft Purview распознавать уникальное содержимое, предоставляя примеры документов для анализа на основе ИИ. После обучения классификаторы можно использовать для автоматической маркировки содержимого, применения политик хранения и поддержки соответствия требованиям к обмену данными.
Принцип работы обучаемых классификаторов
Обучаемые классификаторы используют машинное обучение для обнаружения содержимого на основе смысла и контекста, а не предопределенных шаблонов. В отличие от типов конфиденциальной информации (SIT), которые используют ключевые слова или обнаружение на основе шаблона, обучаемые классификаторы повышают точность классификации за счет анализа реальных примеров.
Создание классификатора включает обучение модели с примером содержимого, включая как релевантные, так и нерелевантные документы. Этот процесс помогает модели различать данные, относящиеся к категории классификации, и данные, которые не относятся к этой категории.
Требования
Перед созданием классификатора убедитесь, что вы соответствуете требованиям к лицензированию и разрешениям.
Лицензирование
Обучаемые классификаторы в Microsoft Purview требуют одного из следующих сочетаний лицензий:
- Microsoft 365 E5
- Соответствие требованиям Microsoft 365 E5
- Microsoft 365 E3 с надстройкой Защита информации Microsoft Purview и управления
Эти лицензии включают доступ к расширенным функциям классификации, таким как обучаемые классификаторы, точное соответствие данных, именованные сущности и контекстный анализ.
Разрешения
Для создания обучаемых классификаторов и управления ими пользователи должны иметь соответствующие разрешения роли. Необходимые разрешения зависят от того, где будет использоваться классификатор.
| Сценарий | Необходимые разрешения роли |
|---|---|
| Политика меток хранения | Управление записями, управление хранением |
| Политика меток конфиденциальности | Администратор безопасности, администратор соответствия требованиям, администратор данных соответствия требованиям |
| Политика соответствия требованиям к обмену данными | Администратор управления внутренними рисками, администратор надзорной проверки |
Важно!
По умолчанию только пользователь, создающий пользовательский классификатор, может обучать и просматривать прогнозы, сделанные этим классификатором.
Действия по созданию обучаемого классификатора
Создание классификатора следует за структурированным процессом, который включает обучение, тестирование и публикацию.
Шаг 1. Сбор обучающих данных
Чтобы обучить классификатор, необходимо предоставить два набора образцов данных , выбранных пользователями вручную:
- Положительные примеры (50–500 элементов): документы, относящиеся к категории.
- Отрицательные примеры (150–1500 элементов): документы, которые не относятся к категории.
Совет
Чем разнообразнее и правильно подобраны обучающие данные, тем точнее классификатор.
Шаг 2. Хранение данных в SharePoint
Храните положительные и отрицательные примеры в отдельных папках SharePoint . Убедитесь, что эти папки содержат только соответствующие обучающие данные.
Примечание.
При создании новых папок подождите по крайней мере один час индексирования, прежде чем использовать их в настройке классификатора.
Шаг 3. Создание обучаемого классификатора
- Войдите на портал Microsoft Purview .
- Перейдите к Information Protection>Классификаторы>Обучаемые классификаторы.
- Выберите Создать обучаемый классификатор.
- Введите имя и описание.
- Добавьте URL-адрес папки SharePoint для положительных примеров и нажмите кнопку Далее.
- Добавьте URL-адрес папки SharePoint для отрицательных примеров и нажмите кнопку Далее.
- Просмотрите параметры и выберите Создать обучаемый классификатор.
После создания классификатор начинает обработку обучающих данных. Время обработки зависит, но обычно завершается в течение 24 часов.
Шаг 4. Проверка и проверка классификатора
После того как классификатор обработает достаточно положительных и отрицательных выборок, необходимо проверить его прогнозы.
- Откройте классификатор и просмотрите его результаты.
- Убедитесь, что каждый прогноз является правильным, неправильным или неопределенным.
- Корпорация Майкрософт использует этот отзыв для уточнения модели классификации.
Совет
Для обеспечения максимальной точности необходимо проверить не менее 200 тестовых элементов.
Шаг 5. Публикация классификатора
При удовлетворении точности классификатора:
- Выберите Опубликовать для использования.
- Классификатор становится доступным для:
- Политики автоматической маркировки
- Политики хранения
- Защита от потери данных (DLP)
- Соответствие требованиям к обмену данными
Теперь классификатор автоматически идентифицирует и классифицирует содержимое в зависимости от вашего обучения.
Рекомендации по настраиваемым обучаемым классификаторам
- Обеспечьте разнообразие учебных примеров. Включите диапазон содержимого, точно представляющего категорию классификации.
- Избегайте перенабора: не используйте слишком много похожих документов; разнообразие повышает гибкость классификатора.
- Регулярная проверка и переобучение. По мере изменения содержимого обновляйте классификаторы для поддержания точности.
- Используйте по крайней мере 200 тестовых элементов. Для получения наилучших результатов в наборе примеров тестов должно быть не менее 200 элементов, которые включают по крайней мере 50 положительных примеров и не менее 150 отрицательных примеров. Это повышает уверенность в прогнозах перед публикацией.