Создание и повторное обучение обучаемого классификатора

Завершено

Обучаемый классификатор Microsoft 365 — это средство, которое организация может "обучить" распознаванию различных типов контента. Организация может сделать это, предоставляя средству различные примеры данных для анализа. После завершения обучения классификатора, то есть после его создания и обучения, организация может продолжить "переобучение", чтобы повысить точность определения различных типов классификаций данных.

В этом блоке рассматривается создание обучаемого классификатора и повторное обучение существующего.

Как создать обучаемый классификатор

Выполните следующие действия, чтобы создать, протестировать и опубликовать настраиваемый обучаемый классификатор:

  1. Соберите от 50 до 500 начальных элементов содержимого. Эти элементы контента должны быть только примерами. Они также должны четко представлять тип контента, который обучаемый классификатор должен однозначно идентифицировал как находящийся в категории классификации.

    Важно!

    Необходимо, чтобы элементы в исходном наборе были яркими примерами категории. Обучаемый классификатор изначально строит свою модель на основе того, что вы в нее закладываете. Классификатор предполагает, что все начальные образцы являются сильными положительными совпадениями. Он не может узнать, соответствует ли образец категории слабым или отрицательным образом.

  2. Поместите начальное содержимое в папку SharePoint Online, предназначенную только для хранения начального содержимого. Запишите URL-адрес сайта, библиотеки и папки.

    Совет

    Если вы создаете новый сайт и папку для своих исходных данных, дайте системе по крайней мере час проиндексировать это расположение, прежде чем создавать обучаемый классификатор, который использует эти начальные данные.

  3. Войдите на портал соответствия требованиям Microsoft Purview с ролью администратора соответствия или администратора безопасности. Затем выберите Классификация данных на панели навигации, чтобы развернуть группу.

  4. В группе Классификация данных выберите Классификаторы.

  5. На странице Классификаторы по умолчанию должна отображаться вкладка Обучаемые классификаторы.

  6. На вкладке Обучаемые классификаторы выберите +Создать обучаемый классификатор в строке меню.

  7. Заполните соответствующие значения в полях Имя и Описание категории элементов, которые вы хотите, чтобы этот обучаемый классификатор идентифицировал.

  8. Выберите URL-адрес сайта, библиотеки и папки SharePoint Online для сайта исходного контента на шаге 2. Нажмите Добавить.

  9. Просмотрите параметры и выберите Создать обучаемый классификатор.

  10. Обучаемому классификатору может потребоваться до 24 часов для обработки исходных данных и построения модели прогнозирования. Состояние классификатора во время обработки начальных данных — Выполняется. Когда классификатор завершит обработку исходных данных, состояние изменится на Требуются тестовые элементы.

  11. Как только классификатор завершит обработку исходных данных, выберите классификатор, чтобы просмотреть страницу его сведений.

    Снимок экрана со страницей сведений о выбранном классификаторе.

  12. Для достижения наилучших результатов соберите не менее 200 элементов тестового контента (максимум 10000). Эти элементы должны представлять собой сочетание сильно положительных и сильно отрицательных, а также менее очевидных по своей природе элементов.

  13. Поместите тестовое содержимое в папку SharePoint Online, которую вы выделили только для хранения тестового содержимого. Запишите URL-адрес сайта, библиотеки и папки SharePoint Online.

    Совет

    Если вы создаете новый сайт и папку для своих тестовых данных, предоставьте системе по крайней мере час для индексации этого расположения, прежде чем создавать обучаемый классификатор,использующий эти начальные данные.

  14. Выберите Добавить элементы для тестирования.

  15. Выберите URL-адрес сайта, библиотеки и папки SharePoint Online для сайта с тестовым контентом на шаге 12. Нажмите Добавить.

  16. Завершите работу мастера, выбрав Готово. Обучаемому классификатору требуется до часа для обработки тестовых файлов.

  17. Когда обучаемый классификатор завершит обработку тестовых файлов, состояние на странице сведений изменится на Готово к просмотру. Если вы хотите увеличить размер тестовой выборки, выберите Добавить элементы для тестирования и разрешите обучаемому классификатору обрабатывать дополнительные элементы.

    Снимок экрана: страница процесса обучения, на которой вы просматриваете элементы для обеспечения точности классификатора.

  18. Выберите вкладку Протестированные элементы для проверки, чтобы просмотреть элементы.

  19. Microsoft 365 отображает 30 элементов одновременно. Просмотрите каждый элемент. Для каждого элемента появляется диалоговое окно с вопросом, согласны ли вы с оценкой этого элемента. На следующем снимке экрана показана оценка По нашим прогнозам этот элемент является "релевантным". Вы согласны? Вы можете ответить, выбрав "Да", "Нет" или "Не знаю, перейти к следующему элементу". Система автоматически обновляет точность модели после каждых 30 элементов.

    Снимок экрана со страницей проверки элемента, на которой спрашивается, согласны ли вы с оценкой элемента тестирования.

  20. Просмотрите не менее 200 позиций. Как только система стабилизирует показатель точности, опция Опубликовать становится доступной, а состояния классификатора меняется на Готов к использованию.

    Снимок экрана страницы элемента проверки, на котором указано, что классификатор готов к использованию.

  21. Выберите параметр Опубликовать, чтобы опубликовать классификатор.

  22. После публикации классификатора он становится доступным в качестве условия в:

Как повторно обучить классификатор

Поскольку организация использует собственные обучаемые классификаторы, она может захотеть повысить точность классификаций, создаваемых классификаторами. Вы повышаете точность, оценивая качество классификаций "match" и "not a match", выполненных классификатором. После того как вы сделаете 30 оценок для классификатора, он учтет эту обратную связь и автоматически повторно обучится.

Организация может повысить точность настраиваемых обучаемых классификаторов. Повышение точности обучаемого классификатора называется "повторное обучение" классификатора. Чтобы повторно обучить обучаемый классификатор, организации необходимо предоставить отзыв о точности выполненной классификации.

Примечание.

Организация не может повторно обучить предварительно обученные классификаторы, предоставленные в клиенте Microsoft 365.

На следующей схеме показан рабочий процесс повторного обучения обучаемого классификатора.

Схема, показывающая рабочий процесс, связанный с повторным обучением обучаемого классификатора.

Организации могут повторно обучать пользовательские обучаемые классификаторы в разделе Классификация данных на портале соответствия требованиям Microsoft Purview. Чтобы повторно обучить классификатор, организации должны сделать следующее:

  1. На портале соответствия Microsoft Purview выберите Классификация данных в области навигации, чтобы развернуть эту группу.

  2. В группе Классификация данных выберите Обозреватель контента.

  3. На странице обозревателя содержимого в списке Фильтр по меткам, типам информации или категориям прокрутите вниз до раздела Обучаемые классификаторы.

    Важно!

    Прежде чем агрегированные элементы появятся в разделе "Обучаемые классификаторы", может пройти до восьми дней.

  4. Выберите обучаемый классификатор, который вы хотите повторно обучить.

    Примечание.

    Если элемент содержит запись в столбце Метка хранения, это означает, что система классифицировала этот элемент как соответствующий. Если для элемента нет записи в столбце Метка хранения, это означает, что система классифицировала его как близкое совпадение. Вы можете максимально повысить точность классификатора, предоставив отзыв по элементам с близким соответствием.

  5. Выберите элемент и откройте его.

  6. Затем выберите Отправить отзыв.

  7. Если в области Подробный отзыв элемент действительно положительный, выберите Соответствует. Если элемент является ложноположительным, что означает, что он включен в категорию по ошибке, выберите Не соответствует.

  8. Если есть другой классификатор, более подходящий для данного элемента, вы можете выбрать его из списка Предложить другие обучаемые классификаторы. Это активирует другой классификатор для оценки элемента.

  9. Выберите Отправить отзыв, чтобы отправить свою оценку классификаций "соответствует" и "не соответствует". Вы также можете предложить другие элементы для этого обучаемого классификатора. После предоставления классификатору 30 экземпляров отзывов он автоматически запустит процесс повторного обучения. Повторное обучение может занять от одного до четырех часов. Вы можете повторно обучать классификаторы только два раза в день.

    Важно!

    Эта информация поступает в классификатор в клиенте. Она не возвращается в Корпорацию Майкрософт.

  10. На странице Классификаторы выберите вкладку Обучаемые классификаторы.

  11. Классификатор, который вы использовали в своей политике соответствия требованиям в области коммуникаций, отображается под заголовком Повторное обучение.

  12. После завершения переобучения выберите классификатор, чтобы открыть обзор повторного обучения.

    Снимок экрана: вкладка обзора повторного обучения, показывающая отзывы о классификаторе данных после завершения повторного обучения классификатора системой.

  13. Просмотрите рекомендуемые действия и сравнения прогнозов повторно обученной и опубликованной сейчас версий классификатора.

  14. Если вас устраивают результаты переобучения, выберите Опубликовать повторно.

  15. Если вы не удовлетворены результатами повторного обучения, вы можете предоставить дополнительную информацию классификатору на вкладке Обозреватель содержимого и начать еще один цикл повторного обучения. Или вы можете ничего не делать, и в этом случае система продолжит использовать текущую опубликованную версию классификатора.