Термины и определения, используемые в пользовательской классификации текстов

В этой статье содержатся сведения о некоторых определениях и терминах, которые могут вам встретиться при работе с пользовательской классификацией текстов.

Класс

Класс — это определяемая пользователем категория для указания общей классификации текста. Разработчики помечают свои данные своими классами, прежде чем передавать их в модель для обучения.

F-мера

Показатель F1 зависит от точности и полноты. Она необходима при поиске баланса между точностью и полнотой.

Моделирование

Модель — это объект, обученный для выполнения определенной задачи, в нашем случае пользовательской классификации текстов. Для обучения модели используются данные с метками, чтоыбы их затем можно было использовать для задач классификации.

  • Обучение модели — это процесс обучения модели классификации документов на основе данных с метками.
  • Оценка модели — это процесс, который выполняется сразу после обучения для определения уровня производительности модели.
  • Развертывание — это процесс назначения модели развертыванию, чтобы сделать ее доступной для использования с помощью API прогнозирования.

Точность

Измеряет, насколько точна модель. Представляет собой соотношение между правильно определенными положительными (истинноположительными) результатами и всеми определенными положительными результатами. Метрика точности показывает, сколько из спрогнозированных классов правильно помечено метками.

Project

Проект — это рабочая область для создания настраиваемых моделей машинного обучения на основе данных. Получить доступ к вашему проекту можете только вы, а также другие пользователи, у которых есть доступ к используемому ресурсу Azure. В качестве предварительного условия для создания проекта пользовательской классификации текстов необходимо подключить ресурс к учетной записи хранения с помощью набора данных при создании нового проекта. Проект автоматически включает все файлы .txt, доступные в вашем контейнере.

В проекте можно выполнять следующие действия:

  • Добавление меток к данным. Процесс добавления меток к данным, чтобы при обучении модель знала, что именно нужно извлекать.
  • Создание и обучение модели. Основной этап проекта, в котором модель начинает обучаться по данным с метками.
  • Просмотр сведений об оценке модели. Проверка производительности модели, чтобы принять решение о том, дает ли модель удовлетворительные результаты или необходимо улучшение.
  • Развертывание. После проверки производительности модели и принятия решения об использовании в вашей среде; его необходимо назначить развертыванию, чтобы иметь возможность запрашивать его. Назначаемая развертыванию модель становится доступной для использования с помощью API прогнозирования.
  • Тестовая модель. После развертывания модели эту операцию можно использовать в Language Studio, чтобы опробовать развертывание и определить его эффективность в рабочей среде.

Типы проектов

Пользовательская классификация текстов поддерживает проекты двух типов.

  • Классификация по одной метке — каждому документу из набора данных можно назначить только один класс. Например, сценарий фильма можно классифицировать только как "Романтический фильм" или "Комедия".
  • Классификация по нескольким меткам — каждому документу из набора данных можно назначить несколько классов. Например, сценарий фильма можно классифицировать как "Комедия" или "Романтический фильм" и "Комедия".

Отозвать

Измеряет способность модели прогнозировать фактические положительные классы. Это отношение между спрогнозированными истинноположительными результатами и фактически помеченными значениями. Метрика полноты показывает, сколько из прогнозируемых классов определено верно.

Следующие шаги