Что такое пользовательская классификация текстов?

Пользовательская классификация текста — это одна из настраиваемых функций, предлагаемых языком ИИ Azure. Это облачная служба API, которая применяет логику машинного обучения для создания пользовательских моделей для задач классификации текста.

Пользовательская классификация текстов позволяет пользователям создавать собственные модели ИИ для классификации текстов на основе классов, заранее определенных пользователем. Создавая пользовательский проект классификации текста, разработчики могут итеративно маркировать данные, обучать и оценивать модель, а также повышать ее производительность, прежде чем сделать ее доступной для использования. Качество данных с метками значительно влияет на производительность модели. Чтобы упростить создание и настройку модели, служба предлагает настраиваемый веб-портал, доступ к которому можно получить с помощью Language Studio. Вы можете легко приступить к работе со службой, выполнив действия, описанные в этом кратком руководстве.

Пользовательская классификация текстов поддерживает проекты двух типов:

  • Классификация по одной метке — каждому документу из набора данных можно назначить только один класс. Например, сценарий фильма можно классифицировать только как "Романтический фильм" или "Комедия".
  • Классификация по нескольким меткам — каждому документу из набора данных можно назначить несколько классов. Например, сценарий фильма можно классифицировать как "Комедия" или "Романтический фильм" и "Комедия".

Эта документация включает статьи следующих типов:

Примеры сценариев использования

Пользовательскую классификацию текстов можно использовать в нескольких сценариях в различных отраслях:

Автоматическая сортировка электронных писем или запросов в службу поддержки

Службы поддержки получают большое количество электронных писем и запросов, содержащих неструктурированный текст в свободной форме, а также вложения. Очень важно своевременно их рассмотреть, подтвердить получение и переадресовать профильным специалистам в группах. Обработка такого количества электронных писем, при котором специалисты вручную их читают и направляют в нужные отделы, требует много времени и ресурсов. Пользовательскую классификацию текстов можно использовать для анализа сортировки входящего текста и категоризации содержимого, которое будет автоматически направляться в соответствующий отдел для выполнения дальнейших действий.

Возможность поиска является одной из ключевых функций любого приложения, которое предоставляет текстовое содержимое пользователям. К распространенным сценариям относится поиск по каталогу или документу, поиск по розничным продуктам и интеллектуальный анализ знаний для обработки и анализа данных. Многим предприятиям в различных отраслях нужна возможность детализированного поиска по частному разнородному содержимому, включающему как структурированные, так и неструктурированные документы. В рамках своего конвейера разработчики могут использовать пользовательскую классификацию текста, чтобы классифицировать текст по классам, соответствующим их отрасли. Эти классы можно использовать для обогащения индексирования файла в целях более специализированного поиска.

Жизненный цикл разработки проекта

Создание пользовательского проекта классификации текста обычно включает несколько шагов.

Жизненный цикл разработки

Чтобы максимально эффективно использовать модель, выполните следующие шаги:

  1. Определение схемы. Узнайте свои данные и определите классы , между которыми вы хотите различать, чтобы избежать неоднозначности.

  2. Маркировка данных. Качество этого процесса является ключевым фактором, от которого зависит производительность модели. Документам, относящимся к одному классу, нужно назначить один и тот же класс. Если какой-либо документ можно отнести к двум классам, используйте проекты Классификация по нескольким меткам. Избегайте неоднозначности классов. Убедитесь, что классы четко различимы друг от друга, особенно в случае проектов классификации по одной метке.

  3. Обучение модели. Обучение модели начинается с изучения промаркированных данных.

  4. Просмотр сведений о производительности модели. Просмотрите сведения об оценке модели, чтобы определить, насколько она эффективна при внесении новых данных.

  5. Развертывание модели. Развернутая модель становится доступной для использования посредством API анализа.

  6. Классификация текстов. Используйте собственную модель для задач пользовательской классификации текстов.

Справочная документация и примеры кода

При использовании пользовательской классификации текста ознакомьтесь со следующей справочной документацией и примерами для языка ИИ Azure:

Язык/вариант разработки Справочная документация Примеры
REST API (разработка) Документация по REST API
REST API (среда выполнения) Документация по REST API
C# (среда выполнения) Документация по C# Примеры на C# — классификация по одной меткеПримеры на C# — классификация по нескольким меткам
Java (среда выполнения) Документация для Java Примеры на Java — классификация по одной меткеПримеры на Java — классификация по нескольким меткам
JavaScript (среда выполнения) Документация по работе с JavaScript. Примеры на JavaScript — классификация по одной меткеПримеры на JavaScript — классификация по нескольким меткам
Python (среда выполнения) Документация по Python. Примеры на Python — классификация по одной меткеПримеры на Python — классификация по нескольким меткам

Ответственный подход к использованию ИИ

В систему ИИ входит не только технология, но и ее пользователи, люди, на которых она повлияет, а также среда, в которой она будет развернута. Ознакомьтесь с примечанием о прозрачности для пользовательской классификации текстов, чтобы узнать больше об ответственном использовании и развертывании решений искусственного интеллекта в своих системах. Дополнительные сведения см. в следующих статьях:

Следующие шаги

  • Используйте краткое руководство, чтобы приступить к использованию пользовательской классификации текстов.

  • В ходе жизненного цикла разработки проекта просмотрите глоссарий, чтобы узнать больше о терминах, используемых в документации по этой функции.

  • Не забудьте ознакомиться с ограничениями службы, например со сведениями о доступности по регионам.