Подготовка данных и определение схемы классификации текстов

Чтобы создать модель пользовательской классификации текстов, вам понадобятся качественные данные для обучения. В этой статье объясняется, как подойти к выбору и подготовке данных, а также определить схему. Определение схемы представляет собой первый шаг в жизненном цикле разработки проекта. Схема определяет классы, которые требуются модели для классификации текста во время выполнения.

Структура схемы

Схема определяет классы, которые требуются модели для классификации текста во время выполнения.

  • Проверка и определение: проверьте документы в наборе данных, чтобы ознакомиться с их структурой и содержимым, а затем определите, как нужно классифицировать данные.

    Например, при классификации запросов в службу поддержки могут потребоваться следующие классы: проблемы при входе в систему, проблемы с оборудованием, проблемы с подключением и запрос на новое оборудование.

  • Избегайте неоднозначности в классах: неоднозначность возникает, когда указанные классы имеют похожее значение. Чем более неоднозначна схема, тем больше данных с метками может потребоваться для различения классов.

    Например, если вы классифицирует рецепты, они могут быть с какой-то степени похожи. Чтобы отличить рецепт десерта от рецепта основного блюда, возможно, потребуется добавить метки к дополнительным примерам и тем самым помочь модели провести различие между двумя классами. Предотвращая неоднозначность, вы экономите время, а также получаете более качественные результаты.

  • Данные вне области: при использовании модели в рабочей среде рекомендуется добавить в схему класс вне области, если предполагается, что некоторые документы не принадлежат ни к одному из классов. Затем добавьте несколько документов в набор данных, чтобы добавить к ним метку Вне области. Модель может научиться распознавать ненужные документы и прогнозировать их метки соответствующим образом.

Выбор данных

Качество данных, с помощью которых обучается модель, значительно влияет на ее производительность.

  • Используйте реальные данные, отражающие проблемный участок вашей области применения, чтобы эффективно обучить модель. Искусственные данные могут ускорить начальное обучение модели, но, вероятнее всего, они будут отличаться от реальных модель будет менее эффективной при использовании.

  • Максимально сбалансируйте распределение данных, не слишком отклоняясь от реального распределения.

  • При возможности используйте самые разнообразные данные, чтобы избежать лжевзаимосвязи в модели. Недостаточное разнообразие в обучающих данных может привести к ложным корреляциям модели, которых может не быть в реальных данных.

  • Избегайте дублирования документов в данных. Дублирование данных негативно влияет на обучение, метрики и производительность модели.

  • Учитывайте источники своих данных. Если данные поступают от одного человека, из одного отдела или в результате работы над одной частью вашего сценария, вероятнее всего, они будут недостаточно разнообразны и ваша модель будет лишена важных элементов для обучения.

Примечание

Если у вас документы на нескольких языках, во время создания проекта выберите параметр несколько языков и задайте язык, использующийся в большинстве ваших документов.

Подготовка данных

Чтобы создать пользовательский проект классификации текста, необходимо отправить обучающие данные в контейнер больших двоичных объектов в вашей учетной записи хранения. Вы можете создавать и отправлять обучающие документы непосредственно из Azure или с помощью средства "Обозреватель службы хранилища Azure". Средство "Обозреватель службы хранилища Azure" позволяет быстро отправлять большие объемы данных.

Можно использовать только файлы .txt документы для пользовательского текста. Если данные имеют другой формат, вы можете изменить формат файла с помощью команды анализа CLUtils.

Вы можете отправить набор данных с заметками или без них, добавив к данным метки в Language Studio.

Тестовый набор

При определении тестового набора обязательно включите примеры документов, которые отсутствуют в обучающем наборе. Определение тестового набора — важный шаг для вычисления производительности модели. Убедитесь также, что проверочный набор содержит документы, представляющие все классы, используемые в проекте.

Следующие шаги

Создайте проект пользовательской классификации текстов, если вы этого еще не сделали. Если вы впервые используете пользовательскую классификацию текстов, рекомендуем создать пример проекта с помощью инструкций из краткого руководства. Дополнительные сведения о том, что нужно для создания проекта, см. в требованиях к проекту.