Бөлісу құралы:


Тестирование и оценка пользовательских моделей формирования сводных данных

При создании пользовательской модели формирования сводных данных необходимо убедиться, что в конечном итоге у вас будет качественная модель. Чтобы убедиться, что пользовательская модель формирования сводных данных работает правильно, необходимо протестировать и оценить ее.

Руководство по разделенным наборам тестов и обучения

Важным этапом создания настраиваемой модели формирования сводных данных является проверка того, что созданная модель является удовлетворительной с точки зрения качества и создает сводки должным образом. Этот процесс проверки должен выполняться с отдельным набором примеров (называемых тестовые примеры), чем примеры, используемые для обучения. Существует три важных рекомендации, которые мы рекомендуем выполнить при разделении доступных данных на обучение и тестирование.

  • Размер. Чтобы обеспечить достаточную уверенность в качестве модели, проверочный набор должен иметь разумный размер. Тестирование модели на нескольких примерах может привести к вводу в заблуждение времени оценки результатов. Рекомендуется использовать сотни примеров. Если доступно большое количество документов или бесед, рекомендуется резервировать не менее 10 % из них для тестирования.
  • Отсутствие перекрытия. Важно убедиться, что один и тот же документ не используется одновременно для обучения и тестирования. Тестирование следует выполнять с документами, которые никогда не использовались для обучения на любом этапе, в противном случае качество модели будет сильно завышено.
  • Разнообразие. Тестовый набор должен охватывать как можно больше возможных входных характеристик. Например, всегда лучше включать документы разной длины, тем, стилей и .. Др. если применимо. Точно так же для формирования итогов беседы всегда рекомендуется включать беседы с разным количеством оборотов и числом говорящих.

Руководство по оценке пользовательской модели формирования сводных данных

При оценке пользовательской модели рекомендуется использовать как автоматическую, так и ручную оценку. Автоматическая оценка позволяет быстро оценить качество сводок, созданных для всего тестового набора, и, таким образом, охватывает широкий спектр вариантов ввода. Однако автоматическая оценка дает приблизительное представление о качестве и сама по себе недостаточно для обеспечения уверенности в качестве модели. Поэтому рекомендуется также изучить сводки, созданные для как можно большего количества тестовых документов.

Автоматическая оценка

В настоящее время мы используем метрику с именем ROUGE (ROUGE) (занительно-ориентированное недоумение для оценки gisting). Этот метод включает в себя меры для автоматического определения качества сводки путем сравнения его с идеальными сводными данными, созданными людьми. Меры подсчитывают количество перекрывающихся единиц, таких как n-грамм, последовательности слов и пары слов между вычисляемой компьютерной сводной информацией и идеальными сводками. Дополнительные сведения о Rouge см. в записи ROUGE в Википедии и в документе о пакете ROUGE.

Оценка вручную

При проверке качества сводки вручную существуют общие качества сводки, которые мы рекомендуем проверить, помимо любых требуемых ожиданий, которые пользовательская модель обучена, чтобы соответствовать стилю, формату или длине. Общие качества, которые мы рекомендуем проверить:

  • Беглость: в сводке не должно быть проблем с форматированием, ошибок с прописными буквами или неграмматических предложений.
  • Согласованность: резюме должно быть хорошо структурировано и хорошо организовано. Сводка не должна быть просто кучей связанных сведений, но должна выстраиваться из предложения в предложение в последовательный набор сведений по теме.
  • Охват: сводка должна охватывать все важные сведения в документе или беседе.
  • Релевантность. Сводка должна содержать только важные сведения из исходного документа или беседы без избыточности.
  • Галлюцинации. Сводка не содержит неправильных сведений, не поддерживаемых исходным документом или беседой.

Дополнительные сведения об оценке формирования сводных данных см. в статье Mit Press на сайте SummEval.