Поделиться через


Характеристики и ограничения оценки произношения

Это важно

Для удобства предоставляются только переводы, отличные от английского языка. Пожалуйста, ознакомьтесь с EN-US версией этого документа для обязательной версии.

В рамках службы синтеза речи ИИ Azure оценка произношения позволяет реализовывать комплексные решения для полного цикла обучения с использованием компьютерных технологий для изучения языков. Оценка произношения включает несколько критериев для оценки производительности учащихся на нескольких уровнях детализации, с восприятием, похожим на человеческих судей.

Насколько точно оценка произношения?

Функция оценки произношения предоставляет объективные оценки, такие как точность произношения и степень беглости, для учащихся в компьютерной поддержке в изучении языков. Производительность оценки произношения зависит от точности транскрипции с использованием предоставленной транскрипции вTo-Text качестве ссылки и согласованности оценок между системой и человеческими судьями. Определение точностиTo-Text речи см. в разделе "Характеристики и ограничения" для использования речи в тексте.

В следующих разделах показано, как понять ключевые понятия о точности, применяемой к оценке произношения.

Язык точности

Точность распознавания речиTo-Text влияет на оценку произношения. Скорость ошибок Word (WER) используется для измерения точностиTo-Text речи в качестве отраслевого стандарта. WER подсчитывает количество неправильных слов, определенных во время распознавания, а затем делится на общее количество слов, предоставленных в правильной расшифровке, которая часто создается человеческим меткой.

Сравнение оценки произношения с человеческими судьями

Коэффициент корреляции Пирсона используется для измерения корреляции между оценками, полученными с помощью API оценки произношения, и оценками, выставленными человеческими судьями. Коэффициент корреляции Пирсона — это мера линейной корреляции для двух заданных последовательностей. Она широко используется для измерения разницы между машинно-генерированными результатами и человеческими аннотациями. Этот коэффициент присваивает значение от –1 до 1, где 0 означает отсутствие корреляции, отрицательное значение означает, что прогноз противоположен целевому показателю, а положительное значение показывает, насколько прогноз совпадает с целевым показателем.

Предлагаемые рекомендации по интерпретации коэффициента корреляции Пирсона приведены в следующей таблице. Сила означает корреляцию связей между двумя переменными и отражает, насколько согласованно результат машины соответствует человеческим меткам. Значения, близкие к 1, указывают на более сильную корреляцию.

Сила ассоциации Значение коэффициента Подробные сведения
Низкий уровень От 0.1 до 0.3 Автоматически созданные оценки из автоматической системы не соответствуют представлению людей.
Средний От 0,3 до 0,5 Автоматически созданные оценки из автоматической системы согласованы с восприятием людей, но различия по-прежнему существуют, и люди могут не согласиться с результатом.
Высоко от 0.5 до 1.0 Автоматически созданные оценки из автоматической системы соответствуют представлению людей, и люди готовы согласиться с результатами системы.

В наших оценках оценка произношения от Microsoft достигла корреляции 0,5 по Пирсону с оценками, даваемыми человеческими судьями, что указывает на то, что автоматически сгенерированные результаты очень согласованы с оценками человеческих экспертов.

Ограничения системы и рекомендации по повышению точности системы

  • Оценка произношения лучше работает с более качественным звуковым вводом. Мы рекомендуем качество ввода 16 кГц или выше.
  • Качество оценки произношения также зависит от расстояния говорящего до микрофона. Записи должны быть сделаны с динамиком рядом с микрофоном, а не через удаленное подключение.
  • Оценка произношения не поддерживает смешанный лингвальный сценарий оценки.
  • Оценка произношения поддерживает более широкий спектр языков.
  • Оценка произношения не поддерживает сценарий оценки с несколькими говорящими. Звук должен содержать только один динамик для каждой оценки.
  • Оценка произношения сравнивает представленное аудио с носителями языка в общих условиях. Выступающий должен поддерживать нормальную скорость и громкость речи и избегать крика или повышения голоса.
  • Оценка произношения лучше работает в среде с небольшим фоновым шумом. Текущие модели распознавания речиTo-Text учитывают шум в общих условиях. Шумные среды или несколько людей, говорящих в то же время, могут привести к снижению достоверности оценки. Чтобы лучше справиться с трудными случаями, можно предложить, чтобы говорящий повторил произношение, если оценка ниже определенного порога.

Оценка произношения в ваших приложениях

Производительность оценки произношения зависит от реального использования, которое реализует клиенты. Чтобы обеспечить оптимальную производительность в своих сценариях, клиенты должны проводить собственные оценки решений, которые они реализуют с помощью оценки произношения.

  • Прежде чем использовать оценку произношения в приложениях, рассмотрите, хорошо ли работает этот продукт в вашем сценарии. Соберите реальные данные из целевого сценария, протестируйте, как работает оценка произношения, и убедитесь, чтоTo-Text и оценка произношения могут обеспечить необходимую вам точность, см. статью "Оценка и улучшение точности пользовательской речи в службах искусственного интеллекта Azure".
  • Выберите подходящие пороговые значения для целевого сценария. Оценка произношения обеспечивает оценки точности на разных уровнях, и вам может потребоваться рассмотреть пороговое значение, используемое в реальном использовании. Например, метод градирования для обучения детей может быть не столь строгим, как для обучения взрослых. Рекомендуется задать более высокий порог обнаружения неправильного произношения для обучения взрослых.