Примечание
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Это важно
Для удобства предоставляются только переводы, отличные от английского языка. Пожалуйста, ознакомьтесь с EN-US
версией этого документа для обязательной версии.
В рамках службы синтеза речи ИИ Azure оценка произношения позволяет реализовывать комплексные решения для полного цикла обучения с использованием компьютерных технологий для изучения языков. Оценка произношения включает несколько критериев для оценки производительности учащихся на нескольких уровнях детализации, с восприятием, похожим на человеческих судей.
Насколько точно оценка произношения?
Функция оценки произношения предоставляет объективные оценки, такие как точность произношения и степень беглости, для учащихся в компьютерной поддержке в изучении языков. Производительность оценки произношения зависит от точности транскрипции с использованием предоставленной транскрипции вTo-Text качестве ссылки и согласованности оценок между системой и человеческими судьями. Определение точностиTo-Text речи см. в разделе "Характеристики и ограничения" для использования речи в тексте.
В следующих разделах показано, как понять ключевые понятия о точности, применяемой к оценке произношения.
Язык точности
Точность распознавания речиTo-Text влияет на оценку произношения. Скорость ошибок Word (WER) используется для измерения точностиTo-Text речи в качестве отраслевого стандарта. WER подсчитывает количество неправильных слов, определенных во время распознавания, а затем делится на общее количество слов, предоставленных в правильной расшифровке, которая часто создается человеческим меткой.
Сравнение оценки произношения с человеческими судьями
Коэффициент корреляции Пирсона используется для измерения корреляции между оценками, полученными с помощью API оценки произношения, и оценками, выставленными человеческими судьями. Коэффициент корреляции Пирсона — это мера линейной корреляции для двух заданных последовательностей. Она широко используется для измерения разницы между машинно-генерированными результатами и человеческими аннотациями. Этот коэффициент присваивает значение от –1 до 1, где 0 означает отсутствие корреляции, отрицательное значение означает, что прогноз противоположен целевому показателю, а положительное значение показывает, насколько прогноз совпадает с целевым показателем.
Предлагаемые рекомендации по интерпретации коэффициента корреляции Пирсона приведены в следующей таблице. Сила означает корреляцию связей между двумя переменными и отражает, насколько согласованно результат машины соответствует человеческим меткам. Значения, близкие к 1, указывают на более сильную корреляцию.
Сила ассоциации | Значение коэффициента | Подробные сведения |
---|---|---|
Низкий уровень | От 0.1 до 0.3 | Автоматически созданные оценки из автоматической системы не соответствуют представлению людей. |
Средний | От 0,3 до 0,5 | Автоматически созданные оценки из автоматической системы согласованы с восприятием людей, но различия по-прежнему существуют, и люди могут не согласиться с результатом. |
Высоко | от 0.5 до 1.0 | Автоматически созданные оценки из автоматической системы соответствуют представлению людей, и люди готовы согласиться с результатами системы. |
В наших оценках оценка произношения от Microsoft достигла корреляции 0,5 по Пирсону с оценками, даваемыми человеческими судьями, что указывает на то, что автоматически сгенерированные результаты очень согласованы с оценками человеческих экспертов.
Ограничения системы и рекомендации по повышению точности системы
- Оценка произношения лучше работает с более качественным звуковым вводом. Мы рекомендуем качество ввода 16 кГц или выше.
- Качество оценки произношения также зависит от расстояния говорящего до микрофона. Записи должны быть сделаны с динамиком рядом с микрофоном, а не через удаленное подключение.
- Оценка произношения не поддерживает смешанный лингвальный сценарий оценки.
- Оценка произношения поддерживает более широкий спектр языков.
- Оценка произношения не поддерживает сценарий оценки с несколькими говорящими. Звук должен содержать только один динамик для каждой оценки.
- Оценка произношения сравнивает представленное аудио с носителями языка в общих условиях. Выступающий должен поддерживать нормальную скорость и громкость речи и избегать крика или повышения голоса.
- Оценка произношения лучше работает в среде с небольшим фоновым шумом. Текущие модели распознавания речиTo-Text учитывают шум в общих условиях. Шумные среды или несколько людей, говорящих в то же время, могут привести к снижению достоверности оценки. Чтобы лучше справиться с трудными случаями, можно предложить, чтобы говорящий повторил произношение, если оценка ниже определенного порога.
Оценка произношения в ваших приложениях
Производительность оценки произношения зависит от реального использования, которое реализует клиенты. Чтобы обеспечить оптимальную производительность в своих сценариях, клиенты должны проводить собственные оценки решений, которые они реализуют с помощью оценки произношения.
- Прежде чем использовать оценку произношения в приложениях, рассмотрите, хорошо ли работает этот продукт в вашем сценарии. Соберите реальные данные из целевого сценария, протестируйте, как работает оценка произношения, и убедитесь, чтоTo-Text и оценка произношения могут обеспечить необходимую вам точность, см. статью "Оценка и улучшение точности пользовательской речи в службах искусственного интеллекта Azure".
- Выберите подходящие пороговые значения для целевого сценария. Оценка произношения обеспечивает оценки точности на разных уровнях, и вам может потребоваться рассмотреть пороговое значение, используемое в реальном использовании. Например, метод градирования для обучения детей может быть не столь строгим, как для обучения взрослых. Рекомендуется задать более высокий порог обнаружения неправильного произношения для обучения взрослых.