Оценка произношения в AI Studio

Внимание

Некоторые функции, описанные в этой статье, могут быть доступны только в предварительной версии. Эта предварительная версия предоставляется без соглашения об уровне обслуживания, и мы не рекомендуем ее для рабочих нагрузок. Некоторые функции могут не поддерживаться или их возможности могут быть ограничены. Дополнительные сведения см. в статье Дополнительные условия использования Предварительных версий Microsoft Azure.

Оценка произношения использует функцию распознавания речи к тексту для предоставления субъективных и объективных отзывов для учащихся языка. Практика произношения и своевременное получение отзывов очень важны для улучшения языковых навыков. Оценки, управляемые опытными учителями, могут занять много времени и усилий и сделать высококачественную оценку дорогой для учащихся. Оценка произношения может помочь сделать оценку языка более увлекательной и доступной для учащихся любого уровня подготовки.

Примечание.

Сведения о доступности оценки произношения см. на страницах со списками поддерживаемых языков и доступных регионов.

В этой статье описывается, как использовать средство оценки произношения без написания кода с помощью AI Studio. Сведения об интеграции оценки произношения в речевые приложения см. в статье Использование технологии оценки произношения.

Сценарии чтения и речи

Для оценки произношения существует два сценария: чтение и речь.

  • Чтение. Этот сценарий предназначен для оценки сценариев. Он требует, чтобы учащийся читал заданный текст. Справочный текст предоставляется заранее.
  • Говоря: этот сценарий предназначен для неписаной оценки. Он требует, чтобы учащийся говорил по заданной теме. Справочный текст заранее не предоставляется.

Проведение оценки с помощью скриптов

Выполните следующие действия, чтобы оценить свое произношение эталонного текста.

  1. Перейдите к оценкепроизношения в Студии ИИ.

    Снимок экрана: переход к оценке произношения в AI Studio.

  2. На вкладке "Чтение" выберите поддерживаемый язык , который вы хотите оценить произношение.

    Снимок экрана: выбор поддерживаемого языка на вкладке чтения, которую вы хотите оценить произношение.

  3. Вы можете использовать подготовленные текстовые примеры или ввести собственный скрипт.

    При чтении текста необходимо быть рядом с микрофоном, чтобы записанный голос не был слишком низким.

    Снимок экрана: место записи звука с микрофоном на вкладке чтения.

    В противном случае можно отправить аудиозапись для оценки произношения. После успешной отправки звук будет автоматически оцениваться системой, как показано на следующем снимке экрана.

    Снимок экрана: загрузка записанного аудиофайла для оценки.

Проведение неписаной оценки

Если вы хотите провести нескрипированную оценку, перейдите на вкладку "Речь". Эта функция позволяет проводить неписаную оценку, не предоставляя справочный текст заранее. Вот как это сделать:

  1. Перейдите к оценкепроизношения в Студии ИИ.

  2. На вкладке "Речь" выберите поддерживаемый язык , который вы хотите оценить произношение.

    Снимок экрана: выбор поддерживаемого языка на вкладке

  3. Затем можно выбрать из примера тем, предоставленных или ввести собственный раздел. Этот выбор позволяет оценить возможность говорить по заданной теме без предопределенного сценария.

    Снимок экрана: ввод раздела на вкладке

    При записи речи для оценки произношения важно убедиться, что время записи попадает в рекомендуемый диапазон от 15 секунд (эквивалентно более 50 слов) до 10 минут. Этот диапазон времени является оптимальным для оценки содержимого речи точно. Чтобы получить оценку темы, ваш речной звук должен содержать по крайней мере три предложения.

    Вы также можете отправить записанный звук для оценки произношения. После успешной отправки звук будет автоматически оцениваться системой.

Результаты оценки произношения

После записи речи или отправки записанного звука результат оценки выводится. Результат включает в себя речевой звук и отзывы о вашей оценке речи. Вы можете прослушивать речной звук и скачать его при необходимости.

Вы также можете проверить результат оценки произношения в формате JSON. Оценки точности на уровне слов, слогов и фонем включены в файл JSON.

Снимок экрана: результат оценки в окне отображения, который включает расшифровку и отзыв о вашей речи.

Слово выделено в соответствии с типом ошибки. Типы ошибок в оценке произношения представлены с помощью различных цветов. Это визуальное различие упрощает выявление и анализ конкретных ошибок. Он предоставляет четкий обзор типов ошибок и частот в голосовом звуке, помогая сосредоточиться на областях, которые нуждаются в улучшении. Вы можете включить или отключить каждый тип ошибки, чтобы сосредоточиться на определенных типах ошибок или исключить определенные типы из дисплея. Эта функция обеспечивает гибкость в том, как вы просматриваете и анализируете ошибки в голосовом звуке. При наведении указателя мыши на каждое слово можно увидеть оценки точности для всего слова или отдельных фонем.

В нижней части результата оценки отображаются результаты оценки. Для оценки произношения скриптов предоставляется только оценка произношения (включая оценку точности, оценку беглости, оценку полноты и оценку просодии). Для неписаной оценки произношения отображаются оценка произношения (включая оценку точности, оценку беглости и оценку просодии) и оценку содержимого (включая оценку словаря, оценку грамматики и оценку темы).

Степень детализации оценки произношения

Оценка произношения предоставляет различные результаты оценки с разной степенью детализации, от отдельных фонем до всего введенного текста.

  • На полнотекстовом уровне оценка произношения предлагает дополнительные оценки Fluency, Completeness и Prosody: Fluency указывает, насколько тесно речь соответствует использованию молчаливых разрывов между словами. Полнота указывает, сколько слов произносится в речи в вводе ссылочного текста; Prosody указывает, насколько хорошо динамик передает элементы естественности, экспрессивности и общей просодии в их речи. Затем дается общая оценка, агрегированная из точности, Fluency, Completeness и Prosody, чтобы указать общее качество произношения данной речи. Оценка произношения также предлагает оценку содержимого (словарь, грамматика и раздел) на полном текстовом уровне.
  • На уровне слова оценка произношения может автоматически обнаруживать ошибки и одновременно предоставлять оценку точности, которая предоставляет более подробную информацию об упущении, повторении, вставке и неправильном определении речи.
  • Оценки точности на уровне слога в настоящее время доступны через JSON-файл или пакет SDK службы "Речь".
  • На уровне фонем оценка произношения предоставляет оценки точности каждой фонемы, помогая учащимся лучше разобраться в деталях произношения своей речи.

Помимо базовых показателей точности, беглости и полноты, функция оценки произношения в СТУДИи AI Studio содержит более подробные оценки, чтобы предоставить подробные отзывы о различных аспектах производительности речи и понимания. Расширенные оценки приведены следующим образом: оценка prosody, оценка словаря, оценка грамматики и оценка тем. Эти оценки предоставляют ценные сведения о речевой просодии, использовании словаря, правильности грамматики и понимании тем.

Снимок экрана: общая оценка произношения и общая оценка содержимого в AI Studio.

В нижней части результата оценки отображаются две общие оценки: оценка произношения и оценка содержимого. На вкладке "Чтение" отображается оценка произношения. На вкладке "Речь" отображаются оценка произношения и оценка содержимого.

Оценка произношения: эта оценка представляет агрегированную оценку качества произношения и включает четыре подспекта. Эти оценки доступны как на вкладках чтения, так и в речи для сценариев и нескрипированных оценок.

  • Оценка точности: оценивает правильность произношения.
  • Оценка беглости: измеряет уровень гладкости и естественности речи.
  • Оценка полноты: Рефлексия число слов, произнесемых правильно.
  • Просодии оценка: оценивает использование соответствующих интонации, ритма и стресса. Вводятся несколько других типов ошибок, связанных с оценкой просодии, например непредвиденный перерыв, отсутствие перерыва и Монотон. Эти типы ошибок предоставляют более подробные сведения об ошибках произношения по сравнению с предыдущим механизмом.

Оценка содержимого: эта оценка обеспечивает агрегированную оценку содержимого речи и включает три подспекта. Эта оценка доступна только на вкладке "Речь" для неписаной оценки.

  • Оценка словаря: оценивает эффективное использование слов говорящего и их правильность в данном контексте для точного выражения идей и уровня лексической сложности.
  • Оценка грамматики: оценивает правильность использования грамматики и различные шаблоны предложений. Он рассматривает лексическую точность, грамматическую точность и разнообразие структур предложений, обеспечивая более полную оценку знаний языка.
  • Оценка темы: оценивает уровень понимания и взаимодействия с темой, рассмотренной в речи. Он оценивает способность докладчика эффективно выражать мысли и идеи, связанные с данной темой.

Эти общие оценки предлагают комплексную оценку произношения и содержимого, предоставляя учащимся ценные отзывы о различных аспектах их производительности речи и понимания. Благодаря этим расширенным функциям учащиеся языка могут получить более подробную информацию о своих преимуществах и областях для улучшения произношения и выражения контента.

Примечание.

Оценки содержимого и просодий доступны только в языковом стандарте en-US .

Оценки оценки в режиме потоковой передачи

Оценка произношения поддерживает непрерывный режим потоковой передачи. Демонстрация AI Studio позволяет выполнять до 60 минут записи в режиме потоковой передачи для оценки. Если вы не нажимаете кнопку остановки записи, процесс оценки не завершается, и вы можете приостановить и возобновить оценку удобно.

Оценка произношения оценивает несколько аспектов произношения. В нижней части результата оценки вы увидите оценку произношения как агрегированную общую оценку, которая включает в себя 4 подотчетные аспекты: оценка точности, оценка fluency, оценка полноты и оценка Prosody. В режиме потоковой передачи, так как оценка точности, оценка Fluency и Оценка Prosody будут различаться во время процесса записи, мы продемонстрировали подход в AI Studio, чтобы отобразить приблизительную общую оценку постепенно до конца оценки, которая взвешна только с оценкой точности, показателем Fluency и показателем Prosody. Оценка полноты вычисляется только в конце оценки после нажатия кнопки остановки, поэтому окончательный показатель произношения общей оценки агрегируется из оценки точности, оценки Fluency, оценки полноты и просоди с весом.

Ознакомьтесь с примерами демонстрации, приведенными ниже, для всего процесса оценки произношения в режиме потоковой передачи.

Начать запись

При начале записи оценки в нижней части начинают изменяться с 0.

Снимок экрана: общие оценки при запуске записи.

Во время записи

Во время записи длинного абзаца можно приостановить запись в любое время. Вы можете продолжать оценивать запись, пока вы не нажимаете кнопку остановки.

Снимок экрана: общие оценки при записи.

Завершение записи

После нажатия кнопки остановки вы увидите оценку произношения, оценку точности, оценку fluency, оценку полноты и оценку Prosody в нижней части.

Снимок экрана: общие оценки после записи.

Цены

В качестве базового плана использование оценки произношения стоит так же, как речь в тексте для оплаты по мере использования или цен на категории обязательств. Если вы приобрели уровень обязательств для преобразования речи в текст, расходы на оценку произношения идет к достижению приверженности.

Функция оценки произношения также предлагает другие оценки, которые не включены в базовую речь по текстовой цене: просодии, грамматики, темы и словаря. Эти оценки доступны как плата за надстройку над базовой речью в текстовой цене. Сведения о ценах см . в разделе "Речь" о ценах на текст.

Ниже приведена таблица доступных показателей оценки произношения, доступных в скриптах или неписаных оценках, а также о том, включена ли она в базовую речь по текстовой цене или цене надстройки.

Балл Скрипты или незаписанные Включена в базовую речь по цене текста?
Правильность Скрипты и незаписанные Да
Беглости Скрипты и незаписанные Да
Полноту Скрипты Да
Miscue Скрипты и незаписанные Да
Интонация Скрипты и незаписанные No
грамматики Только неописанный No
Раздел Только неописанный No
Словарь Только неописанный No

Ответственное применение ИИ

Система ИИ включает не только технологию, но и людей, которые используют ее, людей, которые будут затронуты ею, и среды, в которой она развернута. Ознакомьтесь с заметками о прозрачности, чтобы узнать об использовании и развертывании ответственного искусственного интеллекта в системах.

Следующие шаги