Обучение профессиональной голосовой модели

Статья
02/23/2024

Из этой статьи вы узнаете, как обучить Пользовательский нейронный голос с помощью портала Speech Studio.

Внимание

Настраиваемое обучение нейронных голосов в настоящее время доступно только в некоторых регионах. После обучения модели голосовой связи в поддерживаемом регионе его можно скопировать в ресурс "Речь" в другом регионе по мере необходимости. Дополнительные сведения см. в сносках в таблице службы "Речь".

Длительность обучения зависит от того, сколько данных вы используете. В среднем для обучения пользовательского нейронного голоса требуется около 40 часов вычислений. Пользователи со стандартной подпиской (S0) могут одновременно обучать четыре голоса. Если этот предел достигнут, подождите, пока хотя бы одна из моделей завершит обучение, а затем повторите попытку.

Примечание.

Хотя общее количество часов, необходимых для каждого метода обучения, зависит от одной и той же цены на единицу. Дополнительные сведения см. в разделе о ценах на настраиваемую нейронную подготовку.

Выбор метода обучения

После проверки файлов данных используйте их для создания пользовательской нейронной голосовой модели. При создании пользовательского нейронного голоса вы можете обучить его одним из следующих методов:

Нейронный: создайте голос на том же языке данных обучения.
Нейронный — кросслингвальный: создайте голос, который говорит на другом языке, отличном от обучающих данных. Например, с zh-CN помощью обучающих данных можно создать голос, который говорит en-US.

Язык обучающих данных и целевого языка должен быть одним из языков, которые поддерживаются для перекрестного обучения голосовой связи. Вам не нужно подготавливать обучающие данные на целевом языке, но тестовый скрипт должен находиться на целевом языке.
Нейронная — многоуровневая: создание пользовательского нейронного голоса, выступающего в нескольких стилях и эмоциях, без добавления новых обучающих данных. Несколько стилей голоса полезны для игровых персонажей, беседных чат-ботов, аудиокниг, средств чтения содержимого и многое другое.

Чтобы создать несколько стилей голоса, необходимо подготовить набор общих обучающих данных, по крайней мере 300 речевых фрагментов. Выберите один или несколько предустановленных стилей речи целевого объекта. Вы также можете создать несколько пользовательских стилей, предоставив примеры стилей, по крайней мере 100 речевых фрагментов на стиль, в качестве дополнительных обучающих данных для одного голоса. Поддерживаемые стили предустановок зависят от разных языков. Просмотрите доступные стили предустановок на разных языках.

Язык обучающих данных должен быть одним из языков, поддерживаемых для пользовательского нейронного голоса, перекрестного обучения или обучения по нескольким стилям.

Обучение модели пользовательского нейронного голоса

Чтобы создать пользовательский нейронный голос в Speech Studio, выполните следующие действия для одного из следующих методов:

Войдите в службу Speech Studio.
Выберите "Настраиваемый голосовой голос<>" Для обучения>>модели>обучения новой модели.
Выберите "Нейрон" в качестве метода обучения для модели и нажмите кнопку "Далее". Сведения об использовании другого метода обучения см. в разделе "Нейронная" — перекрестная или нейронная — многоуровневая.
Выберите версию рецепта обучения для модели. По умолчанию выбрана последняя версия. Поддерживаемые функции и время обучения могут отличаться по версии. Как правило, мы рекомендуем последнюю версию. В некоторых случаях можно выбрать более раннюю версию, чтобы сократить время обучения. Дополнительные сведения о двуязычной подготовке и различиях между языковыми стандартами см . в двуязычной подготовке .

Примечание.

Версии модели , V4.2021.10, V5.2022.05V6.2022.11и V9.2023.10 будут прекращены V2.2021.07к 1 октября 2024 года. Модели голосовой связи, уже созданные в этих устаревших версиях, не будут затронуты.
Выберите данные, которые вы хотите использовать для обучения. Дубликаты аудиофайлов не будут использоваться в обучении. Убедитесь, что данные, которые вы выбрали, не содержат одинаковых звуковых имен в нескольких .zip файлах.

Вы можете выбрать только успешно обработанные наборы данных для обучения. Если в списке не отображается набор обучения, проверьте состояние обработки данных.
Выберите файл говорящего с оператором голосового таланта, соответствующий динамику в обучающих данных.
Выберите Далее.
Каждое обучение создает 100 примеров звуковых файлов автоматически, чтобы протестировать модель с помощью скрипта по умолчанию.

При необходимости можно также выбрать " Добавить собственный скрипт теста" и предоставить собственный скрипт теста до 100 речевых фрагментов, чтобы протестировать модель без дополнительных затрат. Созданные звуковые файлы — это сочетание скриптов автоматического тестирования и пользовательских скриптов тестирования. Дополнительные сведения см. в статье о требованиях к скрипту тестирования.
Введите имя, чтобы определить модель. Тщательно выбирайте имя. Имя модели используется в качестве голосового имени в запросе синтеза речи в пакете SDK и входных данных SSML. Разрешены только буквы, цифры и несколько знаков препинания. Используйте разные имена для разных нейронных голосовых моделей.
При необходимости введите описание , чтобы определить модель. Обычное использование описания заключается в записи имен данных, используемых для создания модели.
Выберите Далее.
Просмотрите параметры и выберите поле для принятия условий использования.
Нажмите кнопку "Отправить ", чтобы начать обучение модели.

Войдите в службу Speech Studio.
Выберите "Настраиваемый голосовой голос<>" Для обучения>>модели>обучения новой модели.
Выберите Нейронный — мультинационный стиль в качестве метода обучения для модели. Сведения об использовании другого метода обучения см. в разделе "Нейронная " или "Нейронная" — межлингвальная.
Выберите один или несколько предустановленных стилей для обучения.
Выберите данные, которые вы хотите использовать для обучения. Дубликаты аудиофайлов не будут использоваться в обучении. Убедитесь, что данные, которые вы выбрали, не содержат одинаковых звуковых имен в нескольких .zip файлах.

Вы можете выбрать только успешно обработанные наборы данных для обучения. Проверьте состояние обработки данных, если в списке не отображается набор обучения.
Выберите Далее.
При необходимости можно добавить другие пользовательские стили речи. Максимальное количество пользовательских стилей зависит от языков: English (United States) допускает до 10 настраиваемых стилей, Chinese (Mandarin, Simplified) позволяет до четырех настраиваемых стилей и Japanese (Japan) позволяет до пяти настраиваемых стилей.
1. Выберите " Добавить пользовательский стиль " и введите имя пользовательского стиля. Это имя используется приложением в элементе style языка разметки синтеза речи (SSML). Вы также можете использовать имя пользовательского стиля в качестве SSML с помощью средства создания аудиоконтентов в Speech Studio.
2. Выберите примеры стилей в качестве обучающих данных. Убедитесь, что обучающие данные для пользовательских стилей речи приходят от того же говорящего, что и данные, используемые для создания стиля по умолчанию.
Выберите Далее.
Выберите файл говорящего с оператором голосового таланта, соответствующий динамику в обучающих данных.
Выберите Далее.
Каждое обучение автоматически создает 100 примеров звуковых файлов для стиля по умолчанию и 20 для каждого предварительно заданного стиля, чтобы помочь протестировать модель с помощью скрипта по умолчанию.

При необходимости можно также выбрать " Добавить собственный тестовый скрипт" и предоставить собственный скрипт теста до 100 речевых фрагментов, чтобы проверить стиль по умолчанию без дополнительных затрат. Созданные звуковые файлы — это сочетание скриптов автоматического тестирования и пользовательских скриптов тестирования. Дополнительные сведения см. в статье о требованиях к скрипту тестирования.

Введите имя, чтобы определить модель. Тщательно выбирайте имя. Имя модели используется в качестве голосового имени в запросе синтеза речи в пакете SDK и входных данных SSML. Разрешены только буквы, цифры и несколько знаков препинания. Используйте разные имена для разных нейронных голосовых моделей.
При необходимости введите описание , чтобы определить модель. Обычное использование описания заключается в записи имен данных, используемых для создания модели.
Выберите Далее.
Просмотрите параметры и выберите поле для принятия условий использования.
Нажмите кнопку "Отправить ", чтобы начать обучение модели.

Двуязычное обучение

Если выбрать тип обучения нейронных данных , вы можете обучить голос для выступления на нескольких языках. И местные zh-CN жители оба поддерживают двуязычное обучение для голоса, чтобы говорить как на китайском, так и zh-TW на английском языках. В зависимости от ваших обучающих данных синтезированный голос может говорить на английском языке с английским собственным акцентом или английским с тем же акцентом, что и данные обучения.

Примечание.

Чтобы включить голос в zh-CN языковом стандарте, чтобы говорить на английском языке с тем же акцентом, что и пример данных, следует выбрать Chinese (Mandarin, Simplified), English bilingual при создании проекта или указать zh-CN (English bilingual) языковой стандарт для данных набора обучения с помощью REST API.

В следующей таблице показаны различия между двумя языковыми стандартами:

Языковой стандарт Speech Studio	Языковой стандарт REST API	Двуязычная поддержка
`Chinese (Mandarin, Simplified)`	`zh-CN`	Если образец данных содержит английский, синтезированный голос говорит на английском языке с английским собственным акцентом вместо того же акцента, что и выборка данных, независимо от объема данных английского языка.
`Chinese (Mandarin, Simplified), English bilingual`	`zh-CN (English bilingual)`	Если вы хотите, чтобы синтезированный голос говорил на английском языке с тем же акцентом, что и выборка данных, рекомендуется включить более 10 % данных английского языка в обучающий набор. В противном случае акцент на английском языке может быть не идеальным.
`Chinese (Taiwanese Mandarin, Traditional)`	`zh-TW`	Если вы хотите обучить синтезированный голос, способный говорить на английском языке с тем же акцентом, что и образец данных, обязательно предоставьте более 10 % английских данных в учебном наборе. В противном случае он по умолчанию используется для английского собственного акцента. Пороговое значение 10 % вычисляется на основе данных, принятых после успешной отправки, а не данных перед отправкой. Если некоторые отправленные данные английского языка отклоняются из-за дефектов и не соответствуют пороговой значению 10 %, синтезированный голос по умолчанию используется для английского собственного акцента.

Доступные стили предустановок на разных языках

В следующей таблице перечислены различные предустановленные стили в соответствии с различными языками.

Стиль речи	Язык (языковой стандарт)
сердитый	Английский (США) (`en-US`) Японский (Япония) (`ja-JP`1) Китайский (Мандарин, упрощенное письмо) (`zh-CN`) ¹
спокойный	Китайский (Мандарин, упрощенное письмо) (`zh-CN`) ¹
чат	Китайский (Мандарин, упрощенное письмо) (`zh-CN`) ¹
бодрый	Английский (США) (`en-US`) Японский (Япония) (`ja-JP`1) Китайский (Мандарин, упрощенное письмо) (`zh-CN`) ¹
недовольный	Китайский (Мандарин, упрощенное письмо) (`zh-CN`) ¹
возбужденный	Английский (США) (`en-US`)
боязливый	Китайский (Мандарин, упрощенное письмо) (`zh-CN`) ¹
учетной	Английский (США) (`en-US`)
многообещающий	Английский (США) (`en-US`)
грустный	Английский (США) (`en-US`) Японский (Япония) (`ja-JP`1) Китайский (Мандарин, упрощенное письмо) (`zh-CN`) ¹
крики	Английский (США) (`en-US`)
серьёзный	Китайский (Мандарин, упрощенное письмо) (`zh-CN`) ¹
ошеломлённый	Английский (США) (`en-US`)
недружественный	Английский (США) (`en-US`)
шепчущий	Английский (США) (`en-US`)

¹ Стиль нейронного голоса доступен в общедоступной предварительной версии. Стили в общедоступной предварительной версии доступны только в этих регионах службы: восточная часть США, Западная Европа и Юго-Восточная Азия.

В таблице обучения модели появится новая запись, соответствующая вновь созданной модели. Состояние отражает процесс преобразования данных в голосовую модель, как описано в этой таблице:

Состояние	Значение
Обработка	Идет создание голосовой модели.
Выполнено	Голосовая модель создана и может быть развернута.
Неудачно	При обучении голосовой модели произошел сбой. Причиной сбоя могут быть, например, незамеченные проблемы с данными или неполадки в сети.
Отменено	Обучение модели голосовой связи отменено.

Пока состояние модели — обработка, можно выбрать команду "Отмена обучения", чтобы отменить модель голосовой связи. Плата за отмененное обучение не взимается.

Снимок экрана: отмена обучения для модели.

После успешного обучения модели можно просмотреть сведения о модели и протестировать голосовую модель.

Вы можете использовать средство создания аудиоконтентов в Speech Studio для создания звука и точной настройки развернутого голоса. Если применимо для голоса, можно выбрать один из нескольких стилей.

Переименование модели

Если вы хотите переименовать созданную модель, выберите "Клонировать модель", чтобы создать клон модели с новым именем в текущем проекте.
Введите новое имя в окне "Клонировать голосовую модель " и нажмите кнопку "Отправить". Текстовый нейрон автоматически добавляется в качестве суффикса в имя новой модели.

Тестирование голосовой модели

После успешной сборки модели голосовой связи можно использовать созданные примеры звуковых файлов для его тестирования перед развертыванием.

Качество голоса зависит от многих факторов, таких как:

Размер набора обучающих данных.
Качество записи.
Правильность транскрипции.
Насколько хорошо записанный голос в обучающих данных соответствует индивидуальному шаблону для вашего предполагаемого варианта использования.

Выберите DefaultTests в разделе "Тестирование", чтобы прослушивать образец звуковых файлов. Примеры тестов по умолчанию включают 100 примеров звуковых файлов, созданных автоматически во время обучения, чтобы помочь вам протестировать модель. Помимо этих 100 звуковых файлов, предоставляемых по умолчанию, собственные речевые фрагменты скрипта тестирования также добавляются в набор DefaultTests . Это дополнение составляет не более 100 речевых фрагментов. Плата за тестирование с помощью DefaultTests не взимается.

Снимок экрана: выбор DefaultTests в разделе

Если вы хотите отправить собственные тестовые скрипты для дальнейшего тестирования модели, выберите Add test scripts (Добавить тестовые скрипты).

Снимок экрана: добавление скриптов для тестирования модели.

Перед отправкой тестового скрипта проверьте требования к скрипту тестирования. Плата за дополнительное тестирование с помощью пакетного синтеза взимается на основе количества оплачиваемых символов. См . цены на распознавание речи ВИ Azure.

В разделе "Добавить тестовые скрипты" выберите "Обзор файла ", чтобы выбрать собственный скрипт, а затем нажмите кнопку "Добавить ", чтобы отправить его.

Снимок экрана: отправка скриптов для тестирования модели.

Требования к скрипту тестирования

Тестовый скрипт должен быть файлом .txt размером менее 1 МБ. В число поддерживаемых форматов кодирования входят: ANSI/ASCII, UTF-8, UTF-8-BOM, UTF-16-LE и UTF-16-BE.

В отличие от файлов обучающего транскрибирования, скрипт теста должен исключить идентификатор высказываний, который является именем файла каждого высказывания. В противном случае эти идентификаторы будут озвучены.

Ниже приведен пример набора речевых фрагментов в одном файле .txt :

This is the waistline, and it's falling.
We have trouble scoring.
It was Janet Maslin.

Для каждого абзаца речевого фрагмента создается отдельный звуковой файл. Если вы хотите объединить все предложения в один файл, объедините их в один абзац.

Примечание.

Созданные звуковые файлы — это сочетание скриптов автоматического тестирования и пользовательских скриптов тестирования.

Обновление версии подсистемы для голосовой модели

Текст Azure для подсистем речи обновляется от времени, чтобы записать последнюю языковую модель, которая определяет произношение языка. После обучения голоса вы можете применить голос к новой языковой модели, обновив до последней версии двигателя.

Когда будет доступна новая подсистема, вам будет предложено обновить модель нейронного голоса.
Перейдите на страницу сведений о модели и следуйте инструкциям на экране, чтобы установить последнюю версию подсистемы.

Кроме того, выберите " Установить последнюю версию подсистемы ", чтобы обновить модель до последней версии ядра.

Плата за обновление подсистемы не взимается. Предыдущие версии сохраняются.
Вы можете проверить все версии подсистемы для модели из списка версий подсистемы или удалить ее, если она больше не нужна.

Обновленная версия автоматически устанавливается по умолчанию. Но вы можете изменить версию по умолчанию, выбрав версию из раскрывающегося списка и выбрав "Задать в качестве значения по умолчанию".

Если вы хотите протестировать каждую версию подсистемы голосовой модели, можно выбрать версию из списка, а затем выберите DefaultTests в разделе "Тестирование ", чтобы прослушивать образец звуковых файлов. Если вы хотите отправить собственные тестовые скрипты для дальнейшего тестирования текущей версии подсистемы, сначала убедитесь, что версия задана по умолчанию, а затем выполните действия, описанные в разделе "Тестирование голосовой модели".

Обновление подсистемы создает новую версию модели без дополнительных затрат. После обновления версии подсистемы для голосовой модели необходимо развернуть новую версию, чтобы создать новую конечную точку. Вы можете развернуть только версию по умолчанию.

Снимок экрана, на котором показано, как повторно развернуть новую версию голосовой модели.

После создания новой конечной точки необходимо передать трафик в новую конечную точку в продукте.

Дополнительные сведения о возможностях и ограничениях этой функции и рекомендации по улучшению качества модели см. в разделе "Характеристики и ограничения" для использования пользовательского нейронного голоса.

Копирование голосовой модели в другой проект

Вы можете скопировать голосовую модель в другой проект для того же или другого региона. Например, можно скопировать модель нейронной голоса, обученную в одном регионе, в проект для другого региона.

Примечание.

Настраиваемое обучение нейронных голосов в настоящее время доступно только в некоторых регионах. Вы можете скопировать нейронную голосовую модель из этих регионов в другие регионы. Дополнительные сведения см. в разделе Регионы для Пользовательского нейронного голоса.

Чтобы скопировать настраиваемую модель нейронного голоса в другой проект, необходимо выполнить следующие действия:

На вкладке Обучение модели выберите голосовую модель, которую необходимо скопировать, а затем выберите Копировать в проект.
Выберите подписку, регион, ресурс службы "Речь" и проект, где нужно скопировать модель. Если речевой ресурс и проект находятся не в целевом регионе, сначала необходимо их создать.
Нажмите кнопку Отправить, чтобы скопировать модель.
Выберите модель представления в сообщении уведомления об успешном копировании.

Перейдите к проекту, в котором вы скопировали модель для развертывания копии модели.

Следующие шаги

Развертывание профессиональной конечной точки голосовой связи

В этой статье вы узнаете, как обучить пользовательский нейронный голос с помощью пользовательского API голосовой связи.

Внимание

Примечание.

Выбор метода обучения

Нейронный: создайте голос на том же языке данных обучения.
Нейронный — кросслингвальный: создайте голос, который говорит на другом языке, отличном от обучающих данных. Например, с fr-FR помощью обучающих данных можно создать голос, который говорит en-US.

Язык обучающих данных и целевого языка должен быть одним из языков, которые поддерживаются для перекрестного обучения голосовой связи. Вам не нужно подготавливать обучающие данные на целевом языке, но тестовый скрипт должен находиться на целевом языке.
Нейронная — многоуровневая: создание пользовательского нейронного голоса, выступающего в нескольких стилях и эмоциях, без добавления новых обучающих данных. Несколько стилей голоса полезны для игровых персонажей, беседных чат-ботов, аудиокниг, средств чтения содержимого и многое другое.

Чтобы создать несколько стилей голоса, необходимо подготовить набор общих обучающих данных, по крайней мере 300 речевых фрагментов. Выберите один или несколько предустановленных стилей речи целевого объекта. Вы также можете создать несколько пользовательских стилей, предоставив примеры стилей, по крайней мере 100 речевых фрагментов на стиль, в качестве дополнительных обучающих данных для одного голоса. Поддерживаемые стили предустановок зависят от разных языков. Просмотрите доступные стили предустановок на разных языках.

Создание голосовой модели

Чтобы создать нейронный голос, используйте операцию Models_Create пользовательского голосового API. Создайте текст запроса в соответствии со следующими инструкциями:

Задайте обязательное свойство projectId. См. статью о создании проекта.
Задайте обязательное свойство consentId. См . добавление согласия на голосовые таланты.
Задайте обязательное свойство trainingSetId. См. статью о создании обучаемого набора.
Задайте требуемое свойство Default рецепта kind для обучения нейронного голоса. Тип рецепта указывает метод обучения и не может быть изменен позже. Сведения об использовании другого метода обучения см. в разделе "Нейронная" — перекрестная или нейронная — многоуровневая. Дополнительные сведения о двуязычной подготовке и различиях между языковыми стандартами см . в двуязычной подготовке .
Задайте обязательное свойство voiceName. Имя голоса должно заканчиваться нейронным и не может быть изменено позже. Тщательно выбирайте имя. Имя голоса используется в запросе синтеза речи в пакете SDK и входных данных SSML. Разрешены только буквы, цифры и несколько знаков препинания. Используйте разные имена для разных нейронных голосовых моделей.
При необходимости задайте description свойство для описания голоса. Описание голоса можно изменить позже.

Выполните HTTP-запрос PUT с помощью URI, как показано в следующем Models_Create примере.

Замените YourResourceKey ключом ресурса службы речи.
Замените YourResourceRegion регион ресурсов службы "Речь".
Замените JessicaModelId идентификатором модели по своему усмотрению. Конфиденциальный идентификатор регистра будет использоваться в URI модели и не может быть изменен позже.

curl -v -X PUT -H "Ocp-Apim-Subscription-Key: YourResourceKey" -H "Content-Type: application/json" -d '{
  "voiceName": "JessicaNeural",
  "description": "Jessica voice",
  "recipe": {
    "kind": "Default"
  },
  "projectId": "ProjectId",
  "consentId": "JessicaConsentId",
  "trainingSetId": "JessicaTrainingSetId"
} '  "https://YourResourceRegion.api.cognitive.microsoft.com/customvoice/models/JessicaModelId?api-version=2024-02-01-preview"

Вы должны получить ответ в следующем формате:

{
  "id": "JessicaModelId",
  "voiceName": "JessicaNeural",
  "description": "Jessica voice",
  "recipe": {
    "kind": "Default",
    "version": "V7.2023.03"
  },
  "projectId": "ProjectId",
  "consentId": "JessicaConsentId",
  "trainingSetId": "JessicaTrainingSetId",
  "locale": "en-US",
  "engineVersion": "2023.07.04.0",
  "status": "NotStarted",
  "createdDateTime": "2023-04-01T05:30:00.000Z",
  "lastActionDateTime": "2023-04-02T10:15:30.000Z"
}

Чтобы создать межлингвальный нейронный голос, используйте Models_Create операцию пользовательского API голосовой связи. Создайте текст запроса в соответствии со следующими инструкциями:

Задайте обязательное свойство projectId. См. статью о создании проекта.
Задайте обязательное свойство consentId. См . добавление согласия на голосовые таланты.
Задайте обязательное свойство trainingSetId. См. статью о создании обучаемого набора.
Задайте требуемое свойство CrossLingual рецепта kind для перекрестного обучения голосовой связи. Тип рецепта указывает метод обучения и не может быть изменен позже. Сведения об использовании другого метода обучения см. в разделе "Нейронная" или "Нейронная" в нескольких стилях.
Задайте обязательное свойство voiceName. Имя голоса должно заканчиваться нейронным и не может быть изменено позже. Тщательно выбирайте имя. Имя голоса используется в запросе синтеза речи в пакете SDK и входных данных SSML. Разрешены только буквы, цифры и несколько знаков препинания. Используйте разные имена для разных нейронных голосовых моделей.
Задайте необходимое locale свойство для языка, который говорит ваш голос. Голос говорит на другом языке, отличном от обучающих данных. Для голосовой модели можно указать только один целевой язык.
При необходимости задайте description свойство для описания голоса. Описание голоса можно изменить позже.

Выполните HTTP-запрос PUT с помощью URI, как показано в следующем Models_Create примере.

Замените YourResourceKey ключом ресурса службы речи.
Замените YourResourceRegion регион ресурсов службы "Речь".
Замените JessicaModelId идентификатором модели по своему усмотрению. Конфиденциальный идентификатор регистра будет использоваться в URI модели и не может быть изменен позже.

curl -v -X PUT -H "Ocp-Apim-Subscription-Key: YourResourceKey" -H "Content-Type: application/json" -d '{
  "voiceName": "JessicaCrossLingualNeural",
  "description": "Jessica cross lingual voice",
  "recipe": {
    "kind": "CrossLingual"
  },
  "projectId": "ProjectId",
  "consentId": "JessicaConsentId",
  "trainingSetId": "Jessica-en-US-TrainingSetId",
  "locale": "fr-FR"
} '  "https://YourResourceRegion.api.cognitive.microsoft.com/customvoice/models/JessicaModelId?api-version=2024-02-01-preview"

Вы должны получить ответ в следующем формате:

{
  "id": "JessicaModelId",
  "voiceName": "JessicaNeuralCrossLingual",
  "description": "Jessica cross lingual voice",
  "recipe": {
    "kind": "CrossLingual",
    "version": "V5.2023.07"
  },
  "projectId": "ProjectId",
  "consentId": "JessicaConsentId",
  "trainingSetId": "Jessica-en-US-TrainingSetId",
  "locale": "fr-FR",
  "engineVersion": "2023.11.14.0",
  "status": "NotStarted",
  "createdDateTime": "2023-04-01T05:30:00.000Z",
  "lastActionDateTime": "2023-04-02T10:15:30.000Z"
}

Чтобы создать многоуровневый нейронный голос, используйте операцию Models_Create пользовательского API голосовой связи. Создайте текст запроса в соответствии со следующими инструкциями:

Задайте обязательное свойство projectId. См. статью о создании проекта.
Задайте обязательное свойство consentId. См . добавление согласия на голосовые таланты.
Задайте обязательное свойство trainingSetId. См. статью о создании обучаемого набора.
Задайте требуемое свойство MultiStyle рецепта kind для обучения нескольких стилей голоса. Тип рецепта указывает метод обучения и не может быть изменен позже. Сведения об использовании другого метода обучения см. в разделе "Нейронная " или "Нейронная" — межлингвальная.
Задайте обязательное свойство voiceName. Имя голоса должно заканчиваться нейронным и не может быть изменено позже. Тщательно выбирайте имя. Имя голоса используется в запросе синтеза речи в пакете SDK и входных данных SSML. Разрешены только буквы, цифры и несколько знаков препинания. Используйте разные имена для разных нейронных голосовых моделей.
Задайте необходимое locale свойство для языка для модели голосовой связи.
Задайте для требуемого presetStyles свойства один или несколько доступных стилей предустановок для целевого языка.
При необходимости задайте styleTrainingSetIds свойство для предоставления обучающих данных для пользовательских стилей речи. Максимальное количество пользовательских стилей зависит от языков: английский (США) позволяет до 10 пользовательских стилей, китайский (Mandarin, упрощенное) позволяет до четырех настраиваемых стилей, а японский (Япония) позволяет до пяти настраиваемых стилей. Свойство styleTrainingSetIds — это словарь имен стилей и идентификаторов наборов обучения.
- Для каждого ключа словаря укажите имя пользовательского стиля. Это имя используется приложением в элементе style языка разметки синтеза речи (SSML).
- Для каждого значения словаря укажите идентификатор набора обучения, который вы уже создали для той же голосовой модели. Набор обучения должен содержать не менее 100 речевых фрагментов для каждого стиля.
При необходимости задайте description свойство для описания голоса. Описание голоса можно изменить позже.

Выполните HTTP-запрос PUT с помощью URI, как показано в следующем Models_Create примере.

Замените YourResourceKey ключом ресурса службы речи.
Замените YourResourceRegion регион ресурсов службы "Речь".
Замените JessicaModelId идентификатором модели по своему усмотрению. Конфиденциальный идентификатор регистра будет использоваться в URI модели и не может быть изменен позже.

curl -v -X PUT -H "Ocp-Apim-Subscription-Key: YourResourceKey" -H "Content-Type: application/json" -d '{
  "voiceName": "JessicaNeuralMultiStyle",
  "description": "Jessica multi-style voice",
  "recipe": {
    "kind": "MultiStyle"
  },
  "projectId": "ProjectId",
  "consentId": "JessicaConsentId",
  "trainingSetId": "JessicaTrainingSetId",
  "locale": "en-US",
  "properties": {
    "presetStyles": [
      "cheerful",
      "sad"
    ],
    "styleTrainingSetIds": {
      "happyJessica": "JessicaHappyTrainingSetId",
      "myStyle2": "JessicaStyle2TrainingSetId"
    }
  }
} '  "https://YourResourceRegion.api.cognitive.microsoft.com/customvoice/models/JessicaModelId?api-version=2024-02-01-preview"

Вы должны получить ответ в следующем формате:

{
  "id": "JessicaModelId",
  "voiceName": "JessicaNeuralMultiStyle",
  "description": "Jessica multi-style voice",
  "recipe": {
    "kind": "MultiStyle",
    "version": "V7.2023.03"
  },
  "projectId": "ProjectId",
  "consentId": "JessicaConsentId",
  "trainingSetId": "JessicaTrainingSetId",
  "locale": "en-US",
  "engineVersion": "2023.07.04.0","properties": {
    "presetStyles": [
      "cheerful",
      "sad"
    ],
    "styleTrainingSetIds": {
      "happyJessica": "JessicaHappyTrainingSetId",
      "myStyle2": "JessicaStyle2TrainingSetId"
    },
    "voiceStyles": [
      "cheerful",
      "sad",
      "happyJessica",
      "myStyle2"
    ]
  }
  "status": "NotStarted",
  "createdDateTime": "2023-04-01T05:30:00.000Z",
  "lastActionDateTime": "2023-04-02T10:15:30.000Z"
}

Двуязычное обучение

Примечание.

В следующей таблице показаны различия между двумя языковыми стандартами:

Языковой стандарт Speech Studio	Языковой стандарт REST API	Двуязычная поддержка
`Chinese (Mandarin, Simplified)`	`zh-CN`	Если образец данных содержит английский, синтезированный голос говорит на английском языке с английским собственным акцентом вместо того же акцента, что и выборка данных, независимо от объема данных английского языка.
`Chinese (Mandarin, Simplified), English bilingual`	`zh-CN (English bilingual)`	Если вы хотите, чтобы синтезированный голос говорил на английском языке с тем же акцентом, что и выборка данных, рекомендуется включить более 10 % данных английского языка в обучающий набор. В противном случае акцент на английском языке может быть не идеальным.
`Chinese (Taiwanese Mandarin, Traditional)`	`zh-TW`	Если вы хотите обучить синтезированный голос, способный говорить на английском языке с тем же акцентом, что и образец данных, обязательно предоставьте более 10 % английских данных в учебном наборе. В противном случае он по умолчанию используется для английского собственного акцента. Пороговое значение 10 % вычисляется на основе данных, принятых после успешной отправки, а не данных перед отправкой. Если некоторые отправленные данные английского языка отклоняются из-за дефектов и не соответствуют пороговой значению 10 %, синтезированный голос по умолчанию используется для английского собственного акцента.

Доступные стили предустановок на разных языках

В следующей таблице перечислены различные предустановленные стили в соответствии с различными языками.

Стиль речи	Язык (языковой стандарт)
сердитый	Английский (США) (`en-US`) Японский (Япония) (`ja-JP`1) Китайский (Мандарин, упрощенное письмо) (`zh-CN`) ¹
спокойный	Китайский (Мандарин, упрощенное письмо) (`zh-CN`) ¹
чат	Китайский (Мандарин, упрощенное письмо) (`zh-CN`) ¹
бодрый	Английский (США) (`en-US`) Японский (Япония) (`ja-JP`1) Китайский (Мандарин, упрощенное письмо) (`zh-CN`) ¹
недовольный	Китайский (Мандарин, упрощенное письмо) (`zh-CN`) ¹
возбужденный	Английский (США) (`en-US`)
боязливый	Китайский (Мандарин, упрощенное письмо) (`zh-CN`) ¹
учетной	Английский (США) (`en-US`)
многообещающий	Английский (США) (`en-US`)
грустный	Английский (США) (`en-US`) Японский (Япония) (`ja-JP`1) Китайский (Мандарин, упрощенное письмо) (`zh-CN`) ¹
крики	Английский (США) (`en-US`)
серьёзный	Китайский (Мандарин, упрощенное письмо) (`zh-CN`) ¹
ошеломлённый	Английский (США) (`en-US`)
недружественный	Английский (США) (`en-US`)
шепчущий	Английский (США) (`en-US`)

Получение состояния обучения

Чтобы получить состояние обучения голосовой модели, используйте Models_Get операцию пользовательского API голосовой связи. Создайте URI запроса в соответствии со следующими инструкциями:

Выполните HTTP-запрос GET с помощью URI, как показано в следующем Models_Get примере.

Замените YourResourceKey ключом ресурса службы речи.
Замените YourResourceRegion регион ресурсов службы "Речь".
Замените JessicaModelId , если вы указали другой идентификатор модели на предыдущем шаге.

curl -v -X GET "https://YourResourceRegion.api.cognitive.microsoft.com/customvoice/models/JessicaModelId?api-version=2024-02-01-preview" -H "Ocp-Apim-Subscription-Key: YourResourceKey"

Текст ответа должен быть получен в следующем формате.

Примечание.

Рецепт kind и другие свойства зависят от того, как вы обучили голос. В этом примере тип рецепта предназначен Default для обучения нейронного голоса.

{
  "id": "JessicaModelId",
  "voiceName": "JessicaNeural",
  "description": "Jessica voice",
  "recipe": {
    "kind": "Default",
    "version": "V7.2023.03"
  },
  "projectId": "ProjectId",
  "consentId": "JessicaConsentId",
  "trainingSetId": "JessicaTrainingSetId",
  "locale": "en-US",
  "engineVersion": "2023.07.04.0",
  "status": "Succeeded",
  "createdDateTime": "2023-04-01T05:30:00.000Z",
  "lastActionDateTime": "2023-04-02T10:15:30.000Z"
}

Может потребоваться ждать несколько минут до завершения обучения. В конечном итоге состояние изменится на либо Succeeded Failed.

Следующие шаги

Развертывание профессиональной конечной точки голосовой связи

Поделиться через

Обучение профессиональной голосовой модели

Выбор метода обучения

Обучение модели пользовательского нейронного голоса

Двуязычное обучение

Доступные стили предустановок на разных языках

Переименование модели

Тестирование голосовой модели

Требования к скрипту тестирования

Обновление версии подсистемы для голосовой модели

Копирование голосовой модели в другой проект

Следующие шаги

Выбор метода обучения

Создание голосовой модели

Двуязычное обучение

Доступные стили предустановок на разных языках

Получение состояния обучения

Следующие шаги

Обратная связь

Обратная связь

Дополнительные ресурсы