Поделиться через


Что такое личный голос для речи?

С помощью личного голоса вы можете разрешить пользователям получать ими созданную репликацию собственных голосов в течение нескольких секунд. С помощью словесной инструкции и краткого примера речи в качестве звукового запроса вы можете создать личный голос для пользователей и разрешить им создавать речь на любом из более чем 90 языков, поддерживаемых более чем на 100 языковых стандартах.

Примечание.

Личный голос доступен в этих регионах: Западная Европа, Восточная ЧАСТЬ США и Юго-Восточная Азия. Поддерживаемые языковые стандарты см. в разделе поддержки личных голосовых языков.

В следующей таблице представлена разница между личным голосом и профессиональным пользовательским нейронным голосом.

Сравнение Личный голос Профессиональный голос
Целевые сценарии Бизнес-клиенты, чтобы создать приложение, чтобы разрешить пользователям создавать и использовать собственный личный голос в приложении. Профессиональные сценарии, такие как озвучивание брендов и персонажей для чат-ботов или чтение аудиосодержимого.
Случаи использования Ограничено ограниченными вариантами использования. См. примечание о прозрачности. Утвержденные клиенты должны иметь план поддержки более 1000 персональных голосов. Ограничено ограниченными вариантами использования. См. примечание о прозрачности.
Данные обучения Убедитесь, что вы следуйте кодексу поведения. Предоставление своих данных. Рекомендуется запись в профессиональной студии.
Требуемый размер данных Одна минута человеческой речи. 300-2000 речевых фрагментов (около 30 минут до 3 часов человеческой речи).
Время обучения Менее 5 секунд Приблизительно 20–40 часов вычислений.
Качество голоса Natural Высокопривычное
Поддержка разных языков Да. Голос может говорить о 100 языках с включенным автоматическим обнаружением языка. Да. Чтобы обучить модель, выступающую на другом языке, необходимо выбрать функцию "Нейронная — перекрестная" для обучения модели, которая говорит на другом языке.
Availability Демонстрация в Speech Studio доступна при регистрации. Доступ к API ограничен соответствующими клиентами и утвержденными вариантами использования. Запрос доступа через форму приема. После утверждения доступа можно обучить и развернуть модель CNV Pro. Доступ к применению CNV Pro ограничен в соответствии с критериями приемлемости и использования. Запрос доступа через форму приема.
Цены Проверьте сведения о ценах здесь1. Ознакомьтесь данными на странице цен.
Требования к ответственному ИИ Требуется словесное заявление говорящего. Нет разрешенного варианта использования. Требуется словесное заявление говорящего. Нет разрешенного варианта использования.

1 Обратите внимание, что цены на личную голосовую связь будут отображаться только для регионов обслуживания, где эта функция доступна, включая Западную Европу, Восточную Часть США и Юго-Восточную Азию.

Пробное использование демоверсии

Если у вас есть ресурс S0, вы можете получить доступ к демонстрации личного голоса в Speech Studio. Чтобы использовать личный API голосовой связи, вы можете подать заявку на доступ здесь.

  1. Перейти в Speech Studio

  2. Выберите личную голосовую карточку.

  3. Вы можете записать собственный голос и попробовать примеры выходных данных голоса на разных языках. Демонстрация включает подмножество языков, поддерживаемых личным голосом.

    Снимок экрана: демонстрация личного голосового интерфейса в Speech Studio.

Создание личного голоса

Чтобы приступить к работе, вот сводка действий по созданию личного голоса:

  1. Создайте проект.
  2. Отправьте файл согласия. При использовании личной функции голосовой связи требуется, чтобы каждый голос был создан с явным согласием от пользователя. Записанная инструкция от пользователя требует подтверждения того, что клиент (владелец ресурса службы "Речь ИИ Azure") создаст и будет использовать свой голос.
  3. Получите идентификатор профиля говорящего для личного голоса. Вы получаете идентификатор профиля говорящего на основе словесного согласия докладчика и звукового запроса. Характеристики голоса пользователя кодируются в speakerProfileId свойстве, используемом для преобразования текста в речь.

После того как у вас есть личный голос, вы можете использовать его для синтеза речи на любом из 91 языков, поддерживаемых в 100+ языковых стандартах. Не требуется тег языкового стандарта. Личный голос использует автоматическое обнаружение языка на уровне предложения. Дополнительные сведения см. в статье об использовании личного голоса в приложении.

Совет

Ознакомьтесь с примерами кода в репозитории пакета SDK службы "Речь" на GitHub , чтобы узнать, как использовать личный голос в приложении.

Справочная документация

Ответственное применение ИИ

Мы заботимся о людях, которые используют ИИ и людей, которые будут затронуты им столько, сколько мы заботимся о технологии. Дополнительные сведения см. в заметках о прозрачности ответственного искусственного интеллекта.

Следующие шаги

  • Создайте проект.
  • Дополнительные сведения о пользовательском нейронном голосе см. в обзоре.
  • Дополнительные сведения о Speech Studio см. в обзоре.