Что такое настраиваемый текст для аватара речи?

2025-06-02

Настраиваемый текст для аватара речи позволяет создавать настраиваемый искусственный аватар для вашего приложения. С помощью пользовательского текста для аватара речи вы можете создать уникальный и естественный аватар для вашего продукта или бренда, предоставив данные записи видео выбранных субъектов. Аватар еще более реалистичный, если вы также используете профессиональный голос или голосовую синхронизацию для аватара для того же актера.

Внимание

Доступ к пользовательскому тексту для аватара речи ограничен на основе критериев соответствия и использования. Запросите доступ в форме приема.

Как это работает?

Для создания пользовательского текста для аватара требуется не менее 10 минут записи видео о таланте аватара в качестве обучающих данных, и необходимо сначала получить согласие от таланта актера.

Пользовательская модель аватара может поддерживать:

Создание видео с помощью API пакетного синтеза.
Динамический чат через API синтеза потоковой передачи.

Прежде чем приступить к работе, ниже приведены некоторые рекомендации.

Ваш вариант использования: будет ли вы использовать аватар для создания видеоматериалов, таких как учебный материал, введение в продукт или использование аватара в качестве виртуального продавца в режиме реального времени беседы с клиентами? Существуют некоторые требования к записи для различных вариантов использования.

Внешний вид аватара: настраиваемый текст для речи аватар выглядит так же, как и талант аватара в обучающих данных, и мы не поддерживаем настройку внешнего вида модели аватара, таких как одежда, прическа и т. д. Поэтому если приложению требуется несколько стилей одного аватара, следует подготовить обучающие данные для каждого стиля, так как каждый стиль аватара считается одной моделью аватара.

Голос аватара: Настраиваемый аватар для синтеза речи может работать со стандартным голосом, профессиональным голосом и синхронизацией голоса для аватара.

Синхронизация голосов для аватара: искусственный голос, имитирующий голос аватара, обучен вместе с пользовательским аватаром, используя аудио из учебного видео.
Профессиональный голос: дополнительно настройте профессиональный голос с помощью большего количества данных для обучения, предоставляя премиум голосовой опыт для вашего аватара, включая естественные беседы, многостильную и многоязычную поддержку.

Ниже приведен обзор действий по созданию пользовательского текста для аватара речи:

Получение видео согласия. Получите видеозапись, на которой талант зачитывает заявление о согласии. Они должны согласиться на использование их изображений и голосовых данных для обучения пользовательской модели аватара для преобразования текста в речь и создания искусственной версии их голоса.
Подготовка обучающих данных. Убедитесь, что запись видео находится в правильном формате. Рекомендуется снимать запись видео в профессиональном видеосъемочной студии, чтобы получить чистое фоновое изображение. Качество полученного аватара сильно зависит от записанного видео, используемого для обучения. Факторы, такие как скорость речи, положение тела, выражение лица, жесты рук, согласованность в положении субъекта и освещение записи видео, необходимы для создания привлекательного пользовательского текста для аватара речи. Узнайте , как подготовить обучающие данные для получения дополнительных сведений.
Обучение модели аватара. После подготовки данных отправьте данные на пользовательский портал аватара и начните обучать модель. Проверка согласия проводится во время обучения. Прежде чем создать проект, убедитесь, что у вас есть доступ к пользовательскому тексту для аватара речи.
Разверните и используйте модель аватара в приложениях.

Последовательность компонентов

Пользовательская модель аватара для речи содержит три компонента: текстовый анализатор, текст для синтезатора речи и текст для отрисовщика видео аватара.

Чтобы создать видеофайл аватара или потоковую передачу с помощью модели аватара, текст сначала вводится в текстовый анализатор, который предоставляет выходные данные в виде последовательности фонемы.
Аудиосинтезатор синтезирует аудио речи для входного текста, и эти две части предоставляются стандартными или пользовательскими голосовыми моделями.
Наконец, модель преобразования текста в речь предсказывает изображение синхронизации губ с аудио речи, в результате чего создается синтетическое видео.

Модели аватаров для преобразования текста в речь обучены с помощью глубоких нейронных сетей на основе примеров видеозаписей с участием людей на разных языках. Поддерживаются все языки стандартных голосов и пользовательских голосов.

Доступные расположения

Обучение пользовательского аватара доступно только в следующих регионах службы: Юго-Восточная Азия, Западная Европа и Западная часть США 2. Вы можете использовать пользовательскую модель аватара в следующих регионах службы: Юго-Восточная Азия, Северная Европа, Западная Европа, Центральная Швеция, Южная часть США, Восточная часть США 2 и Западная часть США 2.

Настраиваемый голос и настраиваемый текст для аватара речи

Настраиваемый голос и настраиваемый текст для аватара речи являются отдельными функциями. Их можно использовать независимо или вместе. Если вы также создаете профессиональный голос для актера, аватар может быть очень реалистичным.

Пользовательский текстово-речевой аватар может работать со стандартным голосом или собственным голосом в качестве голоса аватара. Дополнительные сведения см. в разделе "Голос аватара" и "Язык".

Существует два типа пользовательского голоса для пользовательского аватара:

Синхронизация голоса для аватара: если включить синхронизацию голоса для аватара во время пользовательского обучения, синтетическая голосовая модель, использующая голос таланта аватара, обучается одновременно с аватаром. Этот голос связан исключительно с пользовательским аватаром и не может использоваться независимо. Синхронизация голосов для аватара в настоящее время поддерживается в регионах Юго-Восточной Азии, Западной Европы и Западной части США 2.
Профессиональный голос: Вы можете точно настроить профессиональный голос. Тонкая настройка профессионального голоса и пользовательский текст в аватар речи — это отдельные функции. Их можно использовать независимо или вместе. Если вы решили использовать их вместе, вам нужно отдельно подать заявку на профессиональную настройку голоса и пользовательский аватар для текста в речи, и вам будет выставлен отдельный счет за профессиональную настройку голоса и пользовательский аватар для текста в речи. Дополнительные сведения см. на странице цен. Кроме того, если вы планируете использовать профессиональную настройку голоса с голосовым аватаром, необходимо развернуть или скопировать вашу пользовательскую модель голоса в один из регионов, где поддерживается аватар.

Если вы точно настраиваете профессиональный голос и хотите использовать его вместе с пользовательским аватаром, обратите внимание на следующие моменты:

Убедитесь, что пользовательская конечная точка голосовой связи создана в том же ресурсе Azure AI Foundry, что и пользовательская конечная точка аватара. При необходимости обратитесь к обучению вашей профессиональной голосовой модели, чтобы скопировать её в тот же ресурс Azure AI Foundry, что и конечная точка пользовательского аватара.
Вы можете просмотреть настраиваемый параметр голоса в списке голосов страницы создания содержимого аватара и параметров голосового чата.
Если вы используете пакетный синтез для API аватара, добавьте "customVoices" свойство для связывания идентификатора развертывания пользовательской голосовой модели с именем голоса в запросе. Дополнительные сведения см. в разделе "Текст для речевых свойств".
Если вы используете синтез в режиме реального времени для API аватара, ознакомьтесь с нашим примером кода на GitHub , чтобы задать пользовательский голос.

Поделиться через

Что такое настраиваемый текст для аватара речи?

Как это работает?

Последовательность компонентов

Доступные расположения

Настраиваемый голос и настраиваемый текст для аватара речи

Связанный контент

Обратная связь

Дополнительные ресурсы