Поделиться через


Что такое голоса высокой четкости?

Azure AI Speech продолжает совершенствоваться в области технологии преобразования текста в речь с введением нейронных голосов высокого разрешения (HD). Голоса HD могут понимать содержание, автоматически определять эмоции в исходном тексте и корректировать интонацию в реальном времени, чтобы соответствовать настроению. Голоса в формате HD сохраняют постоянный характер звучания, аналогичный своим нейронным (и не-HD) аналогам, и предлагают даже больше преимуществ благодаря улучшенным функциям.

Основные характеристики нейронных текстовых голосов HD

Основные характеристики голосов HD Azure AI Speech:

Ключевые особенности Описание
Создание речи, подобной человеку Нейронные HD-голоса синтеза речи могут создавать очень естественную и человеко-подобную речь. Модель обучена на миллионах часов многоязычных данных, что позволяет ей точно интерпретировать вводимый текст и генерировать речь с соответствующими эмоциями, темпом и ритмом без необходимости ручной корректировки.
Разговорный Нейронный синтез речи в формате HD может воспроизводить естественные интонации речи, включая спонтанные паузы и акцент. При предоставлении разговорного текста модель может воспроизводить общие фонемы, такие как паузы и слова-паразиты. Созданный голос звучит, как если бы кто-то говорил с вами напрямую.
Вариации просодии Голоса HD с нейронным преобразованием текста в речь вводят небольшие вариации в каждом воспроизведении, чтобы повысить реалистичность. Эти вариации делают речь более естественной, так как человеческие голоса естественно демонстрируют вариативность.
Высокая точность Основная цель нейронных высококачественных голосов для синтеза речи заключается в создании высококачественного звука. Синтетическая речь, созданная нашей системой, может очень точно имитировать человеческую речь как по качеству, так и по естественности.

Сравнение голосов Azure AI Speech HD с другими голосами в текстовой озвучке Azure

Как Azure AI Speech HD сравниваются с другими голосами синтеза речи от Azure? Чем они различаются с точки зрения функций и возможностей?

Ниже приведено сравнение функций голосов Azure AI Speech HD, Azure OpenAI HD и голосов Azure AI Speech.

Функция Голоса Azure AI Speech HD Azure OpenAI голоса высокой четкости Голоса Azure AI Speech (не HD)
Регион Восточное побережье США, Юго-Восточная Азия, Западная Европа Северо-Центральный США, Центральная Швеция Доступно в десятках регионов. См. список регионов.
Количество голосов 30 6 Более 500
Многоязычный Да Да Да (применимо только к многоязычным голосам)
Поддержка SSML Поддержка подмножества элементов SSML. Поддержка подмножества элементов SSML. Поддержка полного набора SSML в Azure AI Speech.
Варианты разработки Пакет SDK службы "Речь", интерфейс командной строки службы "Речь", REST API SDK для речевых технологий, CLI для командной строки речевых технологий, REST API Speech SDK (Пакет SDK службы "Речь"), Speech CLI (интерфейс командной строки службы "Речь"), REST API
Варианты развертывания Только облако Только облако Облако, встроенные системы, гибридные технологии и контейнеры.
Синтез в реальном времени или пакетный синтез Только в режиме реального времени Синтез в режиме реального времени и пакетный синтез Синтез в режиме реального времени и пакетный синтез
Задержка Меньше 300 мс Больше 500 мс Меньше 300 мс
Частота дискретизации синтезированного аудио 8, 16, 24 и 48 кГц 8, 16, 24 и 48 кГц 8, 16, 24 и 48 кГц
Аудиоформат вывода речи opus, mp3, pcm, truesilk opus, mp3, pcm, truesilk opus, mp3, pcm, truesilk

Поддерживаемые HD-голоса Azure AI Speech

Значения голосов Azure AI Speech HD представлены в формате voicename:basemodel:version. Имя перед двоеточием, как en-US-Ava, представляет собой имя голосовой персоны и его исходный языковой стандарт. Базовая модель отслеживается версиями в последующих обновлениях.

В настоящее время модель DragonHD является единственной базовой моделью, доступной для голосов распознавания речи ИИ Azure. Чтобы убедиться, что вы используете последнюю версию базовой модели, которую мы предоставляем, без необходимости вносить изменения в код, используйте версию LatestNeural.

Например, для персонажа en-US-Ava вы можете указать следующие значения HD голоса:

  • en-US-Ava:DragonHDLatestNeural: Всегда использует последнюю версию базовой модели, которую мы предоставим позже.

В следующей таблице перечислены HD-голоса Azure AI Speech, которые в настоящее время доступны.

Имя голоса Пол Состояние Примечание
de-DE-Флориан:DragonHDLatestNeural Мужской Генеральная Ассамблея
de-DE-Seraphina:DragonHDLatestNeural Женщина Генеральная Ассамблея
en-US-Адам:DragonHDLatestNeural Мужской Генеральная Ассамблея
en-US-Сплав:DragonHDLatestNeural Мужской Предварительный просмотр
en-US-Эндрю:DragonHDLatestNeural Мужской Генеральная Ассамблея
en-US-Эндрю2:DragonHDLatestNeural Мужской Генеральная Ассамблея Оптимизировано для содержимого беседы
en-US-Эндрю3:ДраконHDПоследняяНейронная Мужской Предварительный просмотр Оптимизировано для содержимого podcast
en-US-Aria: Последняя нейросеть DragonHD Женщина Предварительный просмотр
en-US-Ava:DragonHDLatestNeural Женщина Генеральная Ассамблея
en-US-Ava3:DragonHDLatestNeural Женщина Предварительный просмотр Оптимизировано для содержимого podcast
en-US-Брайан:DragonHDLatestNeural Мужской Генеральная Ассамблея
en-US-Дэвис:DragonHDLatestNeural Мужской Генеральная Ассамблея
Эмма: ДраконHDПоследняяНейроннаяСеть Женщина Генеральная Ассамблея
en-US-Emma2:DragonHDLatestNeural Женщина Генеральная Ассамблея Оптимизировано для содержимого беседы
en-US-Jenny:DragonHDLatestNeural Женщина Предварительный просмотр
en-US-MultiTalker-Ava-Andrew:DragonHDLatestNeural Мужской Предварительный просмотр
en-US-Nova:ДраконHDПоследнийНейронный Женщина Предварительный просмотр
en-US-Phoebe:DragonHDLatestNeural Женщина Предварительный просмотр
en-US-Serena:DragonHDLatestNeural Женщина Предварительный просмотр
en-US-Steffan:DragonHDLatestNeural Мужской Генеральная Ассамблея
es-ES-Tristan:DragonHDLatestNeural Мужской Генеральная Ассамблея
es-ES-Ximena:DragonHDLatestNeural Женщина Генеральная Ассамблея
fr-FR-Remy:DragonHDLatestNeural Мужской Генеральная Ассамблея
fr-FR-Vivienne:DragonHDLatestNeural Женщина Генеральная Ассамблея
ja-JP-Масару:DragonHDLatestNeural Мужской Генеральная Ассамблея
ja-JP-Nanami:DragonHDLatestNeural Женщина Генеральная Ассамблея
zh-CN-Xiaochen:DragonHDLatestNeural Женщина Генеральная Ассамблея
zh-CN-Yunfan:DragonHDLatestNeural Мужской Генеральная Ассамблея

Как использовать HD-голоса Azure AI Speech

Вы можете использовать HD-голоса с той же службой SDK "Речь" и REST API, что и для обычных голосов.

Вот несколько ключевых моментов, которые следует учитывать при использовании голосов Azure AI Speech HD:

  • Языковой локаль голоса: Локаль в названии голоса указывает его исходный язык и регион.
  • Базовые модели:
    • Голоса HD поставляются с базовой моделью, которая понимает вводимый текст и соответственно прогнозирует манеру речи. Вы можете указать требуемую модель (например, DragonHDLatestNeural) в зависимости от доступности каждого голоса.
  • Использование SSML: Чтобы указать голос в SSML, используйте формат voicename:basemodel:version. Имя перед двоеточием, такое как de-DE-Seraphina, — это имя голосовой персоны и его исходный языковой стандарт. Базовая модель отслеживается версиями в последующих обновлениях.
  • Параметр температуры:
    • Значение температуры — это плавающее значение от 0 до 1, влияющее на случайность выходных данных. Вы также можете регулировать параметр температуры, чтобы контролировать изменение результатов. Меньше случайности дает более стабильные результаты, в то время как более случайность предлагает разнообразие, но меньше согласованности.
    • Низкая температура приводит к меньшей случайности, что ведет к более предсказуемым результатам. Более высокая температура увеличивает случайность, что позволяет получить более разнообразные выходные данные. Температура по умолчанию установлена на 1.0.

Вот пример того, как использовать голоса Azure AI Speech HD в SSML:

<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='https://www.w3.org/2001/mstts' xml:lang='en-US'>
<voice name='en-US-Ava:DragonHDLatestNeural' parameters='temperature=0.8'>Here is a test</voice>
</speak>

Поддерживаемые и неподдерживаемые элементы SSML для голосов Azure AI Speech HD

Язык разметки синтеза речи (SSML) с входным текстом определяет структуру, содержимое и другие характеристики текста для вывода речи. Например, вы можете использовать SSML, чтобы определить абзац, предложение, паузу или перерыв, или тишину. Вы можете обернуть текст тегами событий, такими как закладка или визема, которые ваше приложение обрабатывает позже.

Голоса Azure AI Speech HD не поддерживают все элементы или события SSML, которые поддерживают другие голоса Azure AI Speech. Примечательно, что голоса Azure AI Speech HD не поддерживают события границ слов.

Для получения подробной информации о поддерживаемых и неподдерживаемых элементах SSML для голосов Azure AI Speech HD, пожалуйста, обратитесь к следующей таблице. Для получения инструкций по использованию элементов SSML обратитесь к документации Языка разметки синтеза речи (SSML).

Элемент SSML Описание Поддерживается в голосах HD Azure AI Speech
<voice> Указывает голос и необязательные эффекты (eq_car и eq_telecomhp8k). Да
<mstts:express-as> Указывает стили и роли выступлений. Нет
<mstts:ttsembedding> Указывает свойство speakerProfileId для личного голоса. Нет
<lang xml:lang> Задает язык речи. Да
<prosody> Регулирует высоту тона, контур, диапазон, скорость и громкость. Нет
<emphasis> Добавляет или удаляет стресс на уровне слова для текста. Нет
<audio> Встраивает предварительно записанный аудио в документ SSML. Нет
<mstts:audioduration> Указывает продолжительность выходного аудио. Нет
<mstts:backgroundaudio> Добавляет фоновое аудио в ваши документы SSML или смешивает звуковой файл с текстом при синтезе речи. Нет
<phoneme> Указывает фонетическое произношение в документах SSML. Нет
<lexicon> Определяет, как несколько сущностей читаются в SSML. Да (поддерживает только псевдоним)
<say-as> Указывает тип содержимого, например, число или дата, текста элемента. Да
<sub> Указывает, что текстовое значение атрибута псевдонима должно быть произнесено вместо заключенного текста элемента. Да
<math> Использует MathML в качестве входного текста для правильного произношения математических нотации в выходном звуке. Нет
<bookmark> Получает смещение каждого маркера в звуковом потоке. Нет
<break> Переопределяет стандартное поведение разрывов или пауз между словами. Нет
<mstts:silence> Вставляет паузу до или после текста или между двумя смежными предложениями. Нет
<mstts:viseme> Определяет положение лица и рта во время выступления человека. Нет
<p> Обозначает абзацы в документах SSML. Да
<s> Обозначает предложения в документах SSML. Да

Примечание

Хотя в предыдущем разделе этого руководства также сравнивались HD-голоса Azure AI Speech и Azure OpenAI, элементы SSML, поддерживаемые Azure AI Speech, не применимы к голосам Azure OpenAI.