Что такое голоса высокой четкости?

2025-05-20

Azure AI Speech продолжает совершенствоваться в области технологии преобразования текста в речь с введением нейронных голосов высокого разрешения (HD). Голоса HD могут понимать содержание, автоматически определять эмоции в исходном тексте и корректировать интонацию в реальном времени, чтобы соответствовать настроению. Голоса в формате HD сохраняют постоянный характер звучания, аналогичный своим нейронным (и не-HD) аналогам, и предлагают даже больше преимуществ благодаря улучшенным функциям.

Основные характеристики нейронных текстовых голосов HD

Основные характеристики голосов HD Azure AI Speech:

Ключевые особенности	Описание
Создание речи, подобной человеку	Нейронные HD-голоса синтеза речи могут создавать очень естественную и человеко-подобную речь. Модель обучена на миллионах часов многоязычных данных, что позволяет ей точно интерпретировать вводимый текст и генерировать речь с соответствующими эмоциями, темпом и ритмом без необходимости ручной корректировки.
Разговорный	Нейронный синтез речи в формате HD может воспроизводить естественные интонации речи, включая спонтанные паузы и акцент. При предоставлении разговорного текста модель может воспроизводить общие фонемы, такие как паузы и слова-паразиты. Созданный голос звучит, как если бы кто-то говорил с вами напрямую.
Вариации просодии	Голоса HD с нейронным преобразованием текста в речь вводят небольшие вариации в каждом воспроизведении, чтобы повысить реалистичность. Эти вариации делают речь более естественной, так как человеческие голоса естественно демонстрируют вариативность.
Высокая точность	Основная цель нейронных высококачественных голосов для синтеза речи заключается в создании высококачественного звука. Синтетическая речь, созданная нашей системой, может очень точно имитировать человеческую речь как по качеству, так и по естественности.

Сравнение голосов Azure AI Speech HD с другими голосами в текстовой озвучке Azure

Как Azure AI Speech HD сравниваются с другими голосами синтеза речи от Azure? Чем они различаются с точки зрения функций и возможностей?

Ниже приведено сравнение функций голосов Azure AI Speech HD, Azure OpenAI HD и голосов Azure AI Speech.

Функция	Голоса Azure AI Speech HD	Azure OpenAI голоса высокой четкости	Голоса Azure AI Speech (не HD)
Регион	Восточное побережье США, Юго-Восточная Азия, Западная Европа	Северо-Центральный США, Центральная Швеция	Доступно в десятках регионов. См. список регионов.
Количество голосов	30	6	Более 500
Многоязычный	Да	Да	Да (применимо только к многоязычным голосам)
Поддержка SSML	Поддержка подмножества элементов SSML.	Поддержка подмножества элементов SSML.	Поддержка полного набора SSML в Azure AI Speech.
Варианты разработки	Пакет SDK службы "Речь", интерфейс командной строки службы "Речь", REST API	SDK для речевых технологий, CLI для командной строки речевых технологий, REST API	Speech SDK (Пакет SDK службы "Речь"), Speech CLI (интерфейс командной строки службы "Речь"), REST API
Варианты развертывания	Только облако	Только облако	Облако, встроенные системы, гибридные технологии и контейнеры.
Синтез в реальном времени или пакетный синтез	Только в режиме реального времени	Синтез в режиме реального времени и пакетный синтез	Синтез в режиме реального времени и пакетный синтез
Задержка	Меньше 300 мс	Больше 500 мс	Меньше 300 мс
Частота дискретизации синтезированного аудио	8, 16, 24 и 48 кГц	8, 16, 24 и 48 кГц	8, 16, 24 и 48 кГц
Аудиоформат вывода речи	opus, mp3, pcm, truesilk	opus, mp3, pcm, truesilk	opus, mp3, pcm, truesilk

Поддерживаемые HD-голоса Azure AI Speech

Значения голосов Azure AI Speech HD представлены в формате voicename:basemodel:version. Имя перед двоеточием, как en-US-Ava, представляет собой имя голосовой персоны и его исходный языковой стандарт. Базовая модель отслеживается версиями в последующих обновлениях.

В настоящее время модель DragonHD является единственной базовой моделью, доступной для голосов распознавания речи ИИ Azure. Чтобы убедиться, что вы используете последнюю версию базовой модели, которую мы предоставляем, без необходимости вносить изменения в код, используйте версию LatestNeural.

Например, для персонажа en-US-Ava вы можете указать следующие значения HD голоса:

en-US-Ava:DragonHDLatestNeural: Всегда использует последнюю версию базовой модели, которую мы предоставим позже.

В следующей таблице перечислены HD-голоса Azure AI Speech, которые в настоящее время доступны.

Имя голоса	Пол	Состояние	Примечание
de-DE-Флориан:DragonHDLatestNeural	Мужской	Генеральная Ассамблея
de-DE-Seraphina:DragonHDLatestNeural	Женщина	Генеральная Ассамблея
en-US-Адам:DragonHDLatestNeural	Мужской	Генеральная Ассамблея
en-US-Сплав:DragonHDLatestNeural	Мужской	Предварительный просмотр
en-US-Эндрю:DragonHDLatestNeural	Мужской	Генеральная Ассамблея
en-US-Эндрю2:DragonHDLatestNeural	Мужской	Генеральная Ассамблея	Оптимизировано для содержимого беседы
en-US-Эндрю3:ДраконHDПоследняяНейронная	Мужской	Предварительный просмотр	Оптимизировано для содержимого podcast
en-US-Aria: Последняя нейросеть DragonHD	Женщина	Предварительный просмотр
en-US-Ava:DragonHDLatestNeural	Женщина	Генеральная Ассамблея
en-US-Ava3:DragonHDLatestNeural	Женщина	Предварительный просмотр	Оптимизировано для содержимого podcast
en-US-Брайан:DragonHDLatestNeural	Мужской	Генеральная Ассамблея
en-US-Дэвис:DragonHDLatestNeural	Мужской	Генеральная Ассамблея
Эмма: ДраконHDПоследняяНейроннаяСеть	Женщина	Генеральная Ассамблея
en-US-Emma2:DragonHDLatestNeural	Женщина	Генеральная Ассамблея	Оптимизировано для содержимого беседы
en-US-Jenny:DragonHDLatestNeural	Женщина	Предварительный просмотр
en-US-MultiTalker-Ava-Andrew:DragonHDLatestNeural	Мужской	Предварительный просмотр
en-US-Nova:ДраконHDПоследнийНейронный	Женщина	Предварительный просмотр
en-US-Phoebe:DragonHDLatestNeural	Женщина	Предварительный просмотр
en-US-Serena:DragonHDLatestNeural	Женщина	Предварительный просмотр
en-US-Steffan:DragonHDLatestNeural	Мужской	Генеральная Ассамблея
es-ES-Tristan:DragonHDLatestNeural	Мужской	Генеральная Ассамблея
es-ES-Ximena:DragonHDLatestNeural	Женщина	Генеральная Ассамблея
fr-FR-Remy:DragonHDLatestNeural	Мужской	Генеральная Ассамблея
fr-FR-Vivienne:DragonHDLatestNeural	Женщина	Генеральная Ассамблея
ja-JP-Масару:DragonHDLatestNeural	Мужской	Генеральная Ассамблея
ja-JP-Nanami:DragonHDLatestNeural	Женщина	Генеральная Ассамблея
zh-CN-Xiaochen:DragonHDLatestNeural	Женщина	Генеральная Ассамблея
zh-CN-Yunfan:DragonHDLatestNeural	Мужской	Генеральная Ассамблея

Как использовать HD-голоса Azure AI Speech

Вы можете использовать HD-голоса с той же службой SDK "Речь" и REST API, что и для обычных голосов.

Вот несколько ключевых моментов, которые следует учитывать при использовании голосов Azure AI Speech HD:

Языковой локаль голоса: Локаль в названии голоса указывает его исходный язык и регион.
Базовые модели:
- Голоса HD поставляются с базовой моделью, которая понимает вводимый текст и соответственно прогнозирует манеру речи. Вы можете указать требуемую модель (например, DragonHDLatestNeural) в зависимости от доступности каждого голоса.
Использование SSML: Чтобы указать голос в SSML, используйте формат voicename:basemodel:version. Имя перед двоеточием, такое как de-DE-Seraphina, — это имя голосовой персоны и его исходный языковой стандарт. Базовая модель отслеживается версиями в последующих обновлениях.
Параметр температуры:
- Значение температуры — это плавающее значение от 0 до 1, влияющее на случайность выходных данных. Вы также можете регулировать параметр температуры, чтобы контролировать изменение результатов. Меньше случайности дает более стабильные результаты, в то время как более случайность предлагает разнообразие, но меньше согласованности.
- Низкая температура приводит к меньшей случайности, что ведет к более предсказуемым результатам. Более высокая температура увеличивает случайность, что позволяет получить более разнообразные выходные данные. Температура по умолчанию установлена на 1.0.

Вот пример того, как использовать голоса Azure AI Speech HD в SSML:

<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='https://www.w3.org/2001/mstts' xml:lang='en-US'>
<voice name='en-US-Ava:DragonHDLatestNeural' parameters='temperature=0.8'>Here is a test</voice>
</speak>

Поддерживаемые и неподдерживаемые элементы SSML для голосов Azure AI Speech HD

Язык разметки синтеза речи (SSML) с входным текстом определяет структуру, содержимое и другие характеристики текста для вывода речи. Например, вы можете использовать SSML, чтобы определить абзац, предложение, паузу или перерыв, или тишину. Вы можете обернуть текст тегами событий, такими как закладка или визема, которые ваше приложение обрабатывает позже.

Голоса Azure AI Speech HD не поддерживают все элементы или события SSML, которые поддерживают другие голоса Azure AI Speech. Примечательно, что голоса Azure AI Speech HD не поддерживают события границ слов.

Для получения подробной информации о поддерживаемых и неподдерживаемых элементах SSML для голосов Azure AI Speech HD, пожалуйста, обратитесь к следующей таблице. Для получения инструкций по использованию элементов SSML обратитесь к документации Языка разметки синтеза речи (SSML).

Элемент SSML	Описание	Поддерживается в голосах HD Azure AI Speech
`<voice>`	Указывает голос и необязательные эффекты (`eq_car` и `eq_telecomhp8k`).	Да
`<mstts:express-as>`	Указывает стили и роли выступлений.	Нет
`<mstts:ttsembedding>`	Указывает свойство `speakerProfileId` для личного голоса.	Нет
`<lang xml:lang>`	Задает язык речи.	Да
`<prosody>`	Регулирует высоту тона, контур, диапазон, скорость и громкость.	Нет
`<emphasis>`	Добавляет или удаляет стресс на уровне слова для текста.	Нет
`<audio>`	Встраивает предварительно записанный аудио в документ SSML.	Нет
`<mstts:audioduration>`	Указывает продолжительность выходного аудио.	Нет
`<mstts:backgroundaudio>`	Добавляет фоновое аудио в ваши документы SSML или смешивает звуковой файл с текстом при синтезе речи.	Нет
`<phoneme>`	Указывает фонетическое произношение в документах SSML.	Нет
`<lexicon>`	Определяет, как несколько сущностей читаются в SSML.	Да (поддерживает только псевдоним)
`<say-as>`	Указывает тип содержимого, например, число или дата, текста элемента.	Да
`<sub>`	Указывает, что текстовое значение атрибута псевдонима должно быть произнесено вместо заключенного текста элемента.	Да
`<math>`	Использует MathML в качестве входного текста для правильного произношения математических нотации в выходном звуке.	Нет
`<bookmark>`	Получает смещение каждого маркера в звуковом потоке.	Нет
`<break>`	Переопределяет стандартное поведение разрывов или пауз между словами.	Нет
`<mstts:silence>`	Вставляет паузу до или после текста или между двумя смежными предложениями.	Нет
`<mstts:viseme>`	Определяет положение лица и рта во время выступления человека.	Нет
`<p>`	Обозначает абзацы в документах SSML.	Да
`<s>`	Обозначает предложения в документах SSML.	Да

Примечание

Хотя в предыдущем разделе этого руководства также сравнивались HD-голоса Azure AI Speech и Azure OpenAI, элементы SSML, поддерживаемые Azure AI Speech, не применимы к голосам Azure OpenAI.

Поделиться через

Что такое голоса высокой четкости?

Основные характеристики нейронных текстовых голосов HD

Сравнение голосов Azure AI Speech HD с другими голосами в текстовой озвучке Azure

Поддерживаемые HD-голоса Azure AI Speech

Как использовать HD-голоса Azure AI Speech

Поддерживаемые и неподдерживаемые элементы SSML для голосов Azure AI Speech HD

Связанный контент

Обратная связь

Дополнительные ресурсы