Примечание
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Azure AI Speech продолжает совершенствоваться в области технологии преобразования текста в речь с введением нейронных голосов высокого разрешения (HD). Голоса HD могут понимать содержание, автоматически определять эмоции в исходном тексте и корректировать интонацию в реальном времени, чтобы соответствовать настроению. Голоса в формате HD сохраняют постоянный характер звучания, аналогичный своим нейронным (и не-HD) аналогам, и предлагают даже больше преимуществ благодаря улучшенным функциям.
Основные характеристики нейронных текстовых голосов HD
Основные характеристики голосов HD Azure AI Speech:
Ключевые особенности | Описание |
---|---|
Создание речи, подобной человеку | Нейронные HD-голоса синтеза речи могут создавать очень естественную и человеко-подобную речь. Модель обучена на миллионах часов многоязычных данных, что позволяет ей точно интерпретировать вводимый текст и генерировать речь с соответствующими эмоциями, темпом и ритмом без необходимости ручной корректировки. |
Разговорный | Нейронный синтез речи в формате HD может воспроизводить естественные интонации речи, включая спонтанные паузы и акцент. При предоставлении разговорного текста модель может воспроизводить общие фонемы, такие как паузы и слова-паразиты. Созданный голос звучит, как если бы кто-то говорил с вами напрямую. |
Вариации просодии | Голоса HD с нейронным преобразованием текста в речь вводят небольшие вариации в каждом воспроизведении, чтобы повысить реалистичность. Эти вариации делают речь более естественной, так как человеческие голоса естественно демонстрируют вариативность. |
Высокая точность | Основная цель нейронных высококачественных голосов для синтеза речи заключается в создании высококачественного звука. Синтетическая речь, созданная нашей системой, может очень точно имитировать человеческую речь как по качеству, так и по естественности. |
Сравнение голосов Azure AI Speech HD с другими голосами в текстовой озвучке Azure
Как Azure AI Speech HD сравниваются с другими голосами синтеза речи от Azure? Чем они различаются с точки зрения функций и возможностей?
Ниже приведено сравнение функций голосов Azure AI Speech HD, Azure OpenAI HD и голосов Azure AI Speech.
Функция | Голоса Azure AI Speech HD | Azure OpenAI голоса высокой четкости | Голоса Azure AI Speech (не HD) |
---|---|---|---|
Регион | Восточное побережье США, Юго-Восточная Азия, Западная Европа | Северо-Центральный США, Центральная Швеция | Доступно в десятках регионов. См. список регионов. |
Количество голосов | 30 | 6 | Более 500 |
Многоязычный | Да | Да | Да (применимо только к многоязычным голосам) |
Поддержка SSML | Поддержка подмножества элементов SSML. | Поддержка подмножества элементов SSML. | Поддержка полного набора SSML в Azure AI Speech. |
Варианты разработки | Пакет SDK службы "Речь", интерфейс командной строки службы "Речь", REST API | SDK для речевых технологий, CLI для командной строки речевых технологий, REST API | Speech SDK (Пакет SDK службы "Речь"), Speech CLI (интерфейс командной строки службы "Речь"), REST API |
Варианты развертывания | Только облако | Только облако | Облако, встроенные системы, гибридные технологии и контейнеры. |
Синтез в реальном времени или пакетный синтез | Только в режиме реального времени | Синтез в режиме реального времени и пакетный синтез | Синтез в режиме реального времени и пакетный синтез |
Задержка | Меньше 300 мс | Больше 500 мс | Меньше 300 мс |
Частота дискретизации синтезированного аудио | 8, 16, 24 и 48 кГц | 8, 16, 24 и 48 кГц | 8, 16, 24 и 48 кГц |
Аудиоформат вывода речи | opus, mp3, pcm, truesilk | opus, mp3, pcm, truesilk | opus, mp3, pcm, truesilk |
Поддерживаемые HD-голоса Azure AI Speech
Значения голосов Azure AI Speech HD представлены в формате voicename:basemodel:version
. Имя перед двоеточием, как en-US-Ava
, представляет собой имя голосовой персоны и его исходный языковой стандарт. Базовая модель отслеживается версиями в последующих обновлениях.
В настоящее время модель DragonHD
является единственной базовой моделью, доступной для голосов распознавания речи ИИ Azure. Чтобы убедиться, что вы используете последнюю версию базовой модели, которую мы предоставляем, без необходимости вносить изменения в код, используйте версию LatestNeural
.
Например, для персонажа en-US-Ava
вы можете указать следующие значения HD голоса:
-
en-US-Ava:DragonHDLatestNeural
: Всегда использует последнюю версию базовой модели, которую мы предоставим позже.
В следующей таблице перечислены HD-голоса Azure AI Speech, которые в настоящее время доступны.
Имя голоса | Пол | Состояние | Примечание |
---|---|---|---|
de-DE-Флориан:DragonHDLatestNeural | Мужской | Генеральная Ассамблея | |
de-DE-Seraphina:DragonHDLatestNeural | Женщина | Генеральная Ассамблея | |
en-US-Адам:DragonHDLatestNeural | Мужской | Генеральная Ассамблея | |
en-US-Сплав:DragonHDLatestNeural | Мужской | Предварительный просмотр | |
en-US-Эндрю:DragonHDLatestNeural | Мужской | Генеральная Ассамблея | |
en-US-Эндрю2:DragonHDLatestNeural | Мужской | Генеральная Ассамблея | Оптимизировано для содержимого беседы |
en-US-Эндрю3:ДраконHDПоследняяНейронная | Мужской | Предварительный просмотр | Оптимизировано для содержимого podcast |
en-US-Aria: Последняя нейросеть DragonHD | Женщина | Предварительный просмотр | |
en-US-Ava:DragonHDLatestNeural | Женщина | Генеральная Ассамблея | |
en-US-Ava3:DragonHDLatestNeural | Женщина | Предварительный просмотр | Оптимизировано для содержимого podcast |
en-US-Брайан:DragonHDLatestNeural | Мужской | Генеральная Ассамблея | |
en-US-Дэвис:DragonHDLatestNeural | Мужской | Генеральная Ассамблея | |
Эмма: ДраконHDПоследняяНейроннаяСеть | Женщина | Генеральная Ассамблея | |
en-US-Emma2:DragonHDLatestNeural | Женщина | Генеральная Ассамблея | Оптимизировано для содержимого беседы |
en-US-Jenny:DragonHDLatestNeural | Женщина | Предварительный просмотр | |
en-US-MultiTalker-Ava-Andrew:DragonHDLatestNeural | Мужской | Предварительный просмотр | |
en-US-Nova:ДраконHDПоследнийНейронный | Женщина | Предварительный просмотр | |
en-US-Phoebe:DragonHDLatestNeural | Женщина | Предварительный просмотр | |
en-US-Serena:DragonHDLatestNeural | Женщина | Предварительный просмотр | |
en-US-Steffan:DragonHDLatestNeural | Мужской | Генеральная Ассамблея | |
es-ES-Tristan:DragonHDLatestNeural | Мужской | Генеральная Ассамблея | |
es-ES-Ximena:DragonHDLatestNeural | Женщина | Генеральная Ассамблея | |
fr-FR-Remy:DragonHDLatestNeural | Мужской | Генеральная Ассамблея | |
fr-FR-Vivienne:DragonHDLatestNeural | Женщина | Генеральная Ассамблея | |
ja-JP-Масару:DragonHDLatestNeural | Мужской | Генеральная Ассамблея | |
ja-JP-Nanami:DragonHDLatestNeural | Женщина | Генеральная Ассамблея | |
zh-CN-Xiaochen:DragonHDLatestNeural | Женщина | Генеральная Ассамблея | |
zh-CN-Yunfan:DragonHDLatestNeural | Мужской | Генеральная Ассамблея |
Как использовать HD-голоса Azure AI Speech
Вы можете использовать HD-голоса с той же службой SDK "Речь" и REST API, что и для обычных голосов.
Вот несколько ключевых моментов, которые следует учитывать при использовании голосов Azure AI Speech HD:
- Языковой локаль голоса: Локаль в названии голоса указывает его исходный язык и регион.
-
Базовые модели:
- Голоса HD поставляются с базовой моделью, которая понимает вводимый текст и соответственно прогнозирует манеру речи. Вы можете указать требуемую модель (например, DragonHDLatestNeural) в зависимости от доступности каждого голоса.
-
Использование SSML: Чтобы указать голос в SSML, используйте формат
voicename:basemodel:version
. Имя перед двоеточием, такое какde-DE-Seraphina
, — это имя голосовой персоны и его исходный языковой стандарт. Базовая модель отслеживается версиями в последующих обновлениях. -
Параметр температуры:
- Значение температуры — это плавающее значение от 0 до 1, влияющее на случайность выходных данных. Вы также можете регулировать параметр температуры, чтобы контролировать изменение результатов. Меньше случайности дает более стабильные результаты, в то время как более случайность предлагает разнообразие, но меньше согласованности.
- Низкая температура приводит к меньшей случайности, что ведет к более предсказуемым результатам. Более высокая температура увеличивает случайность, что позволяет получить более разнообразные выходные данные. Температура по умолчанию установлена на 1.0.
Вот пример того, как использовать голоса Azure AI Speech HD в SSML:
<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='https://www.w3.org/2001/mstts' xml:lang='en-US'>
<voice name='en-US-Ava:DragonHDLatestNeural' parameters='temperature=0.8'>Here is a test</voice>
</speak>
Поддерживаемые и неподдерживаемые элементы SSML для голосов Azure AI Speech HD
Язык разметки синтеза речи (SSML) с входным текстом определяет структуру, содержимое и другие характеристики текста для вывода речи. Например, вы можете использовать SSML, чтобы определить абзац, предложение, паузу или перерыв, или тишину. Вы можете обернуть текст тегами событий, такими как закладка или визема, которые ваше приложение обрабатывает позже.
Голоса Azure AI Speech HD не поддерживают все элементы или события SSML, которые поддерживают другие голоса Azure AI Speech. Примечательно, что голоса Azure AI Speech HD не поддерживают события границ слов.
Для получения подробной информации о поддерживаемых и неподдерживаемых элементах SSML для голосов Azure AI Speech HD, пожалуйста, обратитесь к следующей таблице. Для получения инструкций по использованию элементов SSML обратитесь к документации Языка разметки синтеза речи (SSML).
Элемент SSML | Описание | Поддерживается в голосах HD Azure AI Speech |
---|---|---|
<voice> |
Указывает голос и необязательные эффекты (eq_car и eq_telecomhp8k ). |
Да |
<mstts:express-as> |
Указывает стили и роли выступлений. | Нет |
<mstts:ttsembedding> |
Указывает свойство speakerProfileId для личного голоса. |
Нет |
<lang xml:lang> |
Задает язык речи. | Да |
<prosody> |
Регулирует высоту тона, контур, диапазон, скорость и громкость. | Нет |
<emphasis> |
Добавляет или удаляет стресс на уровне слова для текста. | Нет |
<audio> |
Встраивает предварительно записанный аудио в документ SSML. | Нет |
<mstts:audioduration> |
Указывает продолжительность выходного аудио. | Нет |
<mstts:backgroundaudio> |
Добавляет фоновое аудио в ваши документы SSML или смешивает звуковой файл с текстом при синтезе речи. | Нет |
<phoneme> |
Указывает фонетическое произношение в документах SSML. | Нет |
<lexicon> |
Определяет, как несколько сущностей читаются в SSML. | Да (поддерживает только псевдоним) |
<say-as> |
Указывает тип содержимого, например, число или дата, текста элемента. | Да |
<sub> |
Указывает, что текстовое значение атрибута псевдонима должно быть произнесено вместо заключенного текста элемента. | Да |
<math> |
Использует MathML в качестве входного текста для правильного произношения математических нотации в выходном звуке. | Нет |
<bookmark> |
Получает смещение каждого маркера в звуковом потоке. | Нет |
<break> |
Переопределяет стандартное поведение разрывов или пауз между словами. | Нет |
<mstts:silence> |
Вставляет паузу до или после текста или между двумя смежными предложениями. | Нет |
<mstts:viseme> |
Определяет положение лица и рта во время выступления человека. | Нет |
<p> |
Обозначает абзацы в документах SSML. | Да |
<s> |
Обозначает предложения в документах SSML. | Да |
Примечание
Хотя в предыдущем разделе этого руководства также сравнивались HD-голоса Azure AI Speech и Azure OpenAI, элементы SSML, поддерживаемые Azure AI Speech, не применимы к голосам Azure OpenAI.