Что такое текст OpenAI для речевых голосов?

2025-02-25

Как и голосовая речь Azure AI, текст OpenAI для голосовых функций обеспечивает высококачественный синтез речи, чтобы преобразовать написанный текст в естественный звуковой звук. Это разблокирует широкий спектр возможностей для иммерсивного и интерактивного взаимодействия с пользователем.

Текст OpenAI для голосовой речи доступен через два варианта модели: Neural и NeuralHD.

Neural: оптимизировано для вариантов использования в режиме реального времени с наименьшей задержкой, но ниже качества NeuralHD.
NeuralHD: оптимизировано для качества.

Доступный текст для голосов речи в службах ИИ Azure

Вы можете спросить: Если вы хотите использовать текст OpenAI для голосовой речи, следует ли использовать его с помощью Azure OpenAI в моделях Azure AI Foundry или с помощью службы "Речь СИ Azure"? Каковы сценарии, которые помогут мне использовать один или другой?

Каждая модель голосовой связи предлагает различные функции и возможности, позволяя выбрать наиболее подходящий для ваших потребностей. Вы хотите понять параметры и различия между доступным текстом для речевых голосов в службах ИИ Azure.

Вы можете выбрать из следующего текста голосовые голоса в службах ИИ Azure:

Текст OpenAI для речевых голосов в Azure OpenAI. Доступно в следующих регионах: центрально-северная часть США и Центральная Швеция.
Текст OpenAI для голоса речи в службе "Речь ИИ Azure". Доступно в следующих регионах: центрально-северная часть США и Центральная Швеция.
Текст службы "Речь ИИ Azure" для голосовой речи. Доступно в десятках регионов. См. список регионов.

Текст OpenAI для голосовой речи с помощью Azure OpenAI или с помощью службы "Речь с помощью ИИ Azure"?

Если вы хотите использовать текст OpenAI для речевых голосов, вы можете выбрать, следует ли использовать их с помощью Azure OpenAI или с помощью службы "Речь СИ Azure". Вы можете посетить коллекцию голосовых данных, чтобы слушать примеры голосов Azure OpenAI или синтезировать речь с собственным текстом с помощью создания аудиоконтента. Выходные данные звука идентичны в обоих случаях, при этом существует лишь несколько различий между двумя службами. Дополнительные сведения см. в таблице ниже.

Ниже приведено сравнение функций голосов текст-в-речь OpenAI в Azure OpenAI и голосов текст-в-речь OpenAI в Azure AI Speech.

Функция	Azure OpenAI (голоса OpenAI)	Распознавание речи СИ Azure (голоса OpenAI)	Голос службы "Речь с помощью искусственного интеллекта Azure"
Регион	Центрально-северная часть США, Центральная Швеция	Центрально-северная часть США, Центральная Швеция	Доступно в десятках регионов. См. список регионов.
Разнообразие голосовых данных	6	12	Более 500
Многоязычный номер голоса	6	12	49
Максимальное число языкового охвата	57	57	77
Поддержка языка разметки синтеза речи (SSML)	Не поддерживается	Поддержка подмножества элементов SSML.	Поддержка полного набора SSML в службе "Речь ИИ Azure".
Варианты разработки	REST API	Пакет SDK службы "Речь", интерфейс командной строки службы "Речь", REST API	Пакет SDK службы "Речь", интерфейс командной строки службы "Речь", REST API
Вариант развертывания	Учетные записи	Учетные записи	Облачные, внедренные, гибридные и контейнеры.
Синтез в режиме реального времени или пакетной обработки	Реальное время	Реальное время	Синтез в режиме реального времени и пакетной обработки
Задержка	больше 500 мс	больше 500 мс	менее 300 мс
Частота выборки синтезированного звука	24 кГц	8, 16, 24 и 48 кГц	8, 16, 24 и 48 кГц
Формат звука вывода речи	opus, mp3, aac, flac	opus, mp3, pcm, truesilk	opus, mp3, pcm, truesilk

В службе "Речь ИИ Azure" доступны дополнительные функции и возможности, недоступные в голосовых функциях OpenAI. Например:

Текст OpenAI для голосов речи в службе "Речь ИИ Azure" поддерживает только подмножество элементов SSML. Голоса службы "Речь ИИ Azure" поддерживают полный набор элементов SSML.
Служба "Речь ИИ Azure" поддерживает события границ слов. Голоса OpenAI не поддерживают события границ слов.

Доступный текст OpenAI для голосовых функций

Доступные голоса OpenAI в Azure OpenAI:

alloy
echo
fable
onyx
nova
shimmer

Доступные голоса OpenAI в службе "Речь ИИ Azure":

en-US-AlloyMultilingualNeural
en-US-EchoMultilingualNeural
en-US-FableMultilingualNeural
en-US-OnyxMultilingualNeural
en-US-NovaMultilingualNeural
en-US-ShimmerMultilingualNeural
en-US-AlloyMultilingualNeuralHD
en-US-EchoMultilingualNeuralHD
en-US-FableMultilingualNeuralHD
en-US-OnyxMultilingualNeuralHD
en-US-NovaMultilingualNeuralHD
en-US-ShimmerMultilingualNeuralHD

Элементы SSML, поддерживаемые текстом OpenAI для голосов речи в службе "Речь ИИ Azure"

Язык разметки синтеза речи (SSML) с входным текстом определяет структуру, содержимое и другие характеристики текста для вывода речи. Например, можно использовать SSML для определения абзаца, предложения, перерыва или паузы или молчания. Текст можно упаковать с помощью тегов событий, таких как закладка или viseme, которые можно обработать позже приложением.

В следующей таблице описаны элементы языка разметки синтеза речи (SSML), поддерживаемые текстом OpenAI для речевых голосов в речи искусственного интеллекта Azure. Для голосов OpenAI поддерживаются только следующие подмножества тегов SSML. Дополнительные сведения см. в структуре и событиях документов SSML.

Имя элемента SSML	Описание
`<speak>`	Заключает весь контент, который нужно провести. Это корневой элемент документа SSML.
`<voice>`	Задает голос, используемый для вывода текста в речь.
`<sub>`	Указывает, что текстовое значение атрибута псевдонима должно быть произнесено вместо заключенного текста элемента.
`<say-as>`	Указывает тип контента, например число или дату текста элемента. `interpret-as` Для этого элемента `interpret-as="name"`поддерживаются все значения свойств. Например, `<say-as interpret-as="date" format="dmy">10-12-2016</say-as>` поддерживается, но `<say-as interpret-as="name">ED</say-as>` не поддерживается. Дополнительные сведения см. в статье об произношении с помощью SSML.
`<s>`	Обозначает предложения.
`<lang>`	Указывает языковой стандарт по умолчанию для языка, который требуется говорить нейронным голосом.
`<break>`	Используется для переопределения поведения разрывов или пауз по умолчанию между словами.

Поделиться через

Что такое текст OpenAI для речевых голосов?

Доступный текст для голосов речи в службах ИИ Azure

Текст OpenAI для голосовой речи с помощью Azure OpenAI или с помощью службы "Речь с помощью ИИ Azure"?

Доступный текст OpenAI для голосовых функций

Элементы SSML, поддерживаемые текстом OpenAI для голосов речи в службе "Речь ИИ Azure"

Связанный контент

Обратная связь

Дополнительные ресурсы