Co jsou texty OpenAI pro hlasové hlasy?

Článek
04/25/2024

Stejně jako hlasy Azure AI Speech nabízí funkce OpenAI text na řečové hlasy vysoce kvalitní syntézu řeči, která převede psaný text na přirozený zvuk mluveného zvuku. To přináší širokou škálu možností imerzivních a interaktivních uživatelských prostředí.

Text OpenAI pro hlasové hlasy jsou k dispozici prostřednictvím dvou variant modelu: Neural a NeuralHD.

Neural: Optimalizováno pro případy použití v reálném čase s nejnižší latencí, ale nižší kvalitou než NeuralHD.
NeuralHD: Optimalizováno pro kvalitu.

Ukázku hlasů OpenAI v sadě Azure OpenAI Studio a sadě Speech Studio najdete v tomto úvodním videu.

Dostupný text pro hlasové hlasy ve službách Azure AI

Můžete se zeptat: Pokud chci použít text OpenAI pro hlasový hlas, mám ho použít přes službu Azure OpenAI nebo azure AI Speech? Jaké jsou scénáře, které mě provedou použitím jedné nebo druhé?

Každý hlasový model nabízí jedinečné funkce a možnosti, díky kterým si můžete vybrat ten, který nejlépe vyhovuje vašim konkrétním potřebám. Chcete porozumět možnostem a rozdílům mezi dostupnými textovými hlasy ve službách Azure AI.

Ve službách Azure AI si můžete vybrat z následujícího textu na řečové hlasy:

Funkce OpenAI pro hlasové hlasy ve službě Azure OpenAI. Dostupné v následujících oblastech: USA – středosever a Švédsko – střed.
OpenAI text to speech voices in Azure AI Speech. Dostupné v následujících oblastech: USA – středosever a Švédsko – střed.
Text služby Azure AI Speech na hlasové hlasy K dispozici v desítkách oblastí. Podívejte se na seznam oblastí.

Text OpenAI pro hlasové hlasy prostřednictvím služby Azure OpenAI nebo Azure AI Speech?

Pokud chcete používat text OpenAI k hlasovým hlasům, můžete zvolit, jestli se mají používat přes Azure OpenAI nebo Azure AI Speech. V obou případech je výsledek syntézy řeči stejný.

Tady je porovnání funkcí mezi textem OpenAI a hlasovými hlasy ve službě Azure OpenAI a textem OpenAI na hlasové hlasy v Azure AI Speech.

Funkce	Služba Azure OpenAI (hlasy OpenAI)	Azure AI Speech (hlasy OpenAI)	Hlasy azure AI Speech
Oblast	USA – středosever, Švédsko – střed	USA – středosever, Švédsko – střed	K dispozici v desítkách oblastí. Podívejte se na seznam oblastí.
Rozmanitost hlasu	6	6	Více než 400
Vícejazyčné číslo hlasu	6	6	14
Maximální pokrytí vícejazyčných jazyků	57	57	77
Podpora jazyka SSML (Speech Synthesis Markup Language)	Nepodporováno	Podpora podmnožina elementů SSML	Podpora úplné sady SSML ve službě Azure AI Speech
Možnosti vývoje	REST API	Speech SDK, Speech CLI, REST API	Speech SDK, Speech CLI, REST API
Možnost nasazení	Pouze cloud	Pouze cloud	Cloud, vložené, hybridní a kontejnery.
Syntéza v reálném čase nebo dávkové syntéze	V reálném čase	Syntéza v reálném čase a dávkové syntéze	Syntéza v reálném čase a dávkové syntéze
Latence	větší než 500 ms	větší než 500 ms	méně než 300 ms
Vzorkovací frekvence syntetizovaného zvuku	24 kHz	8, 16, 24 a 48 kHz	8, 16, 24 a 48 kHz
Formát zvukového výstupu řeči	opus, mp3, aac, flaš	opus, mp3, pcm, truesilk	opus, mp3, pcm, truesilk

Ve službě Azure AI Speech jsou k dispozici další funkce a možnosti, které nejsou dostupné v hlasech OpenAI. Příklad:

Text OpenAI pro hlasové hlasy v Azure AI Speech podporuje jenom podmnožinu prvků SSML. Hlasy Azure AI Speech podporují úplnou sadu elementů SSML.
Azure AI Speech podporuje události hranic slov. Hlasy OpenAI nepodporují události hranic slov.

Prvky SSML podporované textem OpenAI pro hlasové hlasy v Azure AI Speech

Jazyk SSML (Speech Synthesis Markup Language) se vstupním textem určuje strukturu, obsah a další vlastnosti textu na výstup řeči. SSML můžete například použít k definování odstavce, věty, konce nebo pozastavení nebo tichou. Text můžete zalamovat značkami událostí, jako je záložka nebo viseme, které může vaše aplikace zpracovat později.

Následující tabulka popisuje prvky jazyka SSML (Speech Synthesis Markup Language) podporované textem OpenAI pro hlasové hlasy v Azure AI Speech. Pro hlasy OpenAI se podporují jenom následující podmnožina značek SSML. Další informace najdete v tématu Struktura a události dokumentu SSML.

Název elementu SSML	Popis
`<speak>`	Uzavře celý obsah, který se má vyslovit. Jedná se o kořenový prvek dokumentu SSML.
`<voice>`	Určuje hlas používaný pro převod textu na výstup řeči.
`<sub>`	Označuje, že textová hodnota atributu aliasu by měla být vyslovována místo uzavřeného textu elementu.
`<say-as>`	Označuje typ obsahu, například číslo nebo datum, textu elementu. `interpret-as` Všechny hodnoty vlastnosti jsou podporovány pro tento prvek s výjimkou `interpret-as="name"`. Podporuje se například `<say-as interpret-as="date" format="dmy">10-12-2016</say-as>` , ale `<say-as interpret-as="name">ED</say-as>` nepodporuje se. Další informace najdete v tématu výslovnost pomocí SSML.
`<s>`	Označuje věty.
`<lang>`	Označuje výchozí národní prostředí pro jazyk, který má neurální hlas mluvit.
`<break>`	Slouží k přepsání výchozího chování konců nebo pozastavení mezi slovy.

Sdílet prostřednictvím

Co jsou texty OpenAI pro hlasové hlasy?

Dostupný text pro hlasové hlasy ve službách Azure AI

Text OpenAI pro hlasové hlasy prostřednictvím služby Azure OpenAI nebo Azure AI Speech?

Prvky SSML podporované textem OpenAI pro hlasové hlasy v Azure AI Speech

Další kroky

Váš názor

Váš názor

Další materiály