Co jsou texty OpenAI pro hlasové hlasy?

Stejně jako hlasy Azure AI Speech nabízí funkce OpenAI text na řečové hlasy vysoce kvalitní syntézu řeči, která převede psaný text na přirozený zvuk mluveného zvuku. To přináší širokou škálu možností imerzivních a interaktivních uživatelských prostředí.

Text OpenAI pro hlasové hlasy jsou k dispozici prostřednictvím dvou variant modelu: Neural a NeuralHD.

  • Neural: Optimalizováno pro případy použití v reálném čase s nejnižší latencí, ale nižší kvalitou než NeuralHD.
  • NeuralHD: Optimalizováno pro kvalitu.

Ukázku hlasů OpenAI v sadě Azure OpenAI Studio a sadě Speech Studio najdete v tomto úvodním videu.

Dostupný text pro hlasové hlasy ve službách Azure AI

Můžete se zeptat: Pokud chci použít text OpenAI pro hlasový hlas, mám ho použít přes službu Azure OpenAI nebo azure AI Speech? Jaké jsou scénáře, které mě provedou použitím jedné nebo druhé?

Každý hlasový model nabízí jedinečné funkce a možnosti, díky kterým si můžete vybrat ten, který nejlépe vyhovuje vašim konkrétním potřebám. Chcete porozumět možnostem a rozdílům mezi dostupnými textovými hlasy ve službách Azure AI.

Ve službách Azure AI si můžete vybrat z následujícího textu na řečové hlasy:

  • Funkce OpenAI pro hlasové hlasy ve službě Azure OpenAI. Dostupné v následujících oblastech: USA – středosever a Švédsko – střed.
  • OpenAI text to speech voices in Azure AI Speech. Dostupné v následujících oblastech: USA – středosever a Švédsko – střed.
  • Text služby Azure AI Speech na hlasové hlasy K dispozici v desítkách oblastí. Podívejte se na seznam oblastí.

Text OpenAI pro hlasové hlasy prostřednictvím služby Azure OpenAI nebo Azure AI Speech?

Pokud chcete používat text OpenAI k hlasovým hlasům, můžete zvolit, jestli se mají používat přes Azure OpenAI nebo Azure AI Speech. V obou případech je výsledek syntézy řeči stejný.

Tady je porovnání funkcí mezi textem OpenAI a hlasovými hlasy ve službě Azure OpenAI a textem OpenAI na hlasové hlasy v Azure AI Speech.

Funkce Služba Azure OpenAI (hlasy OpenAI) Azure AI Speech (hlasy OpenAI) Hlasy azure AI Speech
Oblast USA – středosever, Švédsko – střed USA – středosever, Švédsko – střed K dispozici v desítkách oblastí. Podívejte se na seznam oblastí.
Rozmanitost hlasu 6 6 Více než 400
Vícejazyčné číslo hlasu 6 6 14
Maximální pokrytí vícejazyčných jazyků 57 57 77
Podpora jazyka SSML (Speech Synthesis Markup Language) Nepodporováno Podpora podmnožina elementů SSML Podpora úplné sady SSML ve službě Azure AI Speech
Možnosti vývoje REST API Speech SDK, Speech CLI, REST API Speech SDK, Speech CLI, REST API
Možnost nasazení Pouze cloud Pouze cloud Cloud, vložené, hybridní a kontejnery.
Syntéza v reálném čase nebo dávkové syntéze V reálném čase Syntéza v reálném čase a dávkové syntéze Syntéza v reálném čase a dávkové syntéze
Latence větší než 500 ms větší než 500 ms méně než 300 ms
Vzorkovací frekvence syntetizovaného zvuku 24 kHz 8, 16, 24 a 48 kHz 8, 16, 24 a 48 kHz
Formát zvukového výstupu řeči opus, mp3, aac, flaš opus, mp3, pcm, truesilk opus, mp3, pcm, truesilk

Ve službě Azure AI Speech jsou k dispozici další funkce a možnosti, které nejsou dostupné v hlasech OpenAI. Příklad:

  • Text OpenAI pro hlasové hlasy v Azure AI Speech podporuje jenom podmnožinu prvků SSML. Hlasy Azure AI Speech podporují úplnou sadu elementů SSML.
  • Azure AI Speech podporuje události hranic slov. Hlasy OpenAI nepodporují události hranic slov.

Prvky SSML podporované textem OpenAI pro hlasové hlasy v Azure AI Speech

Jazyk SSML (Speech Synthesis Markup Language) se vstupním textem určuje strukturu, obsah a další vlastnosti textu na výstup řeči. SSML můžete například použít k definování odstavce, věty, konce nebo pozastavení nebo tichou. Text můžete zalamovat značkami událostí, jako je záložka nebo viseme, které může vaše aplikace zpracovat později.

Následující tabulka popisuje prvky jazyka SSML (Speech Synthesis Markup Language) podporované textem OpenAI pro hlasové hlasy v Azure AI Speech. Pro hlasy OpenAI se podporují jenom následující podmnožina značek SSML. Další informace najdete v tématu Struktura a události dokumentu SSML.

Název elementu SSML Popis
<speak> Uzavře celý obsah, který se má vyslovit. Jedná se o kořenový prvek dokumentu SSML.
<voice> Určuje hlas používaný pro převod textu na výstup řeči.
<sub> Označuje, že textová hodnota atributu aliasu by měla být vyslovována místo uzavřeného textu elementu.
<say-as> Označuje typ obsahu, například číslo nebo datum, textu elementu.

interpret-as Všechny hodnoty vlastnosti jsou podporovány pro tento prvek s výjimkou interpret-as="name". Podporuje se například <say-as interpret-as="date" format="dmy">10-12-2016</say-as> , ale <say-as interpret-as="name">ED</say-as> nepodporuje se. Další informace najdete v tématu výslovnost pomocí SSML.
<s> Označuje věty.
<lang> Označuje výchozí národní prostředí pro jazyk, který má neurální hlas mluvit.
<break> Slouží k přepsání výchozího chování konců nebo pozastavení mezi slovy.

Další kroky