Mik azok az OpenAI-szövegek a beszédhangokhoz?

Cikk
10/16/2024

Az Azure AI Speech-hangokhoz hasonlóan az OpenAI-szövegek beszédhangokká alakítása kiváló minőségű beszédszintézist biztosít az írott szövegek természetes hangzású beszélt hanggá alakításához. Ez számos lehetőséget kínál a modern és interaktív felhasználói élményekhez.

Az OpenAI szöveg és a beszédhangok két modellvariánson keresztül érhetők el: Neural és NeuralHD.

Neural: A legkisebb késéssel rendelkező, de alacsonyabb minőséggel NeuralHDrendelkező valós idejű használati esetekre van optimalizálva.
NeuralHD: Minőségre optimalizálva.

Beszédhangok számára elérhető szöveg az Azure AI-szolgáltatásokban

Felteheti a kérdést: Ha OpenAI-szöveget szeretnék használni a beszédhanghoz, használjam az Azure OpenAI szolgáltatáson vagy az Azure AI Speechen keresztül? Milyen forgatókönyvek vezetnek az egyik vagy a másik használatához?

Minden hangmodell különböző funkciókat és képességeket kínál, így kiválaszthatja az igényeinek leginkább megfelelőt. Szeretné megismerni az Azure AI-szolgáltatásokban elérhető szövegek és beszédhangok közötti lehetőségeket és különbségeket.

Az Azure AI-szolgáltatásokban a következő szöveg és beszédhangok közül választhat:

Az Azure OpenAI szolgáltatásban a beszédhangok közötti openAI szövegfelolvasás. Az alábbi régiókban érhető el: USA északi középső régiója és Svédország középső régiója.
OpenAI text to speech voices in Azure AI Speech. Az alábbi régiókban érhető el: USA északi középső régiója és Svédország középső régiója.
Az Azure AI Speech szolgáltatás szövege beszédhangokra. Több tucat régióban érhető el. Tekintse meg a régiólistát.

Az Azure OpenAI szolgáltatáson vagy az Azure AI Speechen keresztül nyitja meg a beszédhangokat?

Ha OpenAI-szöveget szeretne használni a beszédhangokhoz, kiválaszthatja, hogy azOkat az Azure OpenAI-on vagy az Azure AI Speechen keresztül szeretné-e használni. A Hangtárban meghallgathatja az Azure OpenAI-hangok mintáit, vagy saját szöveggel szintetizálhatja a beszédet a hangtartalmak létrehozásával. A hangkimenet mindkét esetben azonos, és csak néhány funkcióbeli különbség van a két szolgáltatás között. A részletekért tekintse meg a lenti táblázatot.

Íme egy összehasonlítása az OpenAI-szövegek és az Azure OpenAI szolgáltatás beszédhangjai és az OpenAI szöveg és az Azure AI Speech beszédhangjai közötti funkciók összehasonlítása.

Szolgáltatás	Azure OpenAI szolgáltatás (OpenAI-hangok)	Azure AI Speech (OpenAI-hangok)	Azure AI Speech-hangok
Régió	USA északi középső régiója, Közép-Svédország	USA északi középső régiója, Közép-Svédország	Több tucat régióban érhető el. Tekintse meg a régiólistát.
Hangkultúra	6	12	Több mint 500
Többnyelvű hangszám	6	12	49
Többnyelvű nyelvi lefedettség maximális kihasználtság	57	57	77
Beszédszintézis korrektúranyelv (SSML) támogatása	Nem támogatott	SSML-elemek egy részhalmazának támogatása.	Az SSML teljes készletének támogatása az Azure AI Speechben.
Fejlesztési lehetőségek	REST API	Speech SDK, Speech CLI, REST API	Speech SDK, Speech CLI, REST API
Üzembe helyezési lehetőség	Csak felhő	Csak felhő	Felhő, beágyazott, hibrid és tárolók.
Valós idejű vagy kötegszintézis	Valós idejű	Valós idejű és kötegszintézis	Valós idejű és kötegszintézis
Késés	500 ms-nál nagyobb	500 ms-nál nagyobb	kisebb, mint 300 ms
A szintetizált hang mintasebessége	24 kHz	8, 16, 24 és 48 kHz	8, 16, 24 és 48 kHz
Beszédkimenet hangformátuma	opus, mp3, aac, flac	opus, mp3, pcm, truesilk	opus, mp3, pcm, truesilk

Az Azure AI Speechben további funkciók és képességek érhetők el, amelyek nem érhetők el OpenAI-hangokkal. Példa:

Az Azure AI Speechben csak az SSML-elemek egy részhalmazát támogatják az OpenAI szövegfelolvasók a beszédhangokhoz. Az Azure AI Speech-hangok támogatják az SSML-elemek teljes készletét.
Az Azure AI Speech támogatja a szavak határeseteit. Az OpenAI-hangok nem támogatják a szavak határeseteit.

Az OpenAI text to speech voices által támogatott SSML-elemek az Azure AI Speechben

A beszédszintézis korrektúranyelve (SSML) bemeneti szöveggel határozza meg a szöveg szerkezetét, tartalmát és egyéb jellemzőit a beszédkimenethez. Az SSML használatával például definiálhat bekezdést, mondatot, szünetet, szünetet vagy csendet. Az alkalmazás később feldolgozható eseménycímkéket, például könyvjelzőt vagy viseme-et tartalmazó szöveget tördelhet.

Az alábbi táblázat az OpenAI-szövegek és az Azure AI-beszéd beszédhangjai által támogatott Beszédszintézis korrektúranyelv (SSML) elemeit ismerteti. Az OpenAI-hangok csak az SSML-címkék alábbi részhalmazát támogatják. További információkért tekintse meg az SSML-dokumentum struktúráját és eseményeit .

SSML-elem neve	Leírás
`<speak>`	A teljes kimondandó tartalmat belefoglalja. Ez egy SSML-dokumentum gyökéreleme.
`<voice>`	A szöveg és a beszéd kimenetéhez használt hangot adja meg.
`<sub>`	Azt jelzi, hogy az alias attribútum szöveges értékét az elem zárt szövege helyett ki kell ejteni.
`<say-as>`	Az elem szövegének tartalomtípusát (például számot vagy dátumot) jelzi. Ehhez az elemhez az `interpret-as` összes tulajdonságérték támogatott, kivéve `interpret-as="name"`. Például támogatott, `<say-as interpret-as="date" format="dmy">10-12-2016</say-as>` de `<say-as interpret-as="name">ED</say-as>` nem támogatott. További információ: kiejtés az SSML-vel.
`<s>`	Mondatokat jelöl.
`<lang>`	Azt jelzi, hogy a neurális hang milyen alapértelmezett területi beállítást ad meg a beszédhez.
`<break>`	A szavak közötti szünetek vagy szünetek alapértelmezett viselkedésének felülbírálására használható.

Megosztás a következőn keresztül:

Mik azok az OpenAI-szövegek a beszédhangokhoz?

Beszédhangok számára elérhető szöveg az Azure AI-szolgáltatásokban

Az Azure OpenAI szolgáltatáson vagy az Azure AI Speechen keresztül nyitja meg a beszédhangokat?

Az OpenAI text to speech voices által támogatott SSML-elemek az Azure AI Speechben

Visszajelzés

További források

Megosztás a következőn keresztül:

Mik azok az OpenAI-szövegek a beszédhangokhoz?

Beszédhangok számára elérhető szöveg az Azure AI-szolgáltatásokban

Az Azure OpenAI szolgáltatáson vagy az Azure AI Speechen keresztül nyitja meg a beszédhangokat?

Az OpenAI text to speech voices által támogatott SSML-elemek az Azure AI Speechben

Kapcsolódó tartalom

Visszajelzés

További források