Share via


Mik azok az OpenAI-szövegek a beszédhangokhoz?

Az Azure AI Speech-hangokhoz hasonlóan az OpenAI-szövegek beszédhangokká alakítása kiváló minőségű beszédszintézist biztosít az írott szövegek természetes hangzású beszélt hanggá alakításához. Ez számos lehetőséget kínál a modern és interaktív felhasználói élményekhez.

Az OpenAI szöveg és a beszédhangok két modellvariánson keresztül érhetők el: Neural és NeuralHD.

  • Neural: A legkisebb késéssel rendelkező, de alacsonyabb minőséggel NeuralHDrendelkező valós idejű használati esetekre van optimalizálva.
  • NeuralHD: Minőségre optimalizálva.

Az OpenAI-hangok az Azure OpenAI Studióban és a Speech Studióban való bemutatásához tekintse meg ezt a bevezető videót.

Beszédhangok számára elérhető szöveg az Azure AI-szolgáltatásokban

Felteheti a kérdést: Ha OpenAI-szöveget szeretnék használni a beszédhanghoz, használjam az Azure OpenAI szolgáltatáson vagy az Azure AI Speechen keresztül? Milyen forgatókönyvek vezetnek az egyik vagy a másik használatához?

Minden hangmodell különböző funkciókat és képességeket kínál, így kiválaszthatja az igényeinek leginkább megfelelőt. Szeretné megismerni az Azure AI-szolgáltatásokban elérhető szövegek és beszédhangok közötti lehetőségeket és különbségeket.

Az Azure AI-szolgáltatásokban a következő szöveg és beszédhangok közül választhat:

  • Az Azure OpenAI szolgáltatásban a beszédhangok közötti openAI szövegfelolvasás. Az alábbi régiókban érhető el: USA északi középső régiója és Svédország középső régiója.
  • OpenAI text to speech voices in Azure AI Speech. Az alábbi régiókban érhető el: USA északi középső régiója és Svédország középső régiója.
  • Az Azure AI Speech szolgáltatás szövege beszédhangokra. Több tucat régióban érhető el. Tekintse meg a régiólistát.

Az Azure OpenAI szolgáltatáson vagy az Azure AI Speechen keresztül nyitja meg a beszédhangokat?

Ha OpenAI-szöveget szeretne használni a beszédhangokhoz, kiválaszthatja, hogy azOkat az Azure OpenAI-on vagy az Azure AI Speechen keresztül szeretné-e használni. Mindkét esetben a beszédszintézis eredménye ugyanaz.

Íme egy összehasonlítása az OpenAI-szövegek és az Azure OpenAI szolgáltatás beszédhangjai és az OpenAI szöveg és az Azure AI Speech beszédhangjai közötti funkciók összehasonlítása.

Szolgáltatás Azure OpenAI szolgáltatás (OpenAI-hangok) Azure AI Speech (OpenAI-hangok) Azure AI Speech-hangok
Régió USA északi középső régiója, Közép-Svédország USA északi középső régiója, Közép-Svédország Több tucat régióban érhető el. Tekintse meg a régiólistát.
Hangkultúra 6 6 Több mint 400
Többnyelvű hangszám 6 6 14
Többnyelvű nyelvi lefedettség maximális kihasználtság 57 57 77
Beszédszintézis korrektúranyelv (SSML) támogatása Nem támogatott SSML-elemek egy részhalmazának támogatása. Az SSML teljes készletének támogatása az Azure AI Speechben.
Fejlesztési lehetőségek REST API Speech SDK, Speech CLI, REST API Speech SDK, Speech CLI, REST API
Üzembe helyezési lehetőség Csak felhő Csak felhő Felhő, beágyazott, hibrid és tárolók.
Valós idejű vagy kötegszintézis Valós idejű Valós idejű és kötegszintézis Valós idejű és kötegszintézis
Késés 500 ms-nál nagyobb 500 ms-nál nagyobb kisebb, mint 300 ms
A szintetizált hang mintasebessége 24 kHz 8, 16, 24 és 48 kHz 8, 16, 24 és 48 kHz
Beszédkimenet hangformátuma opus, mp3, aac, flac opus, mp3, pcm, truesilk opus, mp3, pcm, truesilk

Az Azure AI Speechben további funkciók és képességek érhetők el, amelyek nem érhetők el OpenAI-hangokkal. Példa:

  • Az Azure AI Speechben csak az SSML-elemek egy részhalmazát támogatják az OpenAI szövegfelolvasók a beszédhangokhoz. Az Azure AI Speech-hangok támogatják az SSML-elemek teljes készletét.
  • Az Azure AI Speech támogatja a szavak határeseteit. Az OpenAI-hangok nem támogatják a szavak határeseteit.

Az OpenAI text to speech voices által támogatott SSML-elemek az Azure AI Speechben

A beszédszintézis korrektúranyelve (SSML) bemeneti szöveggel határozza meg a szöveg szerkezetét, tartalmát és egyéb jellemzőit a beszédkimenethez. Az SSML használatával például definiálhat bekezdést, mondatot, szünetet, szünetet vagy csendet. Az alkalmazás később feldolgozható eseménycímkéket, például könyvjelzőt vagy viseme-et tartalmazó szöveget tördelhet.

Az alábbi táblázat az OpenAI-szövegek és az Azure AI-beszéd beszédhangjai által támogatott Beszédszintézis korrektúranyelv (SSML) elemeit ismerteti. Az OpenAI-hangok csak az SSML-címkék alábbi részhalmazát támogatják. További információkért tekintse meg az SSML-dokumentum struktúráját és eseményeit .

SSML-elem neve Leírás
<speak> A teljes kimondandó tartalmat belefoglalja. Ez egy SSML-dokumentum gyökéreleme.
<voice> A szöveg és a beszéd kimenetéhez használt hangot adja meg.
<sub> Azt jelzi, hogy az alias attribútum szöveges értékét az elem zárt szövege helyett ki kell ejteni.
<say-as> Az elem szövegének tartalomtípusát (például számot vagy dátumot) jelzi.

Ehhez az elemhez az interpret-as összes tulajdonságérték támogatott, kivéve interpret-as="name". Például támogatott, <say-as interpret-as="date" format="dmy">10-12-2016</say-as> de <say-as interpret-as="name">ED</say-as> nem támogatott. További információ: kiejtés az SSML-vel.
<s> Mondatokat jelöl.
<lang> Azt jelzi, hogy a neurális hang milyen alapértelmezett területi beállítást ad meg a beszédhez.
<break> A szavak közötti szünetek vagy szünetek alapértelmezett viselkedésének felülbírálására használható.

Következő lépések