Személyes hang használata az alkalmazásban
A személyes hang beszélőprofil-azonosítójával szintetizálhatja a beszédet a több mint 100 területi beállításban támogatott 91 nyelv bármelyikében. Nincs szükség területi címke megadására. A személyes hang automatikus nyelvfelismerést használ a mondat szintjén.
Személyes hang integrálása az alkalmazásban
A személyes hang alkalmazásbeli használatához beszédszintézis-jelölőnyelvet (SSML) kell használnia. Az SSML egy XML-alapú korrektúranyelv, amely szabványos módot biztosít a szöveg megjelölésére a szintetikus beszéd előállításához. Az SSML-címkék a beszédszintézis kimenetének kiejtését, mennyiségét, hangmagasságát, sebességét és egyéb attribútumait szabályozzák.
Az
speakerProfileId
SSML tulajdonság a személyes hang beszélőprofil-azonosítójának megadására szolgál.A hangnév az SSML tulajdonságában
name
van megadva. Személyes hang esetén a hangnévnek az egyik támogatott alapmodell-hangnévnek kell lennie. A támogatott alapmodell-hangnevek listájának lekéréséhez használja az egyéni hang API BaseModels_List műveletét.Feljegyzés
A (például
DragonLatestNeural
vagyPhoenixLatestNeural
) címkévelLatest
ellátott hangnevek időről időre frissülnek; teljesítménye a folyamatos fejlesztésekhez szükséges frissítésektől függően változhat. Ha rögzített verziót szeretne használni, válasszon egy verziószámmal ellátottat, példáulPhoenixV2Neural
.DragonLatestNeural
egy alapmodell, amely kiváló hang klónozási hasonlósággal rendelkezik a .PhoenixLatestNeural
PhoenixLatestNeural
egy alapmodell, amely pontosabb kiejtéssel és kisebb késéssel rendelkezik, mintDragonLatestNeural
a .Személyes hang esetén az
<lang xml:lang>
elem használatával módosíthatja a beszédnyelvet. Ez ugyanaz, mint a többnyelvű hangokkal. Megtudhatja , hogyan használhatja a lang elemet különböző nyelvek beszédéhez.
Íme egy példa SSML egy szövegfelolvasási kérelemben a hang nevével és a beszélőprofil azonosítójával. A minta azt is bemutatja, hogyan válthat nyelveket en-US
zh-HK
az <lang xml:lang>
elem használatára.
<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='http://www.w3.org/2001/mstts' xml:lang='en-US'>
<voice name='DragonLatestNeural'>
<mstts:ttsembedding speakerProfileId='your speaker profile ID here'>
I'm happy to hear that you find me amazing and that I have made your trip planning easier and more fun.
<lang xml:lang='zh-HK'>我很高興聽到你覺得我很了不起,我讓你的旅行計劃更輕鬆、更有趣。</lang>
</mstts:ttsembedding>
</voice>
</speak>
Az SSML a Speech SDK-val vagy a REST API-val használható.
- Valós idejű beszédszintézis: A Speech SDK vagy a REST API használatával beszédgé alakíthatja a szöveget.
- A Speech SDK használatakor ne állítsa be a végpontazonosítót, csakúgy, mint az előre összeállított hang.
- A REST API használatakor használjon előre összeállított neurális hangvégpontot.
A személyes hang támogatott és nem támogatott SSML-elemei
A Phoenix- és Dragon-modellek támogatott és nem támogatott SSML-elemeiről az alábbi táblázatban talál részletes információt. Az SSML-elemek használatára vonatkozó utasításokért tekintse meg az SSML-dokumentum struktúráját és eseményeit.
Elem | Leírás | Támogatott a Phoenixben | Támogatott a Dragonban |
---|---|---|---|
<voice> |
Megadja a hang- és választható effektusokat (eq_car és eq_telecomhp8k ). |
Igen | Igen |
<mstts:express-as> |
Beszédstílusokat és szerepköröket határoz meg. | Nem | Nem |
<mstts:ttsembedding> |
speakerProfileId A személyes hang tulajdonságát adja meg. |
Igen | Igen |
<lang xml:lang> |
Megadja a beszélő nyelvet. | Igen | Igen |
<prosody> |
Beállítja a hangmagasságot, a körvonalat, a tartományt, a sebességet és a hangerőt. | ||
pitch |
A szöveg alapvonalát jelzi. | Nem | Nem |
contour |
A hangmagasság változásait jelöli. | Nem | Nem |
range |
A szöveg hangmagasságtartományát jelöli. | Nem | Nem |
rate |
A szöveg beszédarányát jelzi. | Igen | Igen |
volume |
A beszélő hang hangerejét jelzi. | Nem | Nem |
<emphasis> |
Hozzáadja vagy eltávolítja a szöveg szószintű terhelését. | Nem | Nem |
<audio> |
Előre felvett hang beágyazása SSML-dokumentumba. | Igen | Nem |
<mstts:audioduration> |
A kimeneti hang időtartamát adja meg. | Nem | Nem |
<mstts:backgroundaudio> |
Háttérhangot ad hozzá az SSML-dokumentumokhoz, vagy kever egy hangfájlt szöveggel a beszédhez. | Igen | Nem |
<phoneme> |
Fonetikus kiejtést ad meg az SSML-dokumentumokban. | ||
ipa |
Az egyik fonetikus ábécé. | Igen | Nem |
sapi |
Az egyik fonetikus ábécé. | Nem | Nem |
ups |
Az egyik fonetikus ábécé. | Igen | Nem |
x-sampa |
Az egyik fonetikus ábécé. | Igen | Nem |
<lexicon> |
Meghatározza, hogy több entitás hogyan olvassa be az SSML-ben. | Igen | Igen (csak támogatási alias) |
<say-as> |
Az elem szövegének tartalomtípusát (például számot vagy dátumot) jelzi. | Igen | Igen |
<sub> |
Azt jelzi, hogy az alias attribútum szöveges értékét az elem zárt szövege helyett ki kell ejteni. | Igen | Igen |
<math> |
A MathML-et használja bemeneti szövegként a matematikai jelölések helyes kiejtéséhez a kimeneti hangban. | Igen | Nem |
<bookmark> |
Lekéri az egyes jelölők eltolódását a hangstreamben. | Igen | Nem |
<break> |
Felülbírálja a szavak közötti szünetek vagy szünetek alapértelmezett viselkedését. | Igen | Igen |
<mstts:silence> |
A beszúrások szöveg előtt vagy után, illetve két szomszédos mondat közé kerülnek. | Igen | Nem |
<mstts:viseme> |
Meghatározza az arc és a száj helyzetét, miközben egy személy beszél. | Igen | Nem |
<p> |
Bekezdéseket jelöl az SSML-dokumentumokban. | Igen | Igen |
<s> |
Mondatokat jelöl az SSML-dokumentumokban. | Igen | Igen |
A személyes hang támogatott és nem támogatott SDK-funkciói
Az alábbi táblázat ismerteti, hogy mely SDK-funkciók támogatottak a Phoenix- és Dragon-modellek esetében. Az SDK-funkciók alkalmazásbeli használatáról további információt a Feliratkozás szintetizátoreseményekre című témakörben talál.
SDK-funkciók | Leírás | Támogatott a Phoenixben | Támogatott a Dragonban |
---|---|---|---|
Word-határ | Azt jelzi, hogy a szóhatárok a szintézis során érkeztek meg, pontos szóidőzítést biztosítva a beszédszintézis során. | Igen | Nem |
Viseme-események | Viseme (ajkak, állkapocs és nyelv mozgása) információkat biztosít a szintézis során, lehetővé téve a vizuális szinkronizálást. | Igen | Nem |
Referenciadokumentáció
Következő lépések
- További információ az egyéni neurális hangról az áttekintésben.
- További információ a Speech Studióról az áttekintésben.