Személyes hang használata az alkalmazásban

Cikk
09/26/2024

A személyes hang beszélőprofil-azonosítójával szintetizálhatja a beszédet a több mint 100 területi beállításban támogatott 91 nyelv bármelyikében. Nincs szükség területi címke megadására. A személyes hang automatikus nyelvfelismerést használ a mondat szintjén.

Személyes hang integrálása az alkalmazásban

A személyes hang alkalmazásbeli használatához beszédszintézis-jelölőnyelvet (SSML) kell használnia. Az SSML egy XML-alapú korrektúranyelv, amely szabványos módot biztosít a szöveg megjelölésére a szintetikus beszéd előállításához. Az SSML-címkék a beszédszintézis kimenetének kiejtését, mennyiségét, hangmagasságát, sebességét és egyéb attribútumait szabályozzák.

Az speakerProfileId SSML tulajdonság a személyes hang beszélőprofil-azonosítójának megadására szolgál.
A hangnév az SSML tulajdonságában name van megadva. Személyes hang esetén a hangnévnek az egyik támogatott alapmodell-hangnévnek kell lennie. A támogatott alapmodell-hangnevek listájának lekéréséhez használja az egyéni hang API BaseModels_List műveletét.

Feljegyzés

A (például DragonLatestNeural vagy PhoenixLatestNeural) címkével Latestellátott hangnevek időről időre frissülnek; teljesítménye a folyamatos fejlesztésekhez szükséges frissítésektől függően változhat. Ha rögzített verziót szeretne használni, válasszon egy verziószámmal ellátottat, például PhoenixV2Neural.
DragonLatestNeuralegy alapmodell, amely kiváló hang klónozási hasonlósággal rendelkezik a .PhoenixLatestNeural PhoenixLatestNeural egy alapmodell, amely pontosabb kiejtéssel és kisebb késéssel rendelkezik, mint DragonLatestNeurala .
Személyes hang esetén az <lang xml:lang> elem használatával módosíthatja a beszédnyelvet. Ez ugyanaz, mint a többnyelvű hangokkal. Megtudhatja , hogyan használhatja a lang elemet különböző nyelvek beszédéhez.

Íme egy példa SSML egy szövegfelolvasási kérelemben a hang nevével és a beszélőprofil azonosítójával. A minta azt is bemutatja, hogyan válthat nyelveket en-US zh-HK az <lang xml:lang> elem használatára.

<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='http://www.w3.org/2001/mstts' xml:lang='en-US'>
    <voice name='DragonLatestNeural'> 
        <mstts:ttsembedding speakerProfileId='your speaker profile ID here'> 
            I'm happy to hear that you find me amazing and that I have made your trip planning easier and more fun. 
            <lang xml:lang='zh-HK'>我很高興聽到你覺得我很了不起，我讓你的旅行計劃更輕鬆、更有趣。</lang>
        </mstts:ttsembedding> 
    </voice> 
</speak>

Az SSML a Speech SDK-val vagy a REST API-val használható.

Valós idejű beszédszintézis: A Speech SDK vagy a REST API használatával beszédgé alakíthatja a szöveget.
- A Speech SDK használatakor ne állítsa be a végpontazonosítót, csakúgy, mint az előre összeállított hang.
- A REST API használatakor használjon előre összeállított neurális hangvégpontot.

A személyes hang támogatott és nem támogatott SSML-elemei

A Phoenix- és Dragon-modellek támogatott és nem támogatott SSML-elemeiről az alábbi táblázatban talál részletes információt. Az SSML-elemek használatára vonatkozó utasításokért tekintse meg az SSML-dokumentum struktúráját és eseményeit.

Elem	Leírás	Támogatott a Phoenixben	Támogatott a Dragonban
`<voice>`	Megadja a hang- és választható effektusokat (`eq_car` és `eq_telecomhp8k`).	Igen	Igen
`<mstts:express-as>`	Beszédstílusokat és szerepköröket határoz meg.	Nem	Nem
`<mstts:ttsembedding>`	`speakerProfileId` A személyes hang tulajdonságát adja meg.	Igen	Igen
`<lang xml:lang>`	Megadja a beszélő nyelvet.	Igen	Igen
`<prosody>`	Beállítja a hangmagasságot, a körvonalat, a tartományt, a sebességet és a hangerőt.
`pitch`	A szöveg alapvonalát jelzi.	Nem	Nem
`contour`	A hangmagasság változásait jelöli.	Nem	Nem
`range`	A szöveg hangmagasságtartományát jelöli.	Nem	Nem
`rate`	A szöveg beszédarányát jelzi.	Igen	Igen
`volume`	A beszélő hang hangerejét jelzi.	Nem	Nem
`<emphasis>`	Hozzáadja vagy eltávolítja a szöveg szószintű terhelését.	Nem	Nem
`<audio>`	Előre felvett hang beágyazása SSML-dokumentumba.	Igen	Nem
`<mstts:audioduration>`	A kimeneti hang időtartamát adja meg.	Nem	Nem
`<mstts:backgroundaudio>`	Háttérhangot ad hozzá az SSML-dokumentumokhoz, vagy kever egy hangfájlt szöveggel a beszédhez.	Igen	Nem
`<phoneme>`	Fonetikus kiejtést ad meg az SSML-dokumentumokban.
`ipa`	Az egyik fonetikus ábécé.	Igen	Nem
`sapi`	Az egyik fonetikus ábécé.	Nem	Nem
`ups`	Az egyik fonetikus ábécé.	Igen	Nem
`x-sampa`	Az egyik fonetikus ábécé.	Igen	Nem
`<lexicon>`	Meghatározza, hogy több entitás hogyan olvassa be az SSML-ben.	Igen	Igen (csak támogatási alias)
`<say-as>`	Az elem szövegének tartalomtípusát (például számot vagy dátumot) jelzi.	Igen	Igen
`<sub>`	Azt jelzi, hogy az alias attribútum szöveges értékét az elem zárt szövege helyett ki kell ejteni.	Igen	Igen
`<math>`	A MathML-et használja bemeneti szövegként a matematikai jelölések helyes kiejtéséhez a kimeneti hangban.	Igen	Nem
`<bookmark>`	Lekéri az egyes jelölők eltolódását a hangstreamben.	Igen	Nem
`<break>`	Felülbírálja a szavak közötti szünetek vagy szünetek alapértelmezett viselkedését.	Igen	Igen
`<mstts:silence>`	A beszúrások szöveg előtt vagy után, illetve két szomszédos mondat közé kerülnek.	Igen	Nem
`<mstts:viseme>`	Meghatározza az arc és a száj helyzetét, miközben egy személy beszél.	Igen	Nem
`<p>`	Bekezdéseket jelöl az SSML-dokumentumokban.	Igen	Igen
`<s>`	Mondatokat jelöl az SSML-dokumentumokban.	Igen	Igen

A személyes hang támogatott és nem támogatott SDK-funkciói

Az alábbi táblázat ismerteti, hogy mely SDK-funkciók támogatottak a Phoenix- és Dragon-modellek esetében. Az SDK-funkciók alkalmazásbeli használatáról további információt a Feliratkozás szintetizátoreseményekre című témakörben talál.

SDK-funkciók	Leírás	Támogatott a Phoenixben	Támogatott a Dragonban
Word-határ	Azt jelzi, hogy a szóhatárok a szintézis során érkeztek meg, pontos szóidőzítést biztosítva a beszédszintézis során.	Igen	Nem
Viseme-események	Viseme (ajkak, állkapocs és nyelv mozgása) információkat biztosít a szintézis során, lehetővé téve a vizuális szinkronizálást.	Igen	Nem

Referenciadokumentáció

Egyéni hang REST API-referenciadokumentáció

Következő lépések

További információ az egyéni neurális hangról az áttekintésben.
További információ a Speech Studióról az áttekintésben.

Megosztás a következőn keresztül: