Személyes hang használata az alkalmazásban
A személyes hang beszélőprofil-azonosítójával szintetizálhatja a beszédet a több mint 100 területi beállításban támogatott 91 nyelv bármelyikében. Nincs szükség területi címke megadására. A személyes hang automatikus nyelvfelismerést használ a mondat szintjén.
Személyes hang integrálása az alkalmazásban
A személyes hang alkalmazásbeli használatához beszédszintézis-jelölőnyelvet (SSML) kell használnia. Az SSML egy XML-alapú korrektúranyelv, amely szabványos módot biztosít a szöveg megjelölésére a szintetikus beszéd előállításához. Az SSML-címkék a beszédszintézis kimenetének kiejtését, mennyiségét, hangmagasságát, sebességét és egyéb attribútumait szabályozzák.
Az
speakerProfileId
SSML tulajdonság a személyes hang beszélőprofil-azonosítójának megadására szolgál.A hangnév az SSML tulajdonságában
name
van megadva. Személyes hang esetén a hangnévnek az egyik támogatott alapmodell-hangnévnek kell lennie. A támogatott alapmodell-hangnevek listájának lekéréséhez használja az egyéni hang API BaseModels_List műveletét.Feljegyzés
A (például
DragonLatestNeural
vagyPhoenixLatestNeural
) címkévelLatest
ellátott hangnevek időről időre frissülnek; teljesítménye a folyamatos fejlesztésekhez szükséges frissítésektől függően változhat. Ha rögzített verziót szeretne használni, válasszon egy verziószámmal ellátottat, példáulPhoenixV2Neural
.DragonLatestNeural
egy alapmodell, amely kiváló hang klónozási hasonlósággal rendelkezik a .PhoenixLatestNeural
PhoenixLatestNeural
egy alapmodell, amely pontosabb kiejtéssel és kisebb késéssel rendelkezik, mintDragonLatestNeural
a .Személyes hang esetén az
<lang xml:lang>
elem használatával módosíthatja a beszédnyelvet. Ez ugyanaz, mint a többnyelvű hangokkal. Megtudhatja , hogyan használhatja a lang elemet különböző nyelvek beszédéhez.
Íme egy példa SSML egy szövegfelolvasási kérelemben a hang nevével és a beszélőprofil azonosítójával. A minta azt is bemutatja, hogyan válthat nyelveket en-US
zh-HK
az <lang xml:lang>
elem használatára.
<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='http://www.w3.org/2001/mstts' xml:lang='en-US'>
<voice name='DragonLatestNeural'>
<mstts:ttsembedding speakerProfileId='your speaker profile ID here'>
I'm happy to hear that you find me amazing and that I have made your trip planning easier and more fun.
<lang xml:lang='zh-HK'>我很高興聽到你覺得我很了不起,我讓你的旅行計劃更輕鬆、更有趣。</lang>
</mstts:ttsembedding>
</voice>
</speak>
Az SSML a Speech SDK-val vagy a REST API-val használható.
- Valós idejű beszédszintézis: A Speech SDK vagy a REST API használatával beszédgé alakíthatja a szöveget.
- A Speech SDK használatakor ne állítsa be a végpontazonosítót, csakúgy, mint az előre összeállított hang.
- A REST API használatakor használjon előre összeállított neurális hangvégpontot.
Referenciadokumentáció
Következő lépések
- További információ az egyéni neurális hangról az áttekintésben.
- További információ a Speech Studióról az áttekintésben.
Visszajelzés
https://aka.ms/ContentUserFeedback.
Hamarosan elérhető: 2024-ben fokozatosan kivezetjük a GitHub-problémákat a tartalom visszajelzési mechanizmusaként, és lecseréljük egy új visszajelzési rendszerre. További információ:Visszajelzés küldése és megtekintése a következőhöz: