Sdílet prostřednictvím


Přizpůsobení hlasu a zvuku pomocí SSML

Pomocí jazyka SSML (Speech Synthesis Markup Language) můžete zadat text pro hlasový hlas, jazyk, název, styl a roli pro výstup řeči. V jednom dokumentu SSML můžete také použít více hlasů a upravit důraz, rychlost mluvení, výšku a hlasitost. Kromě toho SSML nabízí možnost vkládat předem zaznamenaný zvuk, například zvukový efekt nebo hudební poznámku.

V článku se dozvíte, jak pomocí prvků SSML určit hlas a zvuk. Další informace o syntaxi SSML najdete v tématu Struktura a události dokumentu SSML.

Použití hlasových prvků

Alespoň jeden voice prvek musí být zadán v rámci každého SSML speak elementu. Tento prvek určuje hlas, který se používá pro převod textu na řeč.

Do jednoho dokumentu SSML můžete zahrnout více voice prvků. Každý voice prvek může zadat jiný hlas. Stejný hlas můžete použít i několikrát s různými nastaveními, například když změníte dobu ticha mezi větami.

Následující tabulka popisuje použití voice atributů elementu:

Atribut Popis Požadované nebo volitelné
name Hlas pro převod textu na řečový výstup. Úplný seznam podporovaných standardních hlasů najdete v tématu Podpora jazyků. Požaduje se
effect Procesor zvukového efektu, který se používá k optimalizaci kvality syntetizovaného výstupu řeči pro konkrétní scénáře na zařízeních.

U některých scénářů v produkčních prostředích může být sluchové prostředí snížené kvůli zkreslení přehrávání na určitých zařízeních. Syntetizovaná řeč z reproduktoru auta může například znít nudně a tlumeně vlivem faktorů prostředí, jako je odezva reproduktoru, ozvěna místnosti a šum na pozadí. Cestující možná bude muset zvýšit hlasitost, aby slyšeli jasněji. Aby se v takovém scénáři zabránilo ručním operacím, může procesor zvukového efektu udělat zvuk jasnější kompenzováním zkreslení přehrávání.

Podporovány jsou následující hodnoty:
  • eq_car – Optimalizujte zvukový zážitek při poskytování věrného zvuku v autech, autobusech a dalších uzavřených vozidlech.
  • eq_telecomhp8k – Optimalizujte auditivní zážitek pro úzkopásmovou řeč v telekomunikačních nebo telefonních scénářích. Měli byste použít vzorkovací frekvenci 8 kHz. Pokud vzorkovací frekvence není 8 kHz, není kvalita zvuku výstupní řeči optimalizovaná.

Pokud hodnota chybí nebo je neplatná, tento atribut se ignoruje a nepoužije se žádný efekt.
Volitelné

Příklady hlasových hovorů

Informace o podporovaných hodnotách pro atributy elementu voice naleznete v tématu Použití hlasových prvků.

Příklad s jedním hlasem

Tento příklad využívá en-US-AvaMultilingualNeural hlas.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        This is the text that is spoken.
    </voice>
</speak>

Příklad více hlasů

V rámci elementu speak můžete zadat více hlasů pro výstup převodu textu na řeč. Tyto hlasy můžou být v různých jazycích. U každého hlasu musí být text zalomený do elementu voice .

Tento příklad se střídá mezi hlasy en-US-AvaMultilingualNeural a en-US-AndrewMultilingualNeural. Neurální vícejazyčné hlasy mohou mluvit různými jazyky na základě vstupního textu.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        Good morning!
    </voice>
    <voice name="en-US-AndrewMultilingualNeural">
        Good morning to you too Ava!
    </voice>
</speak>

Příklad vlastního hlasu

Pokud chcete použít vlastní hlas, zadejte název modelu jako hlasový název v SSML.

Tento příklad používá vlastní hlas s názvem my-custom-voice.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="my-custom-voice">
        This is the text that is spoken.
    </voice>
</speak>

Příklad zvukového efektu

Tento atribut effect použijete k optimalizaci sluchové zkušenosti pro scénáře, jako jsou auta a telekomunikace. Následující příklad SSML používá atribut effect s touto konfigurací v automobilových situacích.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural" effect="eq_car">
        This is the text that is spoken.
    </voice>
</speak>

Příklad hlasu více mluvčích

Hlasy víceúčastníků umožňují přirozené, dynamické konverzace s několika různými mluvčími. Tato inovace vylepšuje realismus syntetizovaných dialogů zachováním kontextového toku, emocionální konzistence a vzorů přirozené řeči.

Pomocí této funkce můžete generovat poutavou řeč ve stylu podcastu nebo konverzační výměny s bezproblémovými přechody mezi mluvčími. Na rozdíl od modelů s jedním mluvčím, které syntetizují každý mluvený vstup izolovaně, vícemluvčí hlasy udržují soudržnost v rámci dialogu, což zajišťuje autentičtější a pohlcující poslechový zážitek.

Pro en-US-MultiTalker-Ava-Andrew:DragonHDLatestNeural, v rámci <mstts:dialog> elementu, můžete určit každý turn pro text na výstup řeči, s následujícím formátem, který se bude střídat mezi mluvčím ava a andrew pro každé z nich.

<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='https://www.w3.org/2001/mstts' xml:lang='en-US'>
    <voice name='en-US-MultiTalker-Ava-Andrew:DragonHDLatestNeural'>
        <mstts:dialog>
            <mstts:turn speaker="ava">Hello, Andrew! How's your day going?</mstts:turn>
            <mstts:turn speaker="andrew">Hey Ava! It's been great, just exploring some AI advancements in communication.</mstts:turn>
            <mstts:turn speaker="ava">That sounds interesting! What kind of projects are you working on?</mstts:turn>
            <mstts:turn speaker="andrew">Well, we've been experimenting with text-to-speech applications, including turning emails into podcasts.</mstts:turn>
            <mstts:turn speaker="ava">Wow, that could really improve content accessibility! Are you looking for collaborators?</mstts:turn>
            <mstts:turn speaker="andrew">Absolutely! We're open to testing new ideas and seeing how AI can enhance communication.</mstts:turn>
        </mstts:dialog>
    </voice>
</speak>

Podporované hlasy najdete v dokumentaci podpory jazyků .

Použití stylů a rolí pro mluvení

Ve výchozím nastavení mají neurální hlasy neutrální styl mluvení. Styl mluvení, stupeň stylu a roli můžete upravit na úrovni věty.

Poznámka:

Služba Speech podporuje styly, stupeň stylu a role pro podmnožinu neurálních hlasů, jak je popsáno v dokumentaci k hlasovým stylům a rolím . Pokud chcete určit podporované styly a role pro každý hlas, můžete také použít rozhraní API pro seznam hlasů a webovou aplikaci pro vytváření zvukového obsahu.

Následující tabulka popisuje použití mstts:express-as atributů elementu:

Atribut Popis Požadované nebo volitelné
style Styl mluvení specifický pro hlas. Můžete vyjádřit emoce, jako je veselost, empatie a klid. Hlas můžete také optimalizovat pro různé scénáře, jako je zákaznický servis, newscast a hlasový asistent. Pokud hodnota stylu chybí nebo je neplatná, celý mstts:express-as prvek se ignoruje a služba používá výchozí neutrální řeč. Vlastní styly hlasu najdete v příkladu vlastního stylu hlasu. Požaduje se
styledegree Intenzita mluvného stylu. Můžete určit silnější nebo měkčí styl, aby byla řeč výraznější nebo tlumenější. Rozsah přijatých hodnot je: od 0.01 do 2 včetně. Výchozí hodnota je 1, což znamená intenzitu předdefinovaného stylu. Minimální jednotka je 0.01, což vede k mírnému sklonu pro cílový styl. Hodnota 2 má za následek zdvojnásobení výchozí intenzity stylu. Pokud pro váš hlas chybí stupeň stylu nebo není podporován, bude tento atribut ignorován. Volitelné
role Mluvená scénka. Hlas může napodobovat jiný věk a pohlaví, ale jméno hlasu se nezmění. Například mužský hlas může zvýšit tón a změnit intonaci tak, aby napodobuje ženský hlas, ale jméno hlasu se nezmění. Pokud role chybí nebo není pro váš hlas podporovaná, bude tento atribut ignorován. Volitelné

Následující tabulka popisuje každý podporovaný style atribut:

Styl Popis
style="advertisement_upbeat" Vyjadřuje nadšený a vysoce energetický tón pro podporu produktu nebo služby.
style="affectionate" Vyjadřuje teplý a milý tón s vyšší výškou a hlasitou energií. Mluvčí je ve stavu, kdy přiláká pozornost posluchače. Osobnost mluvčího je často sympatická.
style="angry" Vyjadřuje rozzlobený a naštvaný tón.
style="assistant" Vyjadřuje teplý a uvolněný tón pro digitální asistenty.
style="calm" Vyjadřuje chladný, shromážděný a složený postoj při mluvení. Tón, výška tónu a prozodie jsou v porovnání s jinými typy řeči jednotnější.
style="chat" Vyjadřuje neformální a uvolněný tón.
style="cheerful" Vyjadřuje pozitivní a šťastný tón.
style="customerservice" Vyjadřuje přátelský a ochotný tón pro zákaznickou podporu.
style="depressed" Vyjadřuje melancholický a skleslý tón s nižší výškou a energií.
style="disgruntled" Vyjadřuje pohrdavý a stěžující si tón. Řeč této emoce zobrazuje nelibost a opovržení.
style="documentary-narration" Předčítá dokumenty v uvolněném, zajímavém a informativním stylu vhodném pro dokumenty, odborné komentáře a podobný obsah.
style="embarrassed" Vyjadřuje nejistý a hesitantní tón, když se mluvčí cítí nepříjemně.
style="empathetic" Vyjadřuje smysl pro péči a porozumění.
style="envious" Vyjadřuje tón obdivu, když si přejete něco, co má někdo jiný.
style="excited" Vyjadřuje optimistický a nadějný tón. Zní to, že se děje něco skvělého a mluvčí o tom má radost.
style="fearful" Vyjadřuje vyděšený a nervózní tón s vyšší výškou, vyšší hlasovou energií a rychlejší rychlostí. Mluvčí je ve stavu napětí a neklidu.
style="friendly" Vyjadřuje milý, lákavý a teplý tón. Zní to upřímně a pečlivě.
style="gentle" Vyjadřuje mírný, zdvořilý a příjemný tón s nižším sklonem a hlasitou energií.
style="hopeful" Vyjadřuje teplý a toužebný tón. Zní to, že se mluvčímu něco dobrého očekává.
style="lyrical" Vyjadřuje emoce melodickým a sentimentálním způsobem.
style="narration-professional" Vyjadřuje profesionální, objektivní tón pro čtení obsahu.
style="narration-relaxed" Vyjadřuje relaxační a melodické tóny pro čtení obsahu.
style="newscast" Vyjadřuje formální a profesionální tón pro předčítání zpráv.
style="newscast-casual" Vyjadřuje všestranný a neformální tón pro obecné doručování zpráv.
style="newscast-formal" Vyjadřuje formální, sebevědomý a autoritativní tón pro doručování zpráv.
style="poetry-reading" Vyjadřuje emocionální a rytmický tón při čtení básně.
style="sad" Vyjadřuje zarmoucený tón.
style="serious" Vyjadřuje striktní a příkazový tón. Řečník často zní tužší a mnohem méně uvolněně s pevnou kadencí.
style="shouting" Vyjadřuje tón, který působí dojmem, jako by hlas byl vzdálený nebo na jiném místě a snažil se být jasně slyšet.
style="sports_commentary" Vyjadřuje uvolněný a zaujatý tón pro vysílání sportovní události.
style="sports_commentary_excited" Vyjadřuje intenzivní a energetický tón pro přenos vzrušujících momentů ve sportovní události.
style="whispering" Vyjadřuje měkký tón, který se snaží vytvářet tichý a jemný zvuk.
style="terrified" Vyjadřuje vyděšený tón, s rychlejším tempem a třesoucím se hlasem. Zní to, že mluvčí je v nestabilní a zběsilém stavu.
style="unfriendly" Vyjadřuje chlad a necitlivé tóny.

Následující tabulka obsahuje popis jednotlivých podporovaných role atributů:

Role Popis
role="Girl" Hlas napodobuje dívku.
role="Boy" Hlas napodobuje chlapce.
role="YoungAdultFemale" Hlas napodobuje mladé dospělé ženy.
role="YoungAdultMale" Hlas napodobuje mladého dospělého muže.
role="OlderAdultFemale" Hlas napodobuje starší dospělé ženy.
role="OlderAdultMale" Hlas napodobuje starší dospělého muže.
role="SeniorFemale" Hlas napodobuje seniorku.
role="SeniorMale" Hlas napodobuje staršího muže.

Příklady mstts express-as

Informace o podporovaných hodnotách pro atributy elementu mstts:express-as naleznete v tématu Použití stylů a rolí mluvení.

Příklad stylu a stupně

Tento prvek používáte mstts:express-as k vyjádření emocí, jako je veselost, empatie a klid. Hlas můžete také optimalizovat pro různé scénáře, jako je zákaznický servis, newscast a hlasový asistent.

Následující příklad SSML používá prvek <mstts:express-as> se stupněm sad stylu 2.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="zh-CN">
    <voice name="zh-CN-XiaomoNeural">
        <mstts:express-as style="sad" styledegree="2">
            快走吧,路上一定要注意安全,早去早回。
        </mstts:express-as>
    </voice>
</speak>

Příklad role

Kromě úpravy stylů mluvení a stupně stylu můžete také upravit role parametr tak, aby hlas napodobuje jiný věk a pohlaví. Například mužský hlas může zvýšit tón a změnit intonaci tak, aby napodobuje ženský hlas, ale jméno hlasu se nezmění.

Tento fragment kódu SSML ukazuje, jak role se atribut používá ke změně role pro zh-CN-XiaomoNeural.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="zh-CN">
    <voice name="zh-CN-XiaomoNeural">
        女儿看见父亲走了进来,问道:
        <mstts:express-as role="YoungAdultFemale" style="calm">
            “您来的挺快的,怎么过来的?”
        </mstts:express-as>
        父亲放下手提包,说:
        <mstts:express-as role="OlderAdultMale" style="calm">
            “刚打车过来的,路上还挺顺畅。”
        </mstts:express-as>
    </voice>
</speak>

Příklad vlastního stylu hlasu

Svůj vlastní hlas můžete trénovat tak, aby mluvil s některými přednastavenými styly, jako cheerful, sad a whispering. Můžete také vyladit profesionální hlas tak, aby mluvil ve vlastním stylu podle vašich trénovacích dat. Pokud chcete použít vlastní styl hlasu v SSML, zadejte název stylu, který jste dříve zadali v sadě Speech Studio.

Tento příklad používá vlastní hlas s názvem my-custom-voice. Vlastní hlas mluví s přednastaveným stylem cheerful a stupněm stylu 2, a poté s vlastním stylem nazvaným my-custom-style a stupněm stylu 0.01.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
    <voice name="my-custom-voice">
        <mstts:express-as style="cheerful" styledegree="2">
            That'd be just amazing!
        </mstts:express-as>
        <mstts:express-as style="my-custom-style" styledegree="0.01">
            What's next?
        </mstts:express-as>
    </voice>
</speak>

ID profilu mluvčího

mstts:ttsembedding prvek slouží k určení speakerProfileId vlastnosti pro osobní hlas. Osobní hlas je vlastní hlas vytvořený na základě vašeho hlasu nebo hlasu zákazníka. Další informace najdete v tématu Vytvoření osobního hlasu.

Následující příklad SSML používá <mstts:ttsembedding> element s hlasovým jménem a ID profilu mluvčího.

<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='http://www.w3.org/2001/mstts' xml:lang='en-US'>
    <voice xml:lang='en-US' xml:gender='Male' name='PhoenixV2Neural'> 
    <mstts:ttsembedding speakerProfileId='your speaker profile ID here'> 
    I'm happy to hear that you find me amazing and that I have made your trip planning easier and more fun. 我很高兴听到你觉得我很了不起,我让你的旅行计划更轻松、更有趣。Je suis heureux d'apprendre que vous me trouvez incroyable et que j'ai rendu la planification de votre voyage plus facile et plus amusante.  
    </mstts:ttsembedding> 
    </voice> 
</speak> 

Úprava jazyků pro mluvení

Ve výchozím nastavení můžou vícejazyčné hlasy automaticky zjistit jazyk vstupního textu a mluvit v jazyce výchozího národního prostředí vstupního textu bez použití SSML. Volitelně můžete pomocí <lang xml:lang> prvku upravit jazyk mluvení pro tyto hlasy a nastavit upřednostňovaný zvýraznění, například en-GB pro britskou angličtinu. Jazyk mluvení můžete upravit na úrovni věty i na úrovni slova. Informace o podporovaných jazycích pro vícejazyčný hlas naleznete v tématu Vícejazyčné hlasy s elementem jazyka pro tabulku zobrazující <lang> definice syntaxe a atributů.

Následující tabulka popisuje použití <lang xml:lang> atributů elementu:

Atribut Popis Požadované nebo volitelné
xml:lang Jazyk, který chcete, aby neurální hlas mluvil. Vyžaduje se k úpravě jazyka mluvení pro neurální hlas. Pokud používáte lang xml:lang, musí být zadané národní prostředí.

Poznámka:

Prvek <lang xml:lang> není kompatibilní s prosody prvky a break prvky. V tomto prvku nemůžete nastavit pauzy a prozódii, jako je tón, intonační obrys, tempo nebo hlasitost.

Hlasy bez podpory vícejazyčnosti záměrně nepodporují prvek <lang xml:lang>.

Vícejazyčné hlasy s atributem lang

V části vícejazyčné hlasy můžete určit, které jazyky služba Speech podporuje pro každý neurální hlas, jak je znázorněno v následující ukázkové tabulce. Pokud hlas nemluví jazykem vstupního textu, služba Speech nevypíše syntetizovaný zvuk.

Voice Automaticky rozpoznané číslo jazyka Automaticky rozpoznaný jazyk (jazyková lokalita) Všechna číselná nastavení lokalizace Všechny jazyky (národní prostředí) podporované v SSML
en-US-AndrewMultilingualNeural 1 (Muž)
en-US-AvaMultilingualNeural 1 (Žena)
en-US-BrianMultilingualNeural 1 (Muž)
en-US-EmmaMultilingualNeural 1 (Žena)
77 Afrikaans (af-ZA), Albánština (sq-AL), Amharština (am-ET), Arabština (ar-EG), Arménština (hy-AM), Ázerbájdžánština (az-AZ), Bahasa Indonéština (id-ID), Bangla (bn-BD), Baskičtina (eu-ES), Bengálština (bn-IN), Bosenština (bs-BA), Bulharština (bg-BG), Burmština (my-MM), katalánština (ca-ES), čínština (kantonská) (zh-HK), čínština (mandarínská) (zh-CN), čínština (taiwanská) (zh-TW), chorvatština (hr-HR), čeština (cs-CZ), dánština (da-DK), holandština (nl-NL), angličtina (en-US), estonština (et-EE), filipínština (fil-PH), finština (fi-FI), francouzština (fr-FR), galicijština (gl-ES), gruzínština (ka-GE), němčina (de-DE), řečtina (el-GR), hebrejština (he-IL), hindština (hi-IN), maďarština (hu-HU), islandština (is-IS), irština (ga-IE), italština (it-IT), japonština (ja-JP), javanština (jv-ID), kazaština (kn-IN), khmerština (kk-KZ), korejština (km-KH), laoština (ko-KR), lotyština (lo-LA), litevština (lv-LV), makedonština (lt-LT), malajština (mk-MK), malajálamština (ms-MY), maltština (ml-IN), mongolština (mt-MT), nepálština (mn-MN), norština Bokmål (ne-NP), paštština (nb-NO), perština (ps-AF), polština (fa-IR), portugalština (pl-PL), rumunština (pt-BR), ruština (ro-RO), srbština (ru-RU), sinhálština (sr-RS), slovenština (si-LK), slovinština (sk-SK), somálština (sl-SI), španělština (so-SO), sundánština (es-ES), švédština (su-ID), tamilština (sw-KE), telugština (sv-SE), thajština (ta-IN), turečtina (te-IN), ukrajinština (th-TH), urdština (tr-TR), uzbečtina (uk-UA), vietnamština (ur-PK), velština (uz-UZ), zulština (vi-VN) 91 Afrikánština (Jihoafrická republika) (af-ZA), albánština (Albánie) (sq-AL), amharština (Etiopie) (am-ET), arabština (Egypt) (ar-EG), arabština (Saúdská Arábie) (ar-SA), arménština (Arménie) (hy-AM), ázerbájdžánština (Ázerbájdžán) (az-AZ), baskičtina (Baskicko) (eu-ES), bengálština (Indie) (bn-IN), bosenština (Bosna a Hercegovina) (bs-BA), bulharština (Bulharsko) (bg-BG), burmština (Myanmar) (my-MM), katalánština (Španělsko) (ca-ES), čínština (kantonština, tradiční) (zh-HK), čínština (mandarínština, zjednodušená) (zh-CN), čínština (tchajwanská mandarínština) (zh-TW), chorvatština (Chorvatsko) (hr-HR), čeština (Česko) (cs-CZ), dánština (Dánsko) (da-DK), nizozemština (Belgie) (nl-BE), nizozemština (Nizozemsko) (nl-NL), angličtina (Austrálie) (en-AU), angličtina (Kanada) (en-CA), angličtina (Hongkong SAR) (en-HK), angličtina (Indie) (en-IN), angličtina (Irsko) (en-IE), angličtina (Spojené království) (en-GB), angličtina (Spojené státy) (en-US), estonština (Estonsko) (et-EE), filipínština (Filipíny) (fil-PH), finština (Finsko) (fi-FI), francouzština (Belgie) (fr-BE), francouzština (Kanada) (fr-CA), francouzština (Francie) (fr-FR), francouzština (Švýcarsko) (fr-CH), galicijština (Galicie) (gl-ES), gruzínština (Gruzie) (ka-GE), němčina (Rakousko) (de-AT), němčina (Německo) (de-DE), němčina (Švýcarsko) (de-CH), řečtina (Řecko) (el-GR), hebrejština (Izrael) (he-IL), hindština (Indie) (hi-IN), maďarština (Maďarsko) (hu-HU), islandština (Island) (is-IS), indonéština (Indonésie) (id-ID), irština (Irsko) (ga-IE), italština (Itálie) (it-IT), japonština (Japonsko) (ja-JP), javánština (Indonésie) (jv-ID), kannadština (Indie) (kn-IN), kazaština (Kazachstán) (kk-KZ), khmerština (Kambodža) (km-KH), korejština (Korea) (ko-KR), laoština (Laos) (lo-LA), lotyština (Lotyšsko) (lv-LV), litevština (Litva) (lt-LT), makedonština (Severní Makedonie) (mk-MK), malajština (Malajsie) (ms-MY), malajálamská (Indie) (ml-IN), maltština (Malta) (mt-MT), mongolština (Mongolsko) (mn-MN), nepálština (Nepál) (ne-NP), norština (bokmål, Norsko) (nb-NO), paštština (Afghánistán) (ps-AF), perština (Írán) (fa-IR), polština (Polsko) (pl-PL), portugalština (Brazílie) (pt-BR), portugalština (Portugalsko) (pt-PT), rumunština (Rumunsko) (ro-RO), ruština (Rusko) (ru-RU), srbština (cyrilice, Srbsko) (sr-RS), sinhálština (Srí Lanka) (si-LK), slovenština (Slovensko) (sk-SK), slovinština (Slovinsko) (sl-SI), somálština (Somálsko) (so-SO), španělština (Mexiko) (es-MX), španělština (Španělsko) (es-ES), sundština (Indonésie) (su-ID), svahilština (Keňa) (sw-KE), švédština (Švédsko) (sv-SE), tamilština (Indie) (ta-IN), telugština (Indie) (te-IN), thajština (Thajsko) (th-TH), turečtina (Turecko) (tr-TR), ukrajinština (Ukrajina) (uk-UA), urdština (Pákistán) (ur-PK), uzbečtina (Uzbekistán) (uz-UZ), vietnamština (Vietnam) (vi-VN), velština (Spojené království) (cy-GB), zuluština (Jižní Afrika) (zu-ZA)

1 Jedná se o neurální vícejazyčné hlasy ve službě Azure AI Speech. Všechny vícejazyčné hlasy můžou mluvit v jazyce ve výchozím národním prostředí vstupního textu bez použití SSML. Přesto ale můžete pomocí <lang xml:lang> prvku upravit mluvený přízvuk každého jazyka a nastavit upřednostňovaný zvýraznění, jako je britský zvýraznění (en-GB) pro angličtinu. Předpona v každém hlasovém názvu označuje své primární národní prostředí; Například primární národní prostředí je en-US-AndrewMultilingualNeuralen-US.

Poznámka:

Vícejazyčné hlasy plně nepodporují určité prvky SSML, například break, emphasis, silencea sub.

Příklady jazyka

Informace o podporovaných hodnotách pro atributy elementu lang naleznete v tématu Úprava jazyka mluvení.

Musíte zadat en-US jako výchozí jazyk v elementu speak, bez ohledu na to, zda je jazyk upraven jinde. V tomto příkladu je en-US-AvaMultilingualNeuralprimární jazyk pro en-US .

Tento fragment kódu SSML ukazuje, jak použít <lang xml:lang> k mluvení s de-DE neurálním hlasem en-US-AvaMultilingualNeural .

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <lang xml:lang="de-DE">
            Wir freuen uns auf die Zusammenarbeit mit Ihnen!
        </lang>
    </voice>
</speak>

V rámci elementu speak můžete zadat více jazyků, včetně en-US pro výstup převodu textu na řeč. U každého upraveného jazyka musí text odpovídat jazyku a musí být zabalený do elementu voice . Tento fragment kódu SSML ukazuje, jak použít <lang xml:lang> ke změně jazyka mluvení na es-MX, en-USa fr-FR.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <lang xml:lang="es-MX">
            ¡Esperamos trabajar con usted!
        </lang>
        <lang xml:lang="en-US">
           We look forward to working with you!
        </lang>
        <lang xml:lang="fr-FR">
            Nous avons hâte de travailler avec vous!
        </lang>
    </voice>
</speak>

Úprava prozódie

Pomocí prvku prosody můžete určit změny ve výstupu textu na řeč, jako jsou výška, obrys, rozsah, rychlost a hlasitost. Prvek prosody může obsahovat text a následující prvky: audio, break, p, phoneme, prosody, , say-as, , sub, a s.

Vzhledem k tomu, že hodnoty atributu prosodic se můžou v širokém rozsahu lišit, interpretuje rozpoznávání řeči přiřazené hodnoty jako návrh skutečné prosodické hodnoty vybraného hlasu. Omezení textu na řeč nebo nahrazení hodnot, které nejsou podporované. Příklady nepodporovaných hodnot jsou frekvence 1 MHz nebo hlasitost 120.

Následující tabulka popisuje použití prosody atributů elementu:

Atribut Popis Požadované nebo volitelné
contour Obrys znázorňuje změny ve výšce tónu. Tyto změny jsou reprezentovány jako pole cílů v zadaných časových pozicích ve výstupu řeči. Sady párů parametrů definují každý cíl. Příklad:

<prosody contour="(0%,+20Hz) (10%,-2st) (40%,+10Hz)">

První hodnota v každé sadě parametrů určuje umístění změny sklonu v procentech doby trvání textu. Druhá hodnota určuje částku k zvýšení nebo snížení výšky tónu pomocí relativní hodnoty nebo hodnoty výčtu pro výšku tónu (viz pitch). Rozteč obrysu nefunguje u jednoduchých slov a krátkých frází. Je doporučeno upravit náčrt tónu u celých vět nebo dlouhých frází.
Volitelné
pitch Určuje základní výšku tónu pro text. Změny výšky se dají použít na úrovni vět. Změny výšky by měly být ve 0,5 až 1,5krát původní zvuk. Výšku tónu můžete vyjádřit takto:
  • Absolutní hodnota: Vyjádřeno jako číslo následované "Hz" (Hertz). Například <prosody pitch="600Hz">some text</prosody>.
  • Relativní hodnota:
    • Jako relativní číslo: Vyjádřeno jako číslo následované "+" nebo "-" a za ním "Hz" nebo "st," které určuje velikost změny zvukové výšky. Například: <prosody pitch="+80Hz">some text</prosody> nebo <prosody pitch="-2st">some text</prosody>. "st" označuje jednotku změny v podobě semitónu, což je polovina tónu (půlkrok) na standardní diatonické stupnici.
    • Procento: Vyjádřeno jako číslo před "+" (volitelně) nebo "-" a za ním "%" označující relativní změnu. Například: <prosody pitch="50%">some text</prosody> nebo <prosody pitch="-50%">some text</prosody>.
  • Konstantní hodnota:
    • x-low (ekvivalentní 0,55,-45 %)
    • low (ekvivalentní 0,8, -20 %)
    • medium (ekvivalentní 1, výchozí hodnota)
    • high (ekvivalentní 1,2, +20 %)
    • x-high (ekvivalentní 1,45, +45 %)
Volitelné
range Hodnota, která představuje rozsah rozteče textu. Můžete vyjádřit range pomocí stejných absolutních hodnot, relativních hodnot nebo hodnot výčtu použitých k popisu pitch. Volitelné
rate Označuje míru mluvení textu. Tempo řeči lze nastavit na úrovni slova nebo věty. Změny rychlosti by měly být v rozmezí 0.52 násobku původního zvuku. Můžete vyjádřit rate takto:
  • Relativní hodnota:
    • Jako relativní číslo: Vyjádřeno jako číslo, které funguje jako násobitel výchozí hodnoty. Například hodnota 1 nezpůsobí žádnou změnu v původní sazbě. Hodnota 0.5 má za následek snížení na polovinu původní sazby. Hodnota 2 způsobí, že sazba bude dvojnásobná oproti původní.
    • Procento: Vyjádřeno jako číslo před "+" (volitelně) nebo "-" a za ním "%" označující relativní změnu. Například: <prosody rate="50%">some text</prosody> nebo <prosody rate="-50%">some text</prosody>.
  • Konstantní hodnota:
    • x-slow (ekvivalentní 0,5, -50 %)
    • slow (ekvivalentní 0,64, -46 %)
    • medium (ekvivalentní 1, výchozí hodnota)
    • fast (ekvivalentní 1,55, +55 %)
    • x-fast (ekvivalentní 2, +100 %)
Volitelné
volume Označuje úroveň hlasitosti hlasového hlasu. Změny hlasitosti lze použít na úrovni věty. Objem můžete vyjádřit takto:
  • Absolutní hodnota: Vyjádřeno jako číslo v rozsahu 0.0 do 100.0, od nejtiššího po nejhlasitější, například 75. Výchozí hodnota je 100.0.
  • Relativní hodnota:
    • Jako relativní číslo: Vyjádřeno jako číslo před "+" nebo "-", které určuje množství, které má změnit objem. Příklady jsou +10 nebo -5.5.
    • Procento: Vyjádřeno jako číslo před "+" (volitelně) nebo "-" a za ním "%" označující relativní změnu. Například: <prosody volume="50%">some text</prosody> nebo <prosody volume="+3%">some text</prosody>.
  • Konstantní hodnota:
    • silent (ekvivalentní 0)
    • x-soft (ekvivalentní 0,2)
    • soft (ekvivalentní 0,4)
    • medium (ekvivalentní 0,6)
    • loud (ekvivalentní 0,8)
    • x-loud (ekvivalentní 1, výchozí hodnota)
Volitelné

Příklady prosody

Informace o podporovaných hodnotách pro atributy elementu prosody naleznete v části Adjust prosody.

Příklad změny míry mluvení

Tento fragment kódu SSML ukazuje, jak rate se atribut používá ke změně míry mluvení na 30 % vyšší než výchozí rychlost.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <prosody rate="+30.00%">
            Enjoy using text to speech.
        </prosody>
    </voice>
</speak>

Příklad změny hlasitosti

Tento fragment kódu SSML ukazuje, jak volume se atribut používá ke změně svazku na 20 % větší než výchozí svazek.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <prosody volume="+20.00%">
            Enjoy using text to speech.
        </prosody>
    </voice>
</speak>

Příklad změny výšky tónu

Tento fragment kódu SSML ukazuje, jak se atribut pitch používá, aby hlas mluvil ve vysokém rozsahu.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        Welcome to <prosody pitch="high">Enjoy using text to speech.</prosody>
    </voice>
</speak>

Změna obrysu rozteče – příklad

Tento fragment kódu SSML ukazuje, jak contour se atribut používá ke změně obrysu.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <prosody contour="(60%,-60%) (100%,+80%)" >
            Were you the only person in the room?
        </prosody>
    </voice>
</speak>

Úprava zvýraznění

Můžete použít volitelný prvek emphasis k přidání nebo odebrání přízvuku na úrovni slova pro text. Tento prvek může obsahovat pouze text a následující prvky: audio, break, emphasis, lang, phoneme, prosody, , say-assuba voice.

Poznámka:

Ladění na úrovni slov je k dispozici pouze pro tyto neurální hlasy: en-US-GuyNeural, en-US-DavisNeurala en-US-JaneNeural.

U slov, která mají nízkou výšku tónu a krátkou dobu trvání, nemusí být výška tónu dostatečně zvýšena, aby to bylo patrné.

Následující tabulka popisuje atributy elementu emphasis :

Atribut Popis Požadované nebo volitelné
level Označuje sílu důrazu, který má být použit:
  • reduced
  • none
  • moderate
  • strong

level Pokud není atribut zadán, výchozí úroveň je moderate. Podrobnosti o jednotlivých atributech najdete v tématu zvýraznění elementu.
Volitelné

Příklady důrazu

Informace o podporovaných hodnotách pro atributy elementu emphasis naleznete v tématu Úprava zdůraznění.

Tento fragment kódu SSML ukazuje, jak můžete pomocí elementu emphasis přidat střední úroveň zdůraznění slova "meetings".

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
    <voice name="en-US-AndrewMultilingualNeural">
    I can help you join your <emphasis level="moderate">meetings</emphasis> fast.
    </voice>
</speak>

Přidání nahraného zvuku

Prvek audio je nepovinný. Můžete ho použít k vložení předem zaznamenaného zvuku do dokumentu SSML. Tělo elementu audio může obsahovat prostý text nebo mluvený kód SSML, pokud zvukový soubor není k dispozici nebo nelze přehrát. Prvek audio může obsahovat také text a následující prvky: audio, break, p, s, phoneme, , prosody, , say-as, a sub.

Veškerý zvuk, který je součástí dokumentu SSML, musí splňovat tyto požadavky:

  • Zvukový soubor musí být platný *.mp3, *.wav, *.opus, *.ogg, *.flac nebo *.wma soubory.
  • Celková doba všech textových a zvukových souborů v jedné odpovědi nesmí překročit 600 sekund.
  • Zvuk nesmí obsahovat žádné citlivé informace specifické pro zákazníky ani jiné citlivé informace.

Poznámka:

audio prvek není podporován API pro dlouhý zvuk. Pro dlouhý text na řeč použijte místo toho rozhraní API pro dávkovou syntézu.

Následující tabulka popisuje použití audio atributů elementu:

Atribut Popis Požadované nebo volitelné
src Místo URI zvukového souboru. Zvuk musí být hostovaný na koncovém bodu HTTPS přístupném z internetu. Vyžaduje se HTTPS. Doména, která soubor hostuje, musí obsahovat platný důvěryhodný certifikát TLS/SSL. Pokud chcete minimalizovat latenci, měli byste zvukový soubor umístit do služby Blob Storage ve stejné oblasti Azure jako koncový bod pro převod textu na řeč. Požaduje se

Příklady zvuku

Informace o podporovaných hodnotách pro atributy elementu audio naleznete v tématu Přidání nahraného zvuku.

Tento fragment kódu SSML ukazuje, jak pomocí src atributu vložit zvuk ze dvou .wav souborů.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <p>
            <audio src="https://contoso.com/opinionprompt.wav"/>
            Thanks for offering your opinion. Please begin speaking after the beep.
            <audio src="https://contoso.com/beep.wav">
                Could not play the beep, please voice your opinion now.
            </audio>
        </p>
    </voice>
</speak>

Úprava doby trvání zvuku

Pomocí elementu mstts:audioduration nastavte dobu trvání výstupního zvuku. Tento prvek slouží k synchronizaci časování dokončení zvukového výstupu. Doba trvání zvuku lze zkrátit nebo prodloužit na 0.52násobek původní rychlosti zvuku. Původní zvuk je zvuk bez jakéhokoli jiného nastavení rychlosti. Míra mluvení se zpomalí nebo se odpovídajícím způsobem zpomalí na základě nastavené hodnoty.

Nastavení doby trvání zvuku platí pro veškerý vstupní text v rámci jeho ohraničujícího voice prvku. Pokud chcete nastavení doby trvání zvuku resetovat nebo změnit znovu, musíte použít nový voice prvek se stejným hlasem nebo jiným hlasem.

Následující tabulka popisuje použití mstts:audioduration atributů elementu:

Atribut Popis Požadované nebo volitelné
value Požadovaná doba trvání výstupního zvuku v sekundách, například 2sv milisekundách, například 2000ms.

Maximální hodnota pro dobu trvání výstupního zvuku je 300 sekund. Tato hodnota by měla být v rozmezí 0.5 od 2 času původního zvuku bez jakéhokoli jiného nastavení rychlosti. Pokud je například požadovaná doba trvání zvuku 30s, musí být původní zvuk v rozmezí 15 až 60 sekund. Pokud nastavíte hodnotu mimo tyto hranice, doba trvání se nastaví podle odpovídajícího minimálního nebo maximálního násobku. Pro výstupní zvuk delší než 300 sekund nejprve vygenerujte původní zvuk bez jakéhokoli jiného nastavení rychlosti a pak vypočítejte rychlost, která se upraví pomocí prosody rychlosti, abyste dosáhli požadované doby trvání.
Požaduje se

Ukázky délky trvání zvuku mstts

Informace o podporovaných hodnotách pro atributy elementu mstts:audioduration naleznete v tématu Úprava doby trvání zvuku.

V tomto příkladu je původní zvuk přibližně 15 sekund. Prvek mstts:audioduration se používá k nastavení doby trvání zvuku na 20 sekund nebo 20s.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" xml:lang="en-US">
<voice name="en-US-AvaMultilingualNeural">
<mstts:audioduration value="20s"/>
If we're home schooling, the best we can do is roll with what each day brings and try to have fun along the way.
A good place to start is by trying out the slew of educational apps that are helping children stay happy and smash their schooling at the same time.
</voice>
</speak>

Přidání zvuku na pozadí

Tento prvek mstts:backgroundaudio můžete použít k přidání zvuku na pozadí do dokumentů SSML nebo ke kombinaci zvukového souboru se syntézou řeči. S mstts:backgroundaudio můžete na pozadí smyčkovat zvukový soubor, zeslabit na začátku přehrávání textu na řeč a zeslabit na konci přehrávání textu na řeč.

Pokud je poskytnutý zvuk na pozadí kratší než text na řeč nebo zeslabení, zvuk se opakuje. Pokud je delší než převod textu na řeč, zastaví se, až se dokončí zeslábnutí.

Pro každý dokument SSML je povolený jenom jeden zvukový soubor na pozadí. Můžete prokládat značky audio uvnitř elementu voice a přidat tak více zvuku do dokumentu SSML.

Poznámka:

Prvek mstts:backgroundaudio by měl být vložen před všechny voice prvky. Pokud je specifikováno, musí to být první podřízený element speak.

mstts:backgroundaudio prvek není podporován API pro dlouhý zvuk. U dlouhého textu na řeč použijte místo toho rozhraní API pro dávkovou syntézu (Preview).

Následující tabulka popisuje použití mstts:backgroundaudio atributů elementu:

Atribut Popis Požadované nebo volitelné
src Umístění identifikátoru URI zvukového souboru na pozadí. Požaduje se
volume Hlasitost zvukového souboru na pozadí. Akceptované hodnoty: 0100 včetně. Výchozí hodnota je 1. Volitelné
fadein Doba trvání postupného zesílení zvuku na pozadí v milisekundách. Výchozí hodnota je 0, což je ekvivalentem k žádnému prolnutí. Akceptované hodnoty: 010000 včetně. Volitelné
fadeout Doba trvání ztišení zvukového pozadí v milisekundách. Výchozí hodnota je 0, což je ekvivalentem žádného zmizení. Akceptované hodnoty: 0 až po 10000 včetně. Volitelné

Příklady mstss backgroundaudio

Informace o podporovaných hodnotách pro atributy elementu mstts:backgroundaudi naleznete v tématu Přidání zvuku na pozadí.

<speak version="1.0" xml:lang="en-US" xmlns:mstts="http://www.w3.org/2001/mstts">
    <mstts:backgroundaudio src="https://contoso.com/sample.wav" volume="0.7" fadein="3000" fadeout="4000"/>
    <voice name="en-US-AvaMultilingualNeural">
        The text provided in this document are spoken over the background audio.
    </voice>
</speak>

Element Viseme

Viseme je vizuální popis fonemu v mluveném jazyce. Definuje pozici obličeje a úst, když člověk mluví. V SSML můžete použít element mstts:viseme k vyžádání výstupu viseme. Další informace najdete v tématu Získání pozice obličeje pomocí viseme.

Nastavení viseme se použije u veškerého vstupního textu v rámci jeho ohraničujícího voice prvku. Pokud chcete nastavení viseme resetovat nebo změnit znovu, musíte použít nový voice prvek se stejným hlasem nebo jiným hlasem.

viseme Použití atributů elementu je popsáno v následující tabulce.

Atribut Popis Požadované nebo volitelné
type Typ výstupu viseme.
  • redlips_front – synchronizace pohybu rtů s ID viseme a posunem zvukového výstupu
  • FacialExpression – prolnutí výstupu obrazců
Požaduje se

Poznámka:

redlips_front V současné době podporuje pouze neurální hlasy v jazykové lokalitě en-US, zatímco FacialExpression podporuje neurální hlasy v jazykových lokalitách en-US a zh-CN.

Příklady visémů

Podporované hodnoty atributů elementu viseme byly popsány dříve.

Tento fragment kódu SSML ukazuje, jak požádat o kombinování obrazců s syntetizovanou řečí.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" xml:lang="en-US">
  <voice name="en-US-AvaNeural">
    <mstts:viseme type="FacialExpression"/>
    Rainbow has seven colors: Red, orange, yellow, green, blue, indigo, and violet.
  </voice>
</speak>

Prvek převodu hlasu

Převod hlasu (Preview) je proces transformace hlasových charakteristik daného zvuku na cílový hlasový reproduktor. Po převodu hlasu si výsledný zvuk rezervuje lingvistický obsah a prosody zdrojového zvuku, zatímco zvukový timbre zní jako cílový reproduktor. Další informace najdete v tématu převodu hlasu.

Pomocí značky <mstts:voiceconversion> prostřednictvím jazyka SSML (Speech Synthesis Markup Language) zadejte zdrojovou adresu URL zvuku a cílový hlas pro převod. Úplný seznam podporovaných cílových hlasů najdete v části Podporované hlasy pro převod hlasu.

Následující tabulka popisuje použití mstts:voiceconversion atributů elementu:

Atribut Popis Požadované nebo volitelné
url Adresa URL zdrojového zvukového souboru, který poskytuje lingvistický obsah a prosody syntetizované řeči.

Musí url být přístupný přes adresu URL HTTPS. Například https://example.com/source.wav

Vstupní zvuk musí být pod 100 MB.
Požaduje se

Jak funguje převod hlasu:

  • Zdrojový zvuk je předem zaznamenaný zvukový soubor, který obsahuje mluvená slova a prosody.
    • Textový obsah: Poslední syntetizovaná řeč se řídí mluveným slovem ve zdrojovém zvuku.
    • Prosodie a rytmus: Mluva zachovává načasování a intonaci podle zdroje.
  • Značka <voice> určuje cílový hlas používaný pro výstupní zvuk. Informace o podporovaných cílových hlasech najdete v tématu Podporované hlasy pro převod hlasu.
  • Výstup zvuku uchovává tón (tón a kvalitu hlasu) cílového hlasu, ale sleduje text a styl mluvení zdrojového zvuku.

Poznámka:

Všechny prvky SSML související s prosodií a výslovností, jako <prosody> nebo <mstts:express-as>, jsou ignorovány.

Textové zadání je volitelné a veškerý text, který je součástí SSML, se při vykreslování ignoruje.

Příklady konverze hlasu pomocí mstss

Následující příklad ukazuje, jak použít <mstts:voiceconversion> k syntetizaci řeči pomocí cílového neurálního hlasu při porovnávání obsahu i prosody daného zdrojového zvuku:

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
    <voice xml:lang="en-US" xml:gender="Female" name="en-US-AvaMultilingualNeural">
        <mstts:voiceconversion url="https://your.blob.core.windows.net/sourceaudio.wav"/>
    </voice>
</speak>

Další kroky