Delen via


Stem en geluid aanpassen met SSML

U kunt SSML (Speech Synthesis Markup Language) gebruiken om de tekst op te geven voor spraakstem, taal, naam, stijl en rol voor uw spraakuitvoer. U kunt ook meerdere stemmen in één SSML-document gebruiken en de nadruk, spreeksnelheid, toonhoogte en volume aanpassen. Daarnaast biedt SSML de mogelijkheid om vooraf opgenomen audio in te voegen, zoals een geluidseffect of een muzieknotitie.

In het artikel wordt beschreven hoe u SSML-elementen gebruikt om spraak en geluid op te geven. Zie de SSML-documentstructuur en -gebeurtenissen voor meer informatie over de SSML-syntaxis.

Spraakelementen gebruiken

Er moet ten minste één voice-element worden opgegeven binnen elk SSML-speak-element. Dit element bepaalt de stem die wordt gebruikt voor tekst naar spraak.

U kunt meerdere voice elementen opnemen in één SSML-document. Elk voice element kan een andere stem opgeven. U kunt dezelfde stem ook meerdere keren gebruiken met verschillende instellingen, zoals wanneer u de stilteduur tussen zinnen wijzigt.

In de volgende tabel wordt het gebruik van de kenmerken van het voice element beschreven:

Kenmerk Beschrijving Vereist of optioneel
name De stem die wordt gebruikt voor tekst-naar-spraakuitvoer. Zie Taalondersteuning voor een volledige lijst met ondersteunde standaardstemmen. Vereist
effect De audio-effectprocessor die wordt gebruikt om de kwaliteit van de gesynthetiseerde spraakuitvoer te optimaliseren voor specifieke scenario's op apparaten.

Voor sommige scenario's in productieomgevingen kan de auditieve ervaring worden verminderd vanwege de afspeelvertekening op bepaalde apparaten. De gesynthetiseerde spraak van een autoluidspreker klinkt bijvoorbeeld saai en gedempt vanwege omgevingsfactoren zoals sprekerrespons, ruimtereverberatie en achtergrondgeluid. De passagier moet het volume misschien hoger zetten om duidelijker te horen. Om handmatige bewerkingen in een dergelijk scenario te voorkomen, kan de audio-effectprocessor het geluid duidelijker maken door de vervorming van het afspelen te compenseren.

De volgende waarden worden ondersteund:
  • eq_car – Optimaliseer de auditieve ervaring bij het leveren van hoogwaardige spraak in auto's, bussen en andere ingesloten voertuigen.
  • eq_telecomhp8k – Optimaliseer de auditieve ervaring voor smalbandspraak in telecom- of telefoonscenario's. U moet een steekproeffrequentie van 8 kHz gebruiken. Als de steekproeffrequentie niet 8 kHz is, is de auditieve kwaliteit van de uitvoerspraak niet geoptimaliseerd.

Als de waarde ontbreekt of ongeldig is, wordt dit kenmerk genegeerd en wordt er geen effect toegepast.
Optioneel

Spraakvoorbeelden

Zie Spraakelementen gebruiken voor informatie over de ondersteunde waarden voor kenmerken van het voice element.

Voorbeeld van één stem

In dit voorbeeld wordt de en-US-AvaMultilingualNeural stem gebruikt.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        This is the text that is spoken.
    </voice>
</speak>

Voorbeeld van meerdere stemmen

Binnen het speak element kunt u meerdere stemmen opgeven voor tekst-naar-spraakuitvoer. Deze stemmen kunnen in verschillende talen zijn. Voor elke stem moet de tekst in een voice element worden verpakt.

In dit voorbeeld wordt er afgewisseld tussen de en-US-AvaMultilingualNeural en en-US-AndrewMultilingualNeural stemmen. De neurale meertalige stemmen kunnen verschillende talen spreken op basis van de invoertekst.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        Good morning!
    </voice>
    <voice name="en-US-AndrewMultilingualNeural">
        Good morning to you too Ava!
    </voice>
</speak>

Voorbeeld van aangepaste spraak

Als u uw aangepaste stem wilt gebruiken, geeft u de modelnaam op als de spraaknaam in SSML.

In dit voorbeeld wordt een aangepaste stem met de naam my-custom-voice gebruikt.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="my-custom-voice">
        This is the text that is spoken.
    </voice>
</speak>

Voorbeeld van audio-effect

U gebruikt het effect kenmerk om de auditieve ervaring te optimaliseren voor scenario's zoals auto's en telecommunicatie. In het volgende SSML-voorbeeld wordt het effect kenmerk gebruikt met de configuratie in autoscenario's.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural" effect="eq_car">
        This is the text that is spoken.
    </voice>
</speak>

Voorbeeld van spraak met meerdere sprekers

Meerdere stemmen maken natuurlijke, dynamische gesprekken mogelijk met verschillende sprekers. Deze innovatie verbetert het realisme van gesynthetiseerde dialogen door contextuele stroom, emotionele consistentie en natuurlijke spraakpatronen te behouden.

Gebruik deze mogelijkheid om aantrekkelijke spraak- of gespreksuitwisselingen in podcaststijl te genereren met naadloze overgangen tussen sprekers. In tegenstelling tot modellen met één spreker, die elke beurt geïsoleerd maken, behouden stemmen met meerdere sprekers de samenhang in de dialoog en zorgen ze voor een meer authentieke en meeslepende luisterervaring.

Voor en-US-MultiTalker-Ava-Andrew:DragonHDLatestNeural kunt u binnen het <mstts:dialog> element elke beurt voor de tekst-naar-spraakuitvoer specificeren, met het onderstaande formaat om te wisselen tussen de spreker ava en andrew voor elke beurt.

<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='https://www.w3.org/2001/mstts' xml:lang='en-US'>
    <voice name='en-US-MultiTalker-Ava-Andrew:DragonHDLatestNeural'>
        <mstts:dialog>
            <mstts:turn speaker="ava">Hello, Andrew! How's your day going?</mstts:turn>
            <mstts:turn speaker="andrew">Hey Ava! It's been great, just exploring some AI advancements in communication.</mstts:turn>
            <mstts:turn speaker="ava">That sounds interesting! What kind of projects are you working on?</mstts:turn>
            <mstts:turn speaker="andrew">Well, we've been experimenting with text-to-speech applications, including turning emails into podcasts.</mstts:turn>
            <mstts:turn speaker="ava">Wow, that could really improve content accessibility! Are you looking for collaborators?</mstts:turn>
            <mstts:turn speaker="andrew">Absolutely! We're open to testing new ideas and seeing how AI can enhance communication.</mstts:turn>
        </mstts:dialog>
    </voice>
</speak>

Zie de documentatie voor taalondersteuning voor ondersteunde stemmen.

Spreekstijlen en -rollen gebruiken

Neurale stemmen hebben standaard een neutrale spreekstijl. U kunt de spreekstijl, stijlgraad en rol aanpassen op zinsniveau.

Notitie

De Speech-service ondersteunt stijlen, stijlgraden en rollen voor een subset van neurale stemmen, zoals beschreven in de documentatie over spraakstijlen en -rollen . Als u de ondersteunde stijlen en rollen voor elke stem wilt bepalen, kunt u ook de API voor lijststemmen en de webtoepassing voor het maken van audio-inhoud gebruiken.

In de volgende tabel wordt het gebruik van de kenmerken van het mstts:express-as element beschreven:

Kenmerk Beschrijving Vereist of optioneel
style De spraakspecifieke spreekstijl. Je kunt emoties uitdrukken zoals vrolijkheid, empathie en kalmte. U kunt de stem ook optimaliseren voor verschillende scenario's, zoals klantenservice, nieuwscast en spraakassistent. Als de stijlwaarde ontbreekt of ongeldig is, wordt het hele mstts:express-as element genegeerd en gebruikt de service de standaardneutrale spraak. Zie het voorbeeld van de aangepaste spraakstijl. Vereist
styledegree De intensiteit van de spreekstijl. U kunt een sterkere of zachtere stijl opgeven om de spraak meer expressiever of subtieler te maken. Het bereik van geaccepteerde waarden is: 0.01 inclusief 2 . De standaardwaarde is 1, wat betekent dat de vooraf gedefinieerde stijlintensiteit. De minimale eenheid is 0.01, wat resulteert in een lichte tendens voor de doelstijl. Een waarde van 2 resulteert in een verdubbeling van de standaardintensiteit. Als de stijlgraad ontbreekt of niet wordt ondersteund voor uw stem, wordt dit kenmerk genegeerd. Optioneel
role Het sprekende rollenspel. De stem kan een andere leeftijd en geslacht imiteren, maar de naam van de stem wordt niet gewijzigd. Een mannelijke stem kan bijvoorbeeld de toonhoogte verhogen en de intonatie wijzigen om een vrouwelijke stem te imiteren, maar de naam van de stem wordt niet gewijzigd. Als de rol ontbreekt of niet wordt ondersteund voor uw stem, wordt dit kenmerk genegeerd. Optioneel

In de volgende tabel wordt elk ondersteund kenmerk beschreven style :

Stijl Beschrijving
style="advertisement_upbeat" Geeft een opgewonden en energieke toon aan voor het promoten van een product of dienst.
style="affectionate" Geeft een warme en genegenheidstoon aan, met hogere toonhoogte en vocale energie. De spreker trekt de aandacht van de luisteraar. De persoonlijkheid van de spreker is vaak van nature innemend.
style="angry" Geeft een boze en geïrriteerde toon aan.
style="assistant" Geeft een warme en ontspannen toon aan voor digitale assistenten.
style="calm" Spreekt een koele, verzamelde en samengestelde houding uit bij het spreken. Toon, toonhoogte en prosody zijn uniformer vergeleken met andere soorten spraak.
style="chat" Geeft een informele en ontspannen toon aan.
style="cheerful" Geeft een positieve en gelukkige toon aan.
style="customerservice" Drukt een vriendelijke en behulpzame toon uit voor klantondersteuning.
style="depressed" Geeft een melancholische en neerslachtige toon aan met minder toonhoogte en energie.
style="disgruntled" Spreekt een minachtende en klagende toon uit. Spraak van deze emotie toont ongenoegen en minachting.
style="documentary-narration" Verhalen vertellen in documentaires in een ontspannen, geïnteresseerde en informatieve stijl die geschikt is voor documentaires, deskundig commentaar en vergelijkbare inhoud.
style="embarrassed" Geeft een onzekere en aarzelige toon aan wanneer de spreker zich ongemakkelijk voelt.
style="empathetic" Geeft een gevoel van zorg en begrip uit.
style="envious" Geeft een toon van bewondering uit wanneer je iets wenst dat iemand anders heeft.
style="excited" Geeft een upbeat en hoopvolle toon aan. Het klinkt alsof er iets geweldigs gebeurt en de spreker is er blij mee.
style="fearful" Geeft een bange en nerveuze toon aan, met hogere toonhoogte, hogere vocale energie en snellere snelheid. De spreker heeft een spanningstoestand en een onbevrediging.
style="friendly" Geeft een aangename, uitnodigende en warme toon aan. Het klinkt oprecht en zorgzaam.
style="gentle" Geeft een milde, beleefde en aangename toon aan, met lagere toonhoogte en vocale energie.
style="hopeful" Geeft een warme en jaarning toon aan. Het lijkt erop dat er iets goeds gebeurt met de spreker.
style="lyrical" Expresseert emoties op een melodische en sentimentele manier.
style="narration-professional" Geeft een professionele, objectieve toon aan voor het lezen van inhoud.
style="narration-relaxed" Expresseert een kalmerende en melodeuze toon voor het lezen van inhoud.
style="newscast" Geeft een formele en professionele toon aan voor het vertellen van nieuws.
style="newscast-casual" Geeft een veelzijdige en informele toon aan voor algemene nieuwsbezorging.
style="newscast-formal" Geeft een formele, betrouwbare en gezaghebbende toon aan voor nieuwsbezorging.
style="poetry-reading" Geeft een emotionele en ritmische toon aan tijdens het lezen van een gedicht.
style="sad" Geeft een verdrietige toon aan.
style="serious" Geeft een strikte en commanderende toon aan. Luidspreker klinkt vaak stijfer en veel minder ontspannen met stevige cadans.
style="shouting" Geeft een toon aan die klinkt alsof de stem ver of op een andere locatie ligt en moeite doet om duidelijk te worden gehoord.
style="sports_commentary" Geeft een ontspannen en geïnteresseerde toon aan voor het uitzenden van een sportevenement.
style="sports_commentary_excited" Geeft een intensieve en energieke toon aan voor het uitzenden van spannende momenten in een sportevenement.
style="whispering" Geeft een zachte toon aan die een rustig en zacht geluid probeert te maken.
style="terrified" Drukt een bange toon uit, met een sneller tempo en een bevende stem. Het lijkt erop dat de spreker zich in een onstabiele en hectische situatie verkeert.
style="unfriendly" Geeft een koude en ongedifferentieerde toon aan.

De volgende tabel bevat beschrijvingen van elk ondersteund role kenmerk:

Rol Beschrijving
role="Girl" De stem imiteert een meisje.
role="Boy" De stem imiteert een jongen.
role="YoungAdultFemale" De stem imiteert een jong volwassen vrouwtje.
role="YoungAdultMale" De stem imiteert een jong volwassen mannetje.
role="OlderAdultFemale" De stem imiteert een ouder volwassen vrouwtje.
role="OlderAdultMale" De stem imiteert een ouder volwassen mannetje.
role="SeniorFemale" De stem imiteert een oudere vrouw.
role="SeniorMale" De stem imiteert een senior man.

mstts express-as: voorbeelden

Zie mstts:express-as gebruiken voor informatie over de ondersteunde waarden voor kenmerken van het element.

Voorbeeld van stijl en graden

Je gebruikt het mstts:express-as element om emoties uit te drukken zoals vrolijkheid, empathie en kalmte. U kunt de stem ook optimaliseren voor verschillende scenario's, zoals klantenservice, nieuwscast en spraakassistent.

In het volgende SSML-voorbeeld wordt het <mstts:express-as> element met een sad stijlgraad 2gebruikt.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="zh-CN">
    <voice name="zh-CN-XiaomoNeural">
        <mstts:express-as style="sad" styledegree="2">
            快走吧,路上一定要注意安全,早去早回。
        </mstts:express-as>
    </voice>
</speak>

Voorbeeld van rol

Naast het aanpassen van de spreekstijlen en stijlgraden, kunt u ook de role parameter aanpassen, zodat de stem een andere leeftijd en geslacht imiteert. Een mannelijke stem kan bijvoorbeeld de toonhoogte verhogen en de intonatie wijzigen om een vrouwelijke stem te imiteren, maar de naam van de stem wordt niet gewijzigd.

Dit SSML-fragment illustreert hoe het role kenmerk wordt gebruikt om de rolspel voor zh-CN-XiaomoNeuralte wijzigen.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="zh-CN">
    <voice name="zh-CN-XiaomoNeural">
        女儿看见父亲走了进来,问道:
        <mstts:express-as role="YoungAdultFemale" style="calm">
            “您来的挺快的,怎么过来的?”
        </mstts:express-as>
        父亲放下手提包,说:
        <mstts:express-as role="OlderAdultMale" style="calm">
            “刚打车过来的,路上还挺顺畅。”
        </mstts:express-as>
    </voice>
</speak>

Voorbeeld van aangepaste spraakstijl

U kunt uw aangepaste stem trainen om te spreken met een aantal vooraf ingestelde stijlen, zoals cheerful, saden whispering. U kunt ook een professionele stem afstemmen om te spreken in een aangepaste stijl, zoals bepaald door uw trainingsgegevens. Als u de aangepaste spraakstijl in SSML wilt gebruiken, geeft u de stijlnaam op die u eerder hebt ingevoerd in Speech Studio.

In dit voorbeeld wordt een aangepaste stem met de naam my-custom-voice gebruikt. De aangepaste stem spreekt met de cheerful vooraf ingestelde stijl en stijlgraad van 2, en vervolgens met een aangepaste stijl genaamd mijn aangepaste stijl en stijl graden van 0.01.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
    <voice name="my-custom-voice">
        <mstts:express-as style="cheerful" styledegree="2">
            That'd be just amazing!
        </mstts:express-as>
        <mstts:express-as style="my-custom-style" styledegree="0.01">
            What's next?
        </mstts:express-as>
    </voice>
</speak>

Id van sprekerprofiel

U gebruikt het mstts:ttsembedding element om de speakerProfileId eigenschap voor een persoonlijke stem op te geven. Persoonlijke stem is een aangepaste stem die is getraind op uw eigen stem of de stem van uw klant. Zie Een persoonlijke stem maken voor meer informatie.

In het volgende SSML-voorbeeld wordt het <mstts:ttsembedding> element gebruikt met een spraaknaam en sprekerprofiel-id.

<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='http://www.w3.org/2001/mstts' xml:lang='en-US'>
    <voice xml:lang='en-US' xml:gender='Male' name='PhoenixV2Neural'> 
    <mstts:ttsembedding speakerProfileId='your speaker profile ID here'> 
    I'm happy to hear that you find me amazing and that I have made your trip planning easier and more fun. 我很高兴听到你觉得我很了不起,我让你的旅行计划更轻松、更有趣。Je suis heureux d'apprendre que vous me trouvez incroyable et que j'ai rendu la planification de votre voyage plus facile et plus amusante.  
    </mstts:ttsembedding> 
    </voice> 
</speak> 

Spreektalen aanpassen

Meertalige stemmen kunnen standaard automatisch de taal van de invoertekst detecteren en spreken in de taal van de standaardinstelling van de invoertekst zonder SSML te gebruiken. Desgewenst kunt u het <lang xml:lang> element gebruiken om de spreektaal voor deze stemmen aan te passen om het voorkeursaccent zoals en-GB voor Brits Engels in te stellen. U kunt de spreektaal aanpassen op zowel zinsniveau als woordniveau. Zie Meertalige stemmen met het lang-element voor een tabel met de <lang> syntaxis- en kenmerkdefinities voor informatie over de ondersteunde talen voor meertalige stem.

In de volgende tabel wordt het gebruik van de kenmerken van het <lang xml:lang> element beschreven:

Kenmerk Beschrijving Vereist of optioneel
xml:lang De taal die u wilt dat de neurale stem spreekt. Vereist om de spreektaal voor de neurale stem aan te passen. Als u gebruikmaakt van lang xml:lang, moet de landinstelling worden opgegeven.

Notitie

Het <lang xml:lang> element is niet compatibel met de prosody elementen.break U kunt pauze en prosodie, zoals toonhoogte, contour, snelheid of volume, niet aanpassen in dit element.

Niet-meertalige stemmen ondersteunen het <lang xml:lang> element niet standaard.

Meertalige stemmen met het lang-element

Gebruik de sectie meertalige stemmen om te bepalen welke spreektalen de Speech-service ondersteunt voor elke neurale stem, zoals wordt gedemonstreerd in de volgende voorbeeldtabel. Als de stem de taal van de invoertekst niet spreekt, voert de Speech-service geen gesynthetiseerde audio uit.

Spraak Automatisch gedetecteerd taalnummer Automatisch gedetecteerde taal (taalgebied) Nummer van alle landinstellingen Alle talen (locale) die door SSML worden ondersteund
en-US-AndrewMultilingualNeural 1 (Mannelijk)
en-US-AvaMultilingualNeural 1 (Vrouwelijk)
en-US-BrianMultilingualNeural 1 (Mannelijk)
en-US-EmmaMultilingualNeural 1 (Vrouwelijk)
77 Afrikaans (af-ZA), Albanees (sq-AL), Amhaars (am-ET), Arabisch (ar-EG), Armeens (hy-AM), Azerbeidzjaans (az-AZ), Bahasa Indonesisch (id-ID), Bangla (bn-BD), Baskisch (eu-ES), Bengaals (bn-IN), Bosnisch (bs-BA), Bulgaars (bg-BG), Birmees (my-MM), Catalaans (ca-ES), Chinees Kantonees (zh-HK), Chinees Mandarijn (zh-CN), Chinees Taiwanees (zh-TW), Kroatisch (hr-HR), Tsjechisch (cs-CZ), Deens (da-DK), Nederlands (nl-NL), Engels (en-US), Estisch (et-EE), Filipijns (fil-PH), Fins (fi-FI), Frans (fr-FR), Galicisch (gl-ES), Georgisch (ka-GE), Duits (de-DE), Grieks (el-GR), Hebreeuws (he-IL), Hindi (hi-IN), Hongaars (hu-HU), IJslands (is-IS), Iers (ga-IE), Italiaans (it-IT), Japans (ja-JP), Javaans (jv-ID), Kannada (kn-IN), Kazachs (kk-KZ), Khmer (km-KH), Koreaans (ko-KR), Lao (lo-LA), Lets (lv-LV), Litouws (lt-LT), Macedonisch (mk-MK), Maleis (ms-MY), Malayalam (ml-IN), Maltees (mt-MT), Mongools (mn-MN), Nepalees (ne-NP), Noors Bokmål (nb-NO), Pashto (ps-AF), Perzisch (fa-IR), Pools (pl-PL), Portugees (pt-BR), Roemeens (ro-RO), Russisch (ru-RU), Servisch (sr-RS), Sinhala (si-LK), Slowaaks (sk-SK), Sloveens (sl-SI), Somalisch (so-SO), Spaans (es-ES), Soendanees (su-ID), Swahili (sw-KE), Zweeds (sv-SE), Tamil (ta-IN), Telugu (te-IN), Thai (th-TH), Turks (tr-TR), Oekraïens (uk-UA), Urdu (ur-PK), Oezbeeks (uz-UZ), Vietnamees (vi-VN), Welsh (cy-GB), Zulu (zu-ZA) 91 Afrikaans (Zuid-Afrika) (af-ZA), Albanese (Albanië) (sq-AL), Amharisch (Ethiopië) (am-ET), Arabisch (Egypte) (ar-EG), Arabisch (Saoedi-Arabië) (ar-SA), Armeens (Armenië) (hy-AM), Azerbeidzjaans (Azerbeidzjan) (az-AZ), Baskisch (Baskenland) (eu-ES), Bengaals (India) (bn-IN), Bosnisch (Bosnië en Herzegovina) (bs-BA), Bulgaars (Bulgarije) (bg-BG), Birmese (Myanmar) (my-MM), Catalaans (Spanje) (ca-ES), Chinees (Kantonees, Traditioneel) (zh-HK), Chinees (Mandarijn, Vereenvoudigd) (zh-CN), Chinees (Taiwanese Mandarijn) (zh-TW), Kroatisch (Kroatië) (hr-HR), Tsjechisch (Tsjechisch) (cs-CZ), Deens (Denemarken) (da-DK), Nederlands (België) (nl-BE), Nederlands (Nederland) (nl-NL), Engels (Australië) (en-AU), Engels (Canada) (en-CA), Engels (Hongkong SAR) (en-HK), Engels (India) (en-IN), Engels (Ierland) (en-IE), Engels (Verenigd Koninkrijk) (en-GB), Engels (Verenigde Staten) (en-US), Estisch (Estland) (et-EE), Filipijns (Filipijnen) (fil-PH), Fins (Finland) (fi-FI), Frans (België) (fr-BE), Frans (Canada) (fr-CA), Frans (Frankrijk) (fr-FR), Frans (Zwitserland) (fr-CH), Galicisch (Galicië) (gl-ES), Georgisch (Georgië) (ka-GE), Duits (Oostenrijk) (de-AT), Duits (Duitsland) (de-DE), Duits (Zwitserland) (de-CH), Grieks (Griekenland) (el-GR), Hebreeuws (Israël) (he-IL), Hindi (India) (hi-IN), Hongaars (Hongarije) (hu-HU), IJslands (IJsland) (is-IS), Indonesisch (Indonesië) (id-ID), Iers (Ierland) (ga-IE), Italiaans (Italië) (it-IT), Japans (Japan) (ja-JP), Javaans (Indonesië) (jv-ID), Kannada (India) (kn-IN), Kazachs (Kazachstan) (kk-KZ), Khmer (Cambodja) (km-KH), Koreaans (Korea) (ko-KR), Lao (Laos) (lo-LA), Lets (Letland) (lv-LV), Litouws (Litouwen) (lt-LT), Macedonisch (Noord-Macedonië) (mk-MK), Maleis (Maleisië) (ms-MY), Malayalam (India) (ml-IN), Maltees (Malta) (mt-MT), Mongools (Mongolië) (mn-MN), Nepalees (Nepal) (ne-NP), Noors (Bokmål, Noorwegen) (nb-NO), Pashto (Afghanistan) (ps-AF), Perzisch (Iran) (fa-IR), Pools (Polen) (pl-PL), Portugees (Brazilië) (pt-BR), Portugees (Portugal) (pt-PT), Roemeens (Roemenië) (ro-RO), Russisch (Rusland) (ru-RU), Servisch (Cyrillisch, Servië) (sr-RS), Sinhala (Sri Lanka) (si-LK), Slowaaks (Slowakije) (sk-SK), Sloveens (Slovenië) (sl-SI), Somalisch (Somalië) (so-SO), Spaans (Mexico) (es-MX), Spaans (Spanje) (es-ES), Sundanese (Indonesië) (su-ID), Swahili (Kenia) (sw-KE), Zweeds (Zweden) (sv-SE), Tamil (India) (ta-IN), Telugu (India) (te-IN), Thai (Thailand) (th-TH), Turks (Turkije) (tr-TR), Oekraïens (Oekraïne) (uk-UA), Urdu (Pakistan) (ur-PK), Oezbeeks (Oezbekistan) (uz-UZ), Vietnamees (Vietnam) (vi-VN), Welsh (Verenigd Koninkrijk) (cy-GB), Zulu (Zuid-Afrika) (zu-ZA)

1 Dit zijn neurale meertalige stemmen in Azure AI Speech. Alle meertalige stemmen kunnen in de taal spreken in de standaardinstelling van de invoertekst zonder SSML te gebruiken. U kunt echter nog steeds het <lang xml:lang> element gebruiken om het spreekaccent van elke taal aan te passen om voorkeursaccenten in te stellen, zoals Brits accent (en-GB) voor Engels. Het prefix in elke stemnaam geeft de primaire landinstelling aan; bijvoorbeeld, de primaire landinstelling voor en-US-AndrewMultilingualNeural is en-US.

Notitie

Meertalige stemmen ondersteunen niet volledig bepaalde SSML-elementen, zoals break, emphasis, silence en sub.

Lange voorbeelden

Zie lang aanpassen voor informatie over de ondersteunde waarden voor kenmerken van het element.

U moet opgeven en-US als de standaardtaal in het speak element, ongeacht of de taal ergens anders wordt aangepast. In dit voorbeeld is de primaire taal voor en-US-AvaMultilingualNeuralen-US.

Dit SSML-fragment laat zien hoe je <lang xml:lang> kunt gebruiken om de-DE te spreken met de en-US-AvaMultilingualNeural neurale stem.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <lang xml:lang="de-DE">
            Wir freuen uns auf die Zusammenarbeit mit Ihnen!
        </lang>
    </voice>
</speak>

Binnen het speak element kunt u meerdere talen opgeven, waaronder en-US tekst-naar-spraakuitvoer. Voor elke aangepaste taal moet de tekst overeenkomen met de taal en in een voice element worden verpakt. Dit SSML-fragment laat zien hoe u de spreektalen kunt wijzigen met <lang xml:lang> naar es-MX, en-US, en fr-FR.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <lang xml:lang="es-MX">
            ¡Esperamos trabajar con usted!
        </lang>
        <lang xml:lang="en-US">
           We look forward to working with you!
        </lang>
        <lang xml:lang="fr-FR">
            Nous avons hâte de travailler avec vous!
        </lang>
    </voice>
</speak>

Prosody aanpassen

U kunt het prosody element gebruiken om wijzigingen op te geven in pitch, contour, bereik, snelheid en volume voor de tekst naar spraakuitvoer. Het prosody element kan tekst en de volgende elementen bevatten: audio, break, p, phoneme, prosody, , say-as, suben s.

Omdat prosodic kenmerkwaarden kunnen variëren in een breed bereik, interpreteert de spraakherkenning de toegewezen waarden als een suggestie van wat de werkelijke prosodic waarden van de geselecteerde stem moeten zijn. Tekst-naar-spraak beperkt of vervangt waarden die niet worden ondersteund. Voorbeelden van niet-ondersteunde waarden zijn een pitch van 1 MHz of een volume van 120.

In de volgende tabel wordt het gebruik van de kenmerken van het prosody element beschreven:

Kenmerk Beschrijving Vereist of optioneel
contour Contour vertegenwoordigt wijzigingen in toonhoogte. Deze wijzigingen worden weergegeven als een matrix met doelen op opgegeven tijdposities in de spraakuitvoer. Sets van paren van parameters definiëren elk doel. Bijvoorbeeld:

<prosody contour="(0%,+20Hz) (10%,-2st) (40%,+10Hz)">

De eerste waarde in elke set parameters geeft de locatie van de pitchwijziging aan als een percentage van de duur van de tekst. De tweede waarde specificeert de hoeveelheid waarmee de toonhoogte moet worden verhoogd of verlaagd, met behulp van een relatieve waarde of een opsommingswaarde voor toonhoogte (zie pitch). Pitchcontour werkt niet op enkelvoudige woorden en korte zinnen. Het is raadzaam om de toonhoogtecontour voor hele zinnen of lange zinsdelen aan te passen.
Optioneel
pitch Geeft de basislijnhoogte voor de tekst aan. Veranderingen in de toonhoogte kunnen op zinsniveau worden toegepast. De pitchwijzigingen moeten binnen 0,5 tot 1,5 keer de oorspronkelijke audio zijn. U kunt de pitch uitdrukken als:
  • Een absolute waarde: uitgedrukt als een getal gevolgd door "Hz" (Hertz). Bijvoorbeeld: <prosody pitch="600Hz">some text</prosody>.
  • Een relatieve waarde:
    • Als een relatief getal: uitgedrukt als een getal dat wordt voorafgegaan door '+' of '-' en gevolgd door 'Hz' of 'st', waarmee een bedrag wordt opgegeven om de toonhoogte te wijzigen. Bijvoorbeeld: <prosody pitch="+80Hz">some text</prosody> of <prosody pitch="-2st">some text</prosody>. De "st" geeft aan dat de wijzigingseenheid semiton is, wat de helft van een toon (een halve stap) op de standaarddiatonische schaal is.
    • Als percentage: uitgedrukt als een getal dat voorafgaat door '+' (optioneel) of '-' en gevolgd door '%', waarmee de relatieve wijziging wordt aangegeven. Bijvoorbeeld: <prosody pitch="50%">some text</prosody> of <prosody pitch="-50%">some text</prosody>.
  • Een constante waarde:
    • x-low (gelijk aan 0,55,-45%)
    • low (gelijk aan 0,8, -20%)
    • medium (gelijk aan 1, standaardwaarde)
    • high (gelijk aan 1,2, +20%)
    • x-high (gelijk aan 1,45, +45%)
Optioneel
range Een waarde die het bereik van de toonhoogte voor de tekst aangeeft. U kunt uitdrukken range met dezelfde absolute waarden, relatieve waarden of opsommingswaarden die worden gebruikt om te beschrijven pitch. Optioneel
rate Geeft de spreeksnelheid van de tekst aan. Spreeksnelheid kan worden toegepast op woord- of zinsniveau. De snelheidswijzigingen moeten binnen 0.5 tot 2 keer van de oorspronkelijke audio liggen. U kunt het volgende uitdrukken rate :
  • Een relatieve waarde:
    • Als een relatief getal: uitgedrukt als een getal dat fungeert als een vermenigvuldiger van de standaardwaarde. Een waarde van 1 resulteert bijvoorbeeld in geen wijziging in de oorspronkelijke tarief. Een waarde van 0.5 resulteert in een halvering van het oorspronkelijke tarief. Een waarde van 2 resulteert in tweemaal het oorspronkelijke tarief.
    • Als percentage: uitgedrukt als een getal dat voorafgaat door '+' (optioneel) of '-' en gevolgd door '%', waarmee de relatieve wijziging wordt aangegeven. Bijvoorbeeld: <prosody rate="50%">some text</prosody> of <prosody rate="-50%">some text</prosody>.
  • Een constante waarde:
    • x-slow (gelijk aan 0,5, -50%)
    • slow (gelijk aan 0,64, -46%)
    • medium (gelijk aan 1, standaardwaarde)
    • fast (gelijk aan 1,55, +55%)
    • x-fast (gelijk aan 2, +100%)
Optioneel
volume Geeft het volumeniveau van de gesproken stem aan. Volumewijzigingen kunnen worden toegepast op zinsniveau. U kunt het volume uitdrukken als:
  • Een absolute waarde: uitgedrukt als een getal in het bereik van 0.0 tot 100.0, van stilste naar luidste, zoals 75. De standaardwaarde is 100.0.
  • Een relatieve waarde:
    • Als een relatief getal: uitgedrukt als een getal dat wordt voorafgegaan door +of -, waarmee een bedrag wordt opgegeven om het volume te wijzigen. Voorbeelden zijn +10 of -5.5.
    • Als percentage: uitgedrukt als een getal dat voorafgaat door '+' (optioneel) of '-' en gevolgd door '%', waarmee de relatieve wijziging wordt aangegeven. Bijvoorbeeld: <prosody volume="50%">some text</prosody> of <prosody volume="+3%">some text</prosody>.
  • Een constante waarde:
    • silent (gelijk aan 0)
    • x-soft (gelijk aan 0,2)
    • soft (gelijk aan 0,4)
    • medium (gelijk aan 0,6)
    • loud (gelijk aan 0,8)
    • x-loud (gelijk aan 1, standaardwaarde)
Optioneel

Prosody-voorbeelden

Zie Prosody aanpassen voor informatie over de ondersteunde waarden voor kenmerken van het prosody element.

Voorbeeld van spreeksnelheid wijzigen

Dit SSML-fragment illustreert hoe het rate kenmerk wordt gebruikt om de spreeksnelheid te wijzigen in 30% hoger dan de standaardfrequentie.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <prosody rate="+30.00%">
            Enjoy using text to speech.
        </prosody>
    </voice>
</speak>

Voorbeeld van volume wijzigen

Dit SSML-fragment illustreert hoe het volume kenmerk wordt gebruikt om het volume te wijzigen in 20% groter dan het standaardvolume.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <prosody volume="+20.00%">
            Enjoy using text to speech.
        </prosody>
    </voice>
</speak>

Voorbeeld van pitch wijzigen

Dit SSML-fragment illustreert hoe het pitch kenmerk wordt gebruikt, zodat de stem in een hoge toonhoogte spreekt.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        Welcome to <prosody pitch="high">Enjoy using text to speech.</prosody>
    </voice>
</speak>

Voorbeeld van toonhoogtebeschrijving wijzigen

Dit SSML-fragment illustreert hoe het contour kenmerk wordt gebruikt om de contour te wijzigen.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <prosody contour="(60%,-60%) (100%,+80%)" >
            Were you the only person in the room?
        </prosody>
    </voice>
</speak>

Nadruk aanpassen

U kunt het optionele emphasis element gebruiken om stress op woordniveau toe te voegen of te verwijderen voor de tekst. Dit element kan alleen tekst en de volgende elementen bevatten: audio, , breakemphasis, , langphoneme, prosody, say-as, , suben voice.

Notitie

De nadrukafstemming op woordniveau is alleen beschikbaar voor deze neurale stemmen: en-US-GuyNeural, en-US-DavisNeuralen en-US-JaneNeural.

Voor woorden met een lage toonhoogte en korte duur kan de pitch mogelijk niet genoeg worden opgevoed om te worden opgemerkt.

In de volgende tabel worden de kenmerken van het emphasis element beschreven:

Kenmerk Beschrijving Vereist of optioneel
level Geeft de sterkte aan van de nadruk die moet worden toegepast:
  • reduced
  • none
  • moderate
  • strong

Wanneer het level kenmerk niet is opgegeven, is moderatehet standaardniveau . Zie het nadrukelement voor meer informatie over elk kenmerk.
Optioneel

Nadrukvoorbeelden

Zie Nadruk aanpassen voor informatie over de ondersteunde waarden voor kenmerken van het emphasis element.

Dit SSML-fragment laat zien hoe u het emphasis element kunt gebruiken om gemiddelde nadruk toe te voegen voor het woord 'vergaderingen'.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
    <voice name="en-US-AndrewMultilingualNeural">
    I can help you join your <emphasis level="moderate">meetings</emphasis> fast.
    </voice>
</speak>

Opgenomen audio toevoegen

Het audio element is optioneel. U kunt het gebruiken om vooraf opgenomen audio in een SSML-document in te voegen. De hoofdtekst van het audio element kan tekst zonder opmaak of SSML-opmaak bevatten als het audiobestand niet beschikbaar of niet kan worden afgespeeld. Het audio element kan ook tekst en de volgende elementen bevatten: audio, break, p, s, phoneme, prosody, , , say-asen sub.

Alle audio die in het SSML-document is opgenomen, moet aan deze vereisten voldoen:

  • Het audiobestand moet geldig zijn *.mp3, *.wav, *.opus, *.ogg, *.flac of *.wma bestanden.
  • De gecombineerde totale tijd voor alle tekst- en audiobestanden in één antwoord mag niet langer zijn dan 600 seconden.
  • De audio mag geen klantspecifieke of andere gevoelige informatie bevatten.

Notitie

Het audio element wordt niet ondersteund door de Long Audio-API. Gebruik in plaats daarvan de batchsynthese-API voor lange tekst naar spraak.

In de volgende tabel wordt het gebruik van de kenmerken van het audio element beschreven:

Kenmerk Beschrijving Vereist of optioneel
src De URI-locatie van het audiobestand. De audio moet worden gehost op een HTTPS-eindpunt dat toegankelijk is voor internet. HTTPS is vereist. Het domein dat als host fungeert voor het bestand moet een geldig, vertrouwd TLS/SSL-certificaat bevatten. U moet het audiobestand in Blob Storage in dezelfde Azure-regio plaatsen als de tekst naar het spraakeindpunt om de latentie te minimaliseren. Vereist

Audiovoorbeelden

Zie Opgenomen audio toevoegen voor informatie over de ondersteunde waarden voor kenmerken van het audio element.

Dit SSML-fragment laat zien hoe u een kenmerk gebruikt src om audio uit twee .wav-bestanden in te voegen.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <p>
            <audio src="https://contoso.com/opinionprompt.wav"/>
            Thanks for offering your opinion. Please begin speaking after the beep.
            <audio src="https://contoso.com/beep.wav">
                Could not play the beep, please voice your opinion now.
            </audio>
        </p>
    </voice>
</speak>

De audioduur aanpassen

Gebruik het mstts:audioduration element om de duur van de uitvoeraudio in te stellen. Gebruik dit element om de timing van voltooiing van de audio-uitvoer te synchroniseren. De audioduur kan worden verminderd of verhoogd tussen 0.5 en 2 keer de snelheid van de oorspronkelijke audio. De oorspronkelijke audio is het geluid zonder andere snelheid-instellingen. De spreeksnelheid wordt vertraagd of wordt dienovereenkomstig versneld op basis van de ingestelde waarde.

De instelling voor de audioduur is van toepassing op alle invoertekst binnen het omsluitende element voice. Als u de instelling voor de audioduur opnieuw wilt instellen of wijzigen, moet u een nieuw voice element met dezelfde stem of een andere stem gebruiken.

In de volgende tabel wordt het gebruik van de kenmerken van het mstts:audioduration element beschreven:

Kenmerk Beschrijving Vereist of optioneel
value De aangevraagde duur van de uitvoeraudio in seconden, zoals 2s, of milliseconden, zoals 2000ms.

De maximale waarde voor de audioduur van de uitvoer is 300 seconden. Deze waarde moet binnen 0.5 tot 2 keer de oorspronkelijke audio liggen zonder andere snelheid instellingen. Als de aangevraagde duur van uw audio bijvoorbeeld is 30s, moet de oorspronkelijke audio anders tussen 15 en 60 seconden zijn. Als u een waarde buiten deze grenzen instelt, wordt de duur ingesteld op basis van het respectieve minimum of maximum veelvoud. Voor uitvoeraudio die langer is dan 300 seconden, genereert u eerst de oorspronkelijke audio zonder andere tariefinstellingen en berekent u vervolgens de snelheid die moet worden aangepast met behulp van de prosody-snelheid om de gewenste duur te bereiken.
Vereist

voorbeelden van audio-duurduur mstts

Zie De audioduur aanpassen voor informatie over de ondersteunde waarden voor kenmerken van het mstts:audioduration element.

In dit voorbeeld is de oorspronkelijke audio ongeveer 15 seconden. Het mstts:audioduration element wordt gebruikt om de audioduur in te stellen op 20 seconden of 20s.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" xml:lang="en-US">
<voice name="en-US-AvaMultilingualNeural">
<mstts:audioduration value="20s"/>
If we're home schooling, the best we can do is roll with what each day brings and try to have fun along the way.
A good place to start is by trying out the slew of educational apps that are helping children stay happy and smash their schooling at the same time.
</voice>
</speak>

Achtergrondaudio toevoegen

U kunt het mstts:backgroundaudio element gebruiken om achtergrondaudio toe te voegen aan uw SSML-documenten of een audiobestand te combineren met tekst naar spraak. Met mstts:backgroundaudio kunt u een audiobestand op de achtergrond herhalen, aan het begin van tekst-naar-spraak laten vervagen en aan het einde van tekst-naar-spraak laten vervagen.

Als de opgegeven achtergrondaudio korter is dan de tekst naar spraak of de fade-out, wordt deze herhaald. Als de tekst langer is dan de tekst-naar-spraak, stopt het proces wanneer het fade-out is voltooid.

Er is slechts één achtergrondaudiobestand per SSML-document toegestaan. U kunt audio tags binnen het voice element tussenvoegen om meer audio toe te voegen aan uw SSML-document.

Notitie

Het mstts:backgroundaudio element moet vóór alle voice elementen worden geplaatst. Als opgegeven, moet dit het eerste subelement van het speak-element zijn.

Het mstts:backgroundaudio element wordt niet ondersteund door de Long Audio-API. Gebruik in plaats daarvan de batchsynthese-API (Preview) voor lange tekst naar spraak.

In de volgende tabel wordt het gebruik van de kenmerken van het mstts:backgroundaudio element beschreven:

Kenmerk Beschrijving Vereist of optioneel
src De URI-locatie van het achtergrondaudiobestand. Vereist
volume Het volume van het achtergrondaudiobestand. Geaccepteerde waarden: 0 tot 100 inclusief. De standaardwaarde is 1. Optioneel
fadein De duur van de achtergrondaudio vervaagt in milliseconden. De standaardwaarde is 0, wat gelijk is aan geen vervagen. Geaccepteerde waarden: 0 tot 10000 inclusief. Optioneel
fadeout De duur van de vervaging van de achtergrondaudio in milliseconden. De standaardwaarde is 0, wat gelijk is aan geen vervagen. Geaccepteerde waarden: 0 tot 10000 inclusief. Optioneel

voorbeelden van mstss-achtergrondaudio

Zie Achtergrondaudio toevoegen voor informatie over de ondersteunde waarden voor kenmerken van het mstts:backgroundaudi element.

<speak version="1.0" xml:lang="en-US" xmlns:mstts="http://www.w3.org/2001/mstts">
    <mstts:backgroundaudio src="https://contoso.com/sample.wav" volume="0.7" fadein="3000" fadeout="4000"/>
    <voice name="en-US-AvaMultilingualNeural">
        The text provided in this document are spoken over the background audio.
    </voice>
</speak>

Viseme-element

Een viseme is de visuele beschrijving van een phoneme in gesproken taal. Het definieert de positie van het gezicht en de mond terwijl een persoon spreekt. U kunt het mstts:viseme element in SSML gebruiken om viseme-uitvoer aan te vragen. Zie Gezichtspositie ophalen met viseme voor meer informatie.

De instelling voor het viseme wordt toegepast op alle invoertekst in het bijbehorende element voice . Als u de instelling voor het viseme opnieuw wilt instellen of wijzigen, moet u een nieuw voice element met dezelfde stem of een andere stem gebruiken.

Het gebruik van de kenmerken van het viseme element wordt beschreven in de volgende tabel.

Kenmerk Beschrijving Vereist of optioneel
type Het type van de viseme-uitvoer.
  • redlips_front – lipsynchronisatie met viseme-ID en audio-offsetuitgang
  • FacialExpression – uitvoer van shapes combineren
Vereist

Notitie

redlips_front ondersteunt momenteel alleen neurale stemmen in en-US-landinstelling, en FacialExpression ondersteunt neurale stemmen in de landinstellingen en-US en zh-CN.

Viseme-voorbeelden

De ondersteunde waarden voor kenmerken van het viseme element zijn eerder beschreven.

Dit SSML-snippet laat zien hoe u vormen kunt aanvragen met uw gesynthetiseerde spraak.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" xml:lang="en-US">
  <voice name="en-US-AvaNeural">
    <mstts:viseme type="FacialExpression"/>
    Rainbow has seven colors: Red, orange, yellow, green, blue, indigo, and violet.
  </voice>
</speak>

Spraakconversieelement

Spraakconversie (preview) is het proces van het transformeren van de stemkenmerken van een bepaalde audio naar een doelspreker. Na spraakconversie behoudt de resulterende audio de taalkundige inhoud en prosodie van de bronaudio, terwijl het stemtimbre klinkt als de doelsprekersstem. Zie spraakconversie voor meer informatie.

Gebruik de <mstts:voiceconversion> tag via SSML (Speech Synthesis Markup Language) om de bronaudio-URL en de doelstem voor de conversie op te geven. Zie ondersteunde stemmen voor spraakconversie voor een volledige lijst met ondersteunde doelstemmen.

In de volgende tabel wordt het gebruik van de kenmerken van het mstts:voiceconversion element beschreven:

Kenmerk Beschrijving Vereist of optioneel
url De URL van het bronaudiobestand dat taalkundige inhoud en prosody biedt voor de gesynthetiseerde spraak.

De url moet toegankelijk zijn via HTTPS-URL. Bijvoorbeeld https://example.com/source.wav

Invoeraudio moet kleiner zijn dan 100 MB.
Vereist

De spraakconversie werkt als volgt:

  • De bronaudio is een vooraf opgenomen audiobestand dat de gesproken woorden en prosody bevat.
    • Tekstinhoud: De uiteindelijke gesynthetiseerde spraak volgt de gesproken woorden in de bronaudio.
    • Prosody en ritme: De spraak behoudt de timing en intonatie van de bron.
  • De <voice> tag geeft de doelstem aan die wordt gebruikt voor de uitvoeraudio. Zie ondersteunde stemmen voor spraakconversie voor informatie over de ondersteunde doelstemmen.
  • De uitvoeraudio houdt het timbre (toon en stemkwaliteit) van de doelstem, maar volgt de tekst- en spreekstijl van de bronaudio.

Notitie

Alle SSML-elementen met betrekking tot prosody en uitspraak, zoals <prosody> of <mstts:express-as> worden genegeerd.

Tekstinvoer is optioneel en alle tekst die in de SSML is opgenomen, wordt tijdens het weergeven genegeerd.

Voorbeelden van spraakconversie van mstss

Het volgende voorbeeld laat zien hoe <mstts:voiceconversion> u spraak kunt synthetiseren met behulp van een neurale doelstem, terwijl zowel de inhoud als de prosodie van een bepaalde bronaudio worden gematcht.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
    <voice xml:lang="en-US" xml:gender="Female" name="en-US-AvaMultilingualNeural">
        <mstts:voiceconversion url="https://your.blob.core.windows.net/sourceaudio.wav"/>
    </voice>
</speak>

Volgende stappen