Stem en geluid aanpassen met SSML

Artikel
01/22/2024

U kunt SSML (Speech Synthesis Markup Language) gebruiken om de tekst op te geven voor spraakstem, taal, naam, stijl en rol voor uw spraakuitvoer. U kunt ook meerdere stemmen in één SSML-document gebruiken en de nadruk, spreeksnelheid, toonhoogte en volume aanpassen. Daarnaast biedt SSML de mogelijkheid om vooraf opgenomen audio in te voegen, zoals een geluidseffect of een muzieknotitie.

In het artikel wordt beschreven hoe u SSML-elementen gebruikt om spraak en geluid op te geven. Zie de SSML-documentstructuur en -gebeurtenissen voor meer informatie over de SSML-syntaxis.

Spraakelementen gebruiken

Er moet ten minste één voice element worden opgegeven binnen elk SSML-spreekelement. Dit element bepaalt de stem die wordt gebruikt voor tekst naar spraak.

U kunt meerdere voice elementen opnemen in één SSML-document. Elk voice element kan een andere stem opgeven. U kunt dezelfde stem ook meerdere keren gebruiken met verschillende instellingen, zoals wanneer u de stilteduur tussen zinnen wijzigt.

In de volgende tabel wordt het gebruik van de kenmerken van het voice element beschreven:

Kenmerk	Beschrijving	Vereist of optioneel
`name`	De stem die wordt gebruikt voor tekst-naar-spraakuitvoer. Zie Taalondersteuning voor een volledige lijst met ondersteunde vooraf gedefinieerde stemmen.	Vereist
`effect`	De audio-effectprocessor die wordt gebruikt om de kwaliteit van de gesynthetiseerde spraakuitvoer te optimaliseren voor specifieke scenario's op apparaten. Voor sommige scenario's in productieomgevingen kan de auditieve ervaring worden verminderd vanwege de afspeelvertekening op bepaalde apparaten. De gesynthetiseerde spraak van een autoluidspreker klinkt bijvoorbeeld saai en gedempt vanwege omgevingsfactoren zoals sprekerrespons, ruimtereverberatie en achtergrondgeluid. De passagier moet het volume misschien hoger zetten om duidelijker te horen. Om handmatige bewerkingen in een dergelijk scenario te voorkomen, kan de audio-effectprocessor het geluid duidelijker maken door de vervorming van het afspelen te compenseren. De volgende waarden worden ondersteund: `eq_car` – Optimaliseer de auditieve ervaring bij het leveren van spraak in auto's, bussen en andere ingesloten auto's. `eq_telecomhp8k` – Optimaliseer de auditieve ervaring voor smalbandspraak in telecom- of telefoonscenario's. U moet een steekproeffrequentie van 8 kHz gebruiken. Als de steekproeffrequentie niet 8 kHz is, is de auditieve kwaliteit van de uitvoerspraak niet geoptimaliseerd. Als de waarde ontbreekt of ongeldig is, wordt dit kenmerk genegeerd en wordt er geen effect toegepast.	Optioneel

Spraakvoorbeelden

Zie Spraakelementen gebruiken voor informatie over de ondersteunde waarden voor kenmerken van het voice element.

Voorbeeld van één stem

In dit voorbeeld wordt de en-US-AvaMultilingualNeural stem gebruikt.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        This is the text that is spoken.
    </voice>
</speak>

Voorbeeld van meerdere stemmen

Binnen het speak element kunt u meerdere stemmen opgeven voor tekst-naar-spraakuitvoer. Deze stemmen kunnen in verschillende talen zijn. Voor elke stem moet de tekst in een voice element worden verpakt.

In dit voorbeeld wordt een alternatief tussen de stemmen en en-US-AndrewMultilingualNeural de en-US-AvaMultilingualNeural stemmen. De neurale meertalige stemmen kunnen verschillende talen spreken op basis van de invoertekst.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        Good morning!
    </voice>
    <voice name="en-US-AndrewMultilingualNeural">
        Good morning to you too Ava!
    </voice>
</speak>

Voorbeeld van aangepaste neurale spraak

Als u uw aangepaste neurale stem wilt gebruiken, geeft u de modelnaam op als de naam van de stem in SSML.

In dit voorbeeld wordt een aangepaste stem met de naam my-custom-voice gebruikt.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="my-custom-voice">
        This is the text that is spoken.
    </voice>
</speak>

Voorbeeld van audio-effect

U gebruikt het effect kenmerk om de auditieve ervaring te optimaliseren voor scenario's zoals auto's en telecommunicatie. In het volgende SSML-voorbeeld wordt het effect kenmerk gebruikt met de configuratie in autoscenario's.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural" effect="eq_car">
        This is the text that is spoken.
    </voice>
</speak>

Spreekstijlen en -rollen gebruiken

Neurale stemmen hebben standaard een neutrale spreekstijl. U kunt de spreekstijl, stijlgraad en rol aanpassen op zinsniveau.

Notitie

De Speech-service ondersteunt stijlen, stijlgraden en rollen voor een subset van neurale stemmen, zoals beschreven in de documentatie over spraakstijlen en -rollen . Als u de ondersteunde stijlen en rollen voor elke stem wilt bepalen, kunt u ook de API voor lijststemmen en de webtoepassing voor het maken van audio-inhoud gebruiken.

In de volgende tabel wordt het gebruik van de kenmerken van het mstts:express-as element beschreven:

Kenmerk	Beschrijving	Vereist of optioneel
`style`	De spraakspecifieke spreekstijl. Je kunt emoties uitdrukken zoals vrolijkheid, empathie en kalmte. U kunt de stem ook optimaliseren voor verschillende scenario's, zoals klantenservice, nieuwscast en spraakassistent. Als de stijlwaarde ontbreekt of ongeldig is, wordt het hele `mstts:express-as` element genegeerd en gebruikt de service de standaardneutrale spraak. Zie het voorbeeld van de aangepaste neurale spraakstijl voor aangepaste neurale spraakstijlen voor aangepaste neurale spraakstijlen.	Vereist
`styledegree`	De intensiteit van de spreekstijl. U kunt een sterkere of zachtere stijl opgeven om de spraak meer expressief of onderbroken te maken. Het bereik van geaccepteerde waarden is: `0.01` inclusief `2` . De standaardwaarde is `1`, wat betekent dat de vooraf gedefinieerde stijlintensiteit. De minimale eenheid is `0.01`, wat resulteert in een lichte tendens voor de doelstijl. Een waarde van `2` resultaten in een verdubbeling van de standaardstijlintensiteit. Als de stijlgraad ontbreekt of niet wordt ondersteund voor uw stem, wordt dit kenmerk genegeerd.	Optioneel
`role`	Het sprekende rollenspel. De stem kan een andere leeftijd en geslacht imiteren, maar de naam van de stem wordt niet gewijzigd. Een mannelijke stem kan bijvoorbeeld de toonhoogte verhogen en de intonatie wijzigen om een vrouwelijke stem te imiteren, maar de naam van de stem wordt niet gewijzigd. Als de rol ontbreekt of niet wordt ondersteund voor uw stem, wordt dit kenmerk genegeerd.	Optioneel

In de volgende tabel wordt elk ondersteund kenmerk beschreven style :

Stijl	Beschrijving
`style="advertisement_upbeat"`	Geeft een opgewonden en high-energy toon aan voor het promoten van een product of service.
`style="affectionate"`	Geeft een warme en genegenheidstoon aan, met hogere toonhoogte en vocale energie. De spreker heeft de aandacht van de listener. De persoonlijkheid van de spreker is vaak verdraagt in de natuur.
`style="angry"`	Geeft een boze en geïrriteerde toon aan.
`style="assistant"`	Geeft een warme en ontspannen toon aan voor digitale assistenten.
`style="calm"`	Spreekt een koele, verzamelde en samengestelde houding uit bij het spreken. Toon, toonhoogte en prosody zijn uniformer vergeleken met andere soorten spraak.
`style="chat"`	Geeft een informele en ontspannen toon aan.
`style="cheerful"`	Geeft een positieve en gelukkige toon aan.
`style="customerservice"`	Geeft een vriendelijke en nuttige toon aan voor klantondersteuning.
`style="depressed"`	Geeft een melancholische en despondent toon aan met een lagere toonhoogte en energie.
`style="disgruntled"`	Spreekt een minachtende en klagende toon uit. Spraak van deze emotie toont ongenoegen en minachting.
`style="documentary-narration"`	Gesproken documenten in een ontspannen, geïnteresseerde en informatieve stijl die geschikt is voor het dubbelen van documentaires, deskundige commentaar en soortgelijke inhoud.
`style="embarrassed"`	Geeft een onzekere en aarzelige toon aan wanneer de spreker zich ongemakkelijk voelt.
`style="empathetic"`	Geeft een gevoel van zorg en begrip uit.
`style="envious"`	Geeft een toon van bewondering uit wanneer je iets wenst dat iemand anders heeft.
`style="excited"`	Geeft een upbeat en hoopvolle toon aan. Het klinkt alsof er iets geweldigs gebeurt en de spreker is er blij mee.
`style="fearful"`	Geeft een bange en nerveuze toon aan, met hogere toonhoogte, hogere vocale energie en snellere snelheid. De spreker heeft een spanningstoestand en een onbevrediging.
`style="friendly"`	Geeft een aangename, uitnodigende en warme toon aan. Het klinkt oprecht en zorgzaam.
`style="gentle"`	Geeft een milde, beleefde en aangename toon aan, met lagere toonhoogte en vocale energie.
`style="hopeful"`	Geeft een warme en jaarning toon aan. Het klinkt alsof er iets goeds met de spreker gebeurt.
`style="lyrical"`	Expresseert emoties op een melodische en sentimentele manier.
`style="narration-professional"`	Geeft een professionele, objectieve toon aan voor het lezen van inhoud.
`style="narration-relaxed"`	Expresseert een kalmerende en melodeuze toon voor het lezen van inhoud.
`style="newscast"`	Geeft een formele en professionele toon aan voor het vertellen van nieuws.
`style="newscast-casual"`	Geeft een veelzijdige en informele toon aan voor algemene nieuwsbezorging.
`style="newscast-formal"`	Geeft een formele, betrouwbare en gezaghebbende toon aan voor nieuwsbezorging.
`style="poetry-reading"`	Geeft een emotionele en ritmische toon aan tijdens het lezen van een gedicht.
`style="sad"`	Geeft een verdrietige toon aan.
`style="serious"`	Geeft een strikte en commanderende toon aan. Luidspreker klinkt vaak stijfer en veel minder ontspannen met stevige cadans.
`style="shouting"`	Geeft een toon aan die klinkt alsof de stem ver of op een andere locatie ligt en moeite doet om duidelijk te worden gehoord.
`style="sports_commentary"`	Geeft een ontspannen en geïnteresseerde toon aan voor het uitzenden van een sportevenement.
`style="sports_commentary_excited"`	Geeft een intensieve en energieke toon aan voor het uitzenden van spannende momenten in een sportevenement.
`style="whispering"`	Geeft een zachte toon aan die een rustig en zacht geluid probeert te maken.
`style="terrified"`	Geeft een bange toon aan, met een sneller tempo en een shaker stem. Het lijkt erop dat de spreker een onsteady en hectische status heeft.
`style="unfriendly"`	Geeft een koude en ongedifferentieerde toon aan.

De volgende tabel bevat beschrijvingen van elk ondersteund role kenmerk:

Rol	Beschrijving
`role="Girl"`	De stem imiteert een meisje.
`role="Boy"`	De stem imiteert een jongen.
`role="YoungAdultFemale"`	De stem imiteert een jong volwassen vrouwtje.
`role="YoungAdultMale"`	De stem imiteert een jong volwassen mannetje.
`role="OlderAdultFemale"`	De stem imiteert een ouder volwassen vrouwtje.
`role="OlderAdultMale"`	De stem imiteert een ouder volwassen mannetje.
`role="SeniorFemale"`	De stem imiteert een senior vrouw.
`role="SeniorMale"`	De stem imiteert een senior man.

mstts express-as-voorbeelden

Zie Spreekstijlen en -rollen gebruiken voor informatie over de ondersteunde waarden voor kenmerken van het mstts:express-as element.

Voorbeeld van stijl en graden

Je gebruikt het mstts:express-as element om emoties uit te drukken zoals vrolijkheid, empathie en kalmte. U kunt de stem ook optimaliseren voor verschillende scenario's, zoals klantenservice, nieuwscast en spraakassistent.

In het volgende SSML-voorbeeld wordt het <mstts:express-as> element met een sad stijlgraad 2gebruikt.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="zh-CN">
    <voice name="zh-CN-XiaomoNeural">
        <mstts:express-as style="sad" styledegree="2">
            快走吧，路上一定要注意安全，早去早回。
        </mstts:express-as>
    </voice>
</speak>

Voorbeeld van rol

Naast het aanpassen van de spreekstijlen en stijlgraden, kunt u ook de role parameter aanpassen, zodat de stem een andere leeftijd en geslacht imiteert. Een mannelijke stem kan bijvoorbeeld de toonhoogte verhogen en de intonatie wijzigen om een vrouwelijke stem te imiteren, maar de naam van de stem wordt niet gewijzigd.

Dit SSML-fragment illustreert hoe het role kenmerk wordt gebruikt om de rolspel voor zh-CN-XiaomoNeuralte wijzigen.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="zh-CN">
    <voice name="zh-CN-XiaomoNeural">
        女儿看见父亲走了进来，问道：
        <mstts:express-as role="YoungAdultFemale" style="calm">
            “您来的挺快的，怎么过来的？”
        </mstts:express-as>
        父亲放下手提包，说：
        <mstts:express-as role="OlderAdultMale" style="calm">
            “刚打车过来的，路上还挺顺畅。”
        </mstts:express-as>
    </voice>
</speak>

Voorbeeld van aangepaste neurale spraakstijl

U kunt uw aangepaste neurale stem trainen om te spreken met een aantal vooraf ingestelde stijlen, zoals cheerful, saden whispering. U kunt ook een aangepaste neurale stem trainen om te spreken in een aangepaste stijl, zoals bepaald door uw trainingsgegevens. Als u de aangepaste neurale spraakstijl in SSML wilt gebruiken, geeft u de stijlnaam op die u eerder hebt ingevoerd in Speech Studio.

In dit voorbeeld wordt een aangepaste stem met de naam my-custom-voice gebruikt. De aangepaste stem spreekt met de cheerful vooraf ingestelde stijl en stijlgraad van 2, en vervolgens met een aangepaste stijl genaamd mijn aangepaste stijl en stijl graden van 0.01.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
    <voice name="my-custom-voice">
        <mstts:express-as style="cheerful" styledegree="2">
            That'd be just amazing!
        </mstts:express-as>
        <mstts:express-as style="my-custom-style" styledegree="0.01">
            What's next?
        </mstts:express-as>
    </voice>
</speak>

Id van sprekerprofiel

U gebruikt het mstts:ttsembedding element om de speakerProfileId eigenschap voor een persoonlijke stem op te geven. Persoonlijke stem is een aangepaste neurale stem die is getraind op uw eigen stem of de stem van uw klant. Zie Een persoonlijke stem maken voor meer informatie.

In het volgende SSML-voorbeeld wordt het <mstts:ttsembedding> element gebruikt met een spraaknaam en sprekerprofiel-id.

<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='http://www.w3.org/2001/mstts' xml:lang='en-US'>
    <voice xml:lang='en-US' xml:gender='Male' name='PhoenixV2Neural'> 
    <mstts:ttsembedding speakerProfileId='your speaker profile ID here'> 
    I'm happy to hear that you find me amazing and that I have made your trip planning easier and more fun. 我很高兴听到你觉得我很了不起，我让你的旅行计划更轻松、更有趣。Je suis heureux d'apprendre que vous me trouvez incroyable et que j'ai rendu la planification de votre voyage plus facile et plus amusante.  
    </mstts:ttsembedding> 
    </voice> 
</speak>

Spreektalen aanpassen

Meertalige stemmen kunnen standaard automatisch de taal van de invoertekst detecteren en spreken in de taal van de standaardinstelling van de invoertekst zonder SSML te gebruiken. Desgewenst kunt u het <lang xml:lang> element gebruiken om de spreektaal voor deze stemmen aan te passen om het voorkeursaccent zoals en-GB voor Brits Engels in te stellen. U kunt de spreektaal aanpassen op zowel zinsniveau als woordniveau. Zie Meertalige stemmen met het lang-element voor een tabel met de <lang> syntaxis- en kenmerkdefinities voor informatie over de ondersteunde talen voor meertalige stem.

In de volgende tabel wordt het gebruik van de kenmerken van het <lang xml:lang> element beschreven:

Kenmerk	Beschrijving	Vereist of optioneel
`xml:lang`	De taal die u wilt dat de neurale stem spreekt.	Vereist om de spreektaal voor de neurale stem aan te passen. Als u gebruikmaakt `lang xml:lang`, moet de landinstelling worden opgegeven.

Notitie

Het <lang xml:lang> element is niet compatibel met de prosody elementen.break U kunt pauzeren en prosody zoals pitch, contour, snelheid of volume in dit element niet aanpassen.

Meertalige stemmen met het lang-element

Gebruik de sectie meertalige stemmen om te bepalen welke spreektalen de Speech-service ondersteunt voor elke neurale stem, zoals wordt gedemonstreerd in de volgende voorbeeldtabel. Als de stem de taal van de invoertekst niet spreekt, voert de Speech-service geen gesynthetiseerde audio uit.

Spraak	Ondersteund taalnummer	Ondersteunde talen	Automatisch gedetecteerde standaardlandinstelling voor elke taal
`en-US-AndrewMultilingualNeural`¹ (Mannelijk) `en-US-AvaMultilingualNeural`¹ (Vrouwelijk) `en-US-BrianMultilingualNeural`¹ (Mannelijk) `en-US-EmmaMultilingualNeural`¹ (Vrouwelijk)	77	Afrikaans, Albanese, Amharische, Arabisch, Armeens, Azerbeidzjaans, Bahasa Indonesisch, Bangla, Baskisch, Bengali, Bosnisch, Bulgaars, Burmese, Catalaans, Chinees Kantonees, Chinees Mandarijn, Chinees Taiwanese, Kroatisch, Tsjechisch, Deens, Nederlands, Engels, Estlands, Filipijns, Fins, Frans, Galicisch, Galicisch, Grieks, Hebreeuws, Hindi, Hongaars, IJslands, Iers, Italiaans, Japans, Javaans, Kannada, Kazachs, Khmer, Koreaans, Lao, Lets, Litouws, Macedonisch, Maleis, Mkumlam, Maltees, Mongools, Nepalees, Noors Bokmål, Pashto, Perzisch, Pools, Portugees, Roemeens, Russisch, Servisch, Sinhala, Slowaaks, Slovene, Somalië, Spaans, Sundanese, Swahili, Zweeds, Tamil, Telugu, Thai, Turks, Oekraïens, Urdu, Oezbek, Vietnamees, Welsh, Zulu	`af-ZAkk-KZ`, `am-ETar-EGaz-AZbg-BGbn-BDbn-INbs-BAca-EScs-CZcy-GBda-DKde-DEel-GRen-USes-ESet-EEeu-ESfa-IRfi-FIfil-PHfr-FRga-IEgl-EShe-ILhi-INhr-HRhu-HUhy-AMid-IDis-ISit-ITja-JPjv-IDka-GEkm-KHkn-INko-KRlo-LAlt-LTlv-LVmk-MKml-INmn-MNms-MYmt-MTmy-MMnb-NOne-NPnl-NLpl-PLps-AFpt-BRro-ROru-RUsi-LKsk-SKsl-SIso-SOsq-ALsr-RSsu-IDsv-SEsw-KE`, , `te-INta-IN`, `th-TH`, , `tr-TR`, `uk-UA`, , `uz-UZur-PK`, `vi-VN`, `zh-CN`, `zh-HK`, , `zh-TW`. `zu-ZA`

¹ Dit zijn neurale meertalige stemmen in Azure AI Speech. Alle meertalige stemmen kunnen in de taal spreken in de standaardinstelling van de invoertekst zonder SSML te gebruiken. U kunt echter nog steeds het <lang xml:lang> element gebruiken om het spreekaccent van elke taal aan te passen om voorkeursaccenten in te stellen, zoals Brits accent (en-GB) voor Engels. De primaire landinstelling voor elke stem wordt aangegeven door het voorvoegsel in de naam, zoals de stem en-US-AndrewMultilingualNeural, de primaire landinstelling is en-US. Controleer de volledige lijst met ondersteunde landinstellingen via SSML.

Notitie

Meertalige stemmen ondersteunen bepaalde SSML-elementen, zoals break, emphasis, silenceen sub.

Lang-voorbeelden

Zie Spreektaal aanpassen voor informatie over de ondersteunde waarden voor kenmerken van het lang element.

U moet opgeven en-US als de standaardtaal in het speak element, ongeacht of de taal ergens anders wordt aangepast. In dit voorbeeld is de primaire taal voor en-US-AvaMultilingualNeuralen-US.

Dit SSML-fragment laat zien hoe <lang xml:lang> u met de en-US-AvaMultilingualNeural neurale stem kunt sprekende-DE.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <lang xml:lang="de-DE">
            Wir freuen uns auf die Zusammenarbeit mit Ihnen!
        </lang>
    </voice>
</speak>

Binnen het speak element kunt u meerdere talen opgeven, waaronder en-US tekst-naar-spraakuitvoer. Voor elke aangepaste taal moet de tekst overeenkomen met de taal en in een voice element worden verpakt. Dit SSML-fragment laat zien hoe <lang xml:lang> u de spreektalen kunt wijzigen in es-MX, en-USen fr-FR.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <lang xml:lang="es-MX">
            ¡Esperamos trabajar con usted!
        </lang>
        <lang xml:lang="en-US">
           We look forward to working with you!
        </lang>
        <lang xml:lang="fr-FR">
            Nous avons hâte de travailler avec vous!
        </lang>
    </voice>
</speak>

Prosody aanpassen

U kunt het prosody element gebruiken om wijzigingen op te geven in pitch, contour, bereik, snelheid en volume voor de tekst naar spraakuitvoer. Het prosody element kan tekst en de volgende elementen bevatten: audio, break, p, phoneme, prosody, , say-as, suben s.

Omdat prosodic kenmerkwaarden kunnen variëren in een breed bereik, interpreteert de spraakherkenning de toegewezen waarden als een suggestie van wat de werkelijke prosodic waarden van de geselecteerde stem moeten zijn. Tekst-naar-spraaklimieten of vervangt waarden die niet worden ondersteund. Voorbeelden van niet-ondersteunde waarden zijn een pitch van 1 MHz of een volume van 120.

In de volgende tabel wordt het gebruik van de kenmerken van het prosody element beschreven:

Kenmerk	Beschrijving	Vereist of optioneel
`contour`	Contour vertegenwoordigt wijzigingen in pitch. Deze wijzigingen worden weergegeven als een matrix met doelen op opgegeven tijdposities in de spraakuitvoer. Sets parameterparen definiëren elk doel. Bijvoorbeeld: `<prosody contour="(0%,+20Hz) (10%,-2st) (40%,+10Hz)">` De eerste waarde in elke set parameters geeft de locatie van de pitchwijziging aan als een percentage van de duur van de tekst. De tweede waarde geeft het bedrag aan dat de pitch moet verhogen of verlagen met behulp van een relatieve waarde of een opsommingswaarde voor pitch (zie `pitch`).	Optioneel
`pitch`	Geeft de basislijnhoogte voor de tekst aan. Pitchwijzigingen kunnen worden toegepast op zinsniveau. De pitchwijzigingen moeten binnen 0,5 tot 1,5 keer de oorspronkelijke audio zijn. U kunt de pitch uitdrukken als: Een absolute waarde: uitgedrukt als een getal gevolgd door "Hz" (Hertz). Bijvoorbeeld: `<prosody pitch="600Hz">some text</prosody>`. Een relatieve waarde: Als een relatief getal: uitgedrukt als een getal dat wordt voorafgegaan door '+' of '-' en gevolgd door 'Hz' of 'st', waarmee een bedrag wordt opgegeven om de toonhoogte te wijzigen. Bijvoorbeeld: `<prosody pitch="+80Hz">some text</prosody>` of `<prosody pitch="-2st">some text</prosody>`. De "st" geeft aan dat de wijzigingseenheid semiton is, wat de helft van een toon (een halve stap) op de standaarddiatonische schaal is. Als percentage: uitgedrukt als een getal dat voorafgaat door '+' (optioneel) of '-' en gevolgd door '%', waarmee de relatieve wijziging wordt aangegeven. Bijvoorbeeld: `<prosody pitch="50%">some text</prosody>` of `<prosody pitch="-50%">some text</prosody>`. Een constante waarde: x-laag Beperkt Normaal Hoge x-hoog default	Optioneel
`range`	Een waarde die het bereik van de toonhoogte voor de tekst aangeeft. U kunt uitdrukken `range` met dezelfde absolute waarden, relatieve waarden of opsommingswaarden die worden gebruikt om te beschrijven `pitch`.	Optioneel
`rate`	Geeft de spreeksnelheid van de tekst aan. Spreeksnelheid kan worden toegepast op woord- of zinsniveau. De snelheidswijzigingen moeten binnen enkele `0.52` tijden van de oorspronkelijke audio zijn. U kunt het volgende uitdrukken `rate` : Een relatieve waarde: Als een relatief getal: uitgedrukt als een getal dat fungeert als een vermenigvuldiger van de standaardwaarde. Een waarde van `1` resultaten resulteert bijvoorbeeld in geen wijziging in de oorspronkelijke snelheid. Een waarde van `0.5` resultaten in een halvering van de oorspronkelijke snelheid. Een waarde van `2` resultaten in twee keer de oorspronkelijke snelheid. Als percentage: uitgedrukt als een getal dat voorafgaat door '+' (optioneel) of '-' en gevolgd door '%', waarmee de relatieve wijziging wordt aangegeven. Bijvoorbeeld: `<prosody rate="50%">some text</prosody>` of `<prosody rate="-50%">some text</prosody>`. Een constante waarde: x-slow langzaam Normaal snel x-fast default	Optioneel
`volume`	Geeft het volumeniveau van de gesproken stem aan. Volumewijzigingen kunnen worden toegepast op zinsniveau. U kunt het volume uitdrukken als: Een absolute waarde: uitgedrukt als een getal in het bereik van tot `100.0`, van `0.0` stil naarluid, zoals `75`. De standaardwaarde is `100.0`. Een relatieve waarde: Als een relatief getal: uitgedrukt als een getal dat wordt voorafgegaan door +of -, waarmee een bedrag wordt opgegeven om het volume te wijzigen. Voorbeelden zijn `+10` of `-5.5`. Als percentage: uitgedrukt als een getal dat voorafgaat door '+' (optioneel) of '-' en gevolgd door '%', waarmee de relatieve wijziging wordt aangegeven. Bijvoorbeeld: `<prosody volume="50%">some text</prosody>` of `<prosody volume="+3%">some text</prosody>`. Een constante waarde: Stille x-soft soft Normaal Luid x-luid default	Optioneel

Prosody-voorbeelden

Zie Prosody aanpassen voor informatie over de ondersteunde waarden voor kenmerken van het prosody element.

Voorbeeld van spreeksnelheid wijzigen

Dit SSML-fragment illustreert hoe het rate kenmerk wordt gebruikt om de spreeksnelheid te wijzigen in 30% hoger dan de standaardfrequentie.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <prosody rate="+30.00%">
            Enjoy using text to speech.
        </prosody>
    </voice>
</speak>

Voorbeeld van volume wijzigen

Dit SSML-fragment illustreert hoe het volume kenmerk wordt gebruikt om het volume te wijzigen in 20% groter dan het standaardvolume.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <prosody volume="+20.00%">
            Enjoy using text to speech.
        </prosody>
    </voice>
</speak>

Voorbeeld van pitch wijzigen

Dit SSML-fragment illustreert hoe het pitch kenmerk wordt gebruikt, zodat de stem in een hoge toonhoogte spreekt.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        Welcome to <prosody pitch="high">Enjoy using text to speech.</prosody>
    </voice>
</speak>

Voorbeeld van toonhoogtebeschrijving wijzigen

Dit SSML-fragment illustreert hoe het contour kenmerk wordt gebruikt om de contour te wijzigen.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <prosody contour="(60%,-60%) (100%,+80%)" >
            Were you the only person in the room?
        </prosody>
    </voice>
</speak>

Nadruk aanpassen

U kunt het optionele emphasis element gebruiken om stress op woordniveau toe te voegen of te verwijderen voor de tekst. Dit element kan alleen tekst en de volgende elementen bevatten: audio, , emphasisbreak, , phonemelang, prosody, say-as, , suben voice.

Notitie

De nadrukafstemming op woordniveau is alleen beschikbaar voor deze neurale stemmen: en-US-GuyNeural, en-US-DavisNeuralen en-US-JaneNeural.

Voor woorden met een lage toonhoogte en korte duur kan de pitch mogelijk niet genoeg worden opgevoed om te worden opgemerkt.

In de volgende tabel worden de kenmerken van het emphasis element beschreven:

Kenmerk	Beschrijving	Vereist of optioneel
`level`	Geeft de sterkte aan van de nadruk die moet worden toegepast: `reduced` `none` `moderate` `strong` . Wanneer het `level` kenmerk niet is opgegeven, is `moderate`het standaardniveau . Zie het nadrukelement voor meer informatie over elk kenmerk.	Optioneel

Nadrukvoorbeelden

Zie Nadruk aanpassen voor informatie over de ondersteunde waarden voor kenmerken van het emphasis element.

Dit SSML-fragment laat zien hoe u het emphasis element kunt gebruiken om gemiddelde nadruk toe te voegen voor het woord 'vergaderingen'.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
    <voice name="en-US-AndrewMultilingualNeural">
    I can help you join your <emphasis level="moderate">meetings</emphasis> fast.
    </voice>
</speak>

Opgenomen audio toevoegen

Het audio element is optioneel. U kunt het gebruiken om vooraf opgenomen audio in een SSML-document in te voegen. De hoofdtekst van het audio element kan tekst zonder opmaak of SSML-opmaak bevatten als het audiobestand niet beschikbaar of niet kan worden afgespeeld. Het audio element kan ook tekst en de volgende elementen bevatten: audio, break, p, s, phoneme, prosody, , , say-asen sub.

Alle audio die in het SSML-document is opgenomen, moet aan deze vereisten voldoen:

Het audiobestand moet geldig zijn *.mp3, *.wav, *.opus, *.ogg, *.flac of *.wma bestanden.
De gecombineerde totale tijd voor alle tekst- en audiobestanden in één antwoord mag niet langer zijn dan 600 seconden.
De audio mag geen klantspecifieke of andere gevoelige informatie bevatten.

Notitie

Het audio element wordt niet ondersteund door de Long Audio-API. Gebruik in plaats daarvan de batchsynthese-API (preview) voor tekst naar spraak met lange vormen.

In de volgende tabel wordt het gebruik van de kenmerken van het audio element beschreven:

Kenmerk	Beschrijving	Vereist of optioneel
`src`	De URI-locatie van het audiobestand. De audio moet worden gehost op een HTTPS-eindpunt dat toegankelijk is voor internet. HTTPS is vereist. Het domein dat als host fungeert voor het bestand moet een geldig, vertrouwd TLS/SSL-certificaat bevatten. U moet het audiobestand in Blob Storage in dezelfde Azure-regio plaatsen als de tekst naar het spraakeindpunt om de latentie te minimaliseren.	Vereist

Audiovoorbeelden

Zie Opgenomen audio toevoegen voor informatie over de ondersteunde waarden voor kenmerken van het audio element.

Dit SSML-fragment laat zien hoe u een kenmerk gebruikt src om audio uit twee .wav-bestanden in te voegen.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <p>
            <audio src="https://contoso.com/opinionprompt.wav"/>
            Thanks for offering your opinion. Please begin speaking after the beep.
            <audio src="https://contoso.com/beep.wav">
                Could not play the beep, please voice your opinion now.
            </audio>
        </p>
    </voice>
</speak>

De audioduur aanpassen

Gebruik het mstts:audioduration element om de duur van de uitvoeraudio in te stellen. Gebruik dit element om de timing van voltooiing van de audio-uitvoer te synchroniseren. De audioduur kan worden verlaagd of verhoogd tussen 0.52 het tijdstip van de snelheid van de oorspronkelijke audio. De oorspronkelijke audio is de audio zonder andere tariefinstellingen. De spreeksnelheid wordt vertraagd of wordt dienovereenkomstig versneld op basis van de ingestelde waarde.

De instelling voor de audioduur is van toepassing op alle invoertekst binnen het bijbehorende element voice . Als u de instelling voor de audioduur opnieuw wilt instellen of wijzigen, moet u een nieuw voice element met dezelfde stem of een andere stem gebruiken.

In de volgende tabel wordt het gebruik van de kenmerken van het mstts:audioduration element beschreven:

Kenmerk	Beschrijving	Vereist of optioneel
`value`	De aangevraagde duur van de uitvoeraudio in seconden, zoals `2s`, of milliseconden, zoals `2000ms`. Deze waarde moet binnen een `0.5` bepaald `2` tijdstip vallen voor de oorspronkelijke audio zonder andere tariefinstellingen. Als de aangevraagde duur van uw audio bijvoorbeeld is `30s`, moet de oorspronkelijke audio anders tussen 15 en 60 seconden zijn. Als u een waarde buiten deze grenzen instelt, wordt de duur ingesteld op basis van het respectieve minimum of maximum veelvoud. Gezien de aangevraagde audioduur van de uitvoer, past de Speech-service de spreeksnelheid dienovereenkomstig aan. Gebruik de spraaklijst-API en controleer het `WordsPerMinute` kenmerk om de spreeksnelheid van de neurale stem te achterhalen die u gebruikt. U kunt het aantal woorden in de invoertekst delen door de waarde van het `WordsPerMinute` kenmerk om de oorspronkelijke audioduur van de uitvoer op te halen. De uitvoergeluid klinkt het meest natuurlijk wanneer u de audioduur het dichtst bij de geschatte duur instelt.	Vereist

voorbeelden van mstts-audioduur

Zie De audioduur aanpassen voor informatie over de ondersteunde waarden voor kenmerken van het mstts:audioduration element.

In dit voorbeeld is de oorspronkelijke audio ongeveer 15 seconden. Het mstts:audioduration element wordt gebruikt om de audioduur in te stellen op 20 seconden of 20s.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" xml:lang="en-US">
<voice name="en-US-AvaMultilingualNeural">
<mstts:audioduration value="20s"/>
If we're home schooling, the best we can do is roll with what each day brings and try to have fun along the way.
A good place to start is by trying out the slew of educational apps that are helping children stay happy and smash their schooling at the same time.
</voice>
</speak>

Achtergrondaudio toevoegen

U kunt het mstts:backgroundaudio element gebruiken om achtergrondaudio toe te voegen aan uw SSML-documenten of een audiobestand te combineren met tekst naar spraak. Met mstts:backgroundaudiokunt u een audiobestand op de achtergrond herhalen, aan het begin van tekst naar spraak vervagen en aan het einde van tekst naar spraak vervagen.

Als de opgegeven achtergrondaudio korter is dan de tekst naar spraak of de uitfade out, wordt deze lussen uitgevoerd. Als de tekst langer is dan de tekst naar spraak, stopt deze wanneer de uitfade is voltooid.

Er is slechts één achtergrondaudiobestand per SSML-document toegestaan. U kunt audio tags in het voice element om meer audio toe te voegen aan uw SSML-document.

Notitie

Het mstts:backgroundaudio element moet vóór alle voice elementen worden geplaatst. Indien opgegeven, moet dit het eerste onderliggende element van het speak element zijn.

Het mstts:backgroundaudio element wordt niet ondersteund door de Long Audio-API. Gebruik in plaats daarvan de batchsynthese-API (preview) voor tekst naar spraak met lange vormen.

In de volgende tabel wordt het gebruik van de kenmerken van het mstts:backgroundaudio element beschreven:

Kenmerk	Beschrijving	Vereist of optioneel
`src`	De URI-locatie van het achtergrondaudiobestand.	Vereist
`volume`	Het volume van het achtergrondaudiobestand. Geaccepteerde waarden: `0` tot `100` inclusief. De standaardwaarde is `1`.	Optioneel
`fadein`	De duur van de achtergrondaudio vervaagt in milliseconden. De standaardwaarde is `0`, wat gelijk is aan geen vervagen. Geaccepteerde waarden: `0` tot `10000` inclusief.	Optioneel
`fadeout`	De duur van de achtergrondaudio vervaagt in milliseconden. De standaardwaarde is `0`, wat gelijk is aan geen vervagen. Geaccepteerde waarden: `0` tot `10000` inclusief.	Optioneel

voorbeelden van achtergrondaudio met msts

Zie Achtergrondaudio toevoegen voor informatie over de ondersteunde waarden voor kenmerken van het mstts:backgroundaudi element.

<speak version="1.0" xml:lang="en-US" xmlns:mstts="http://www.w3.org/2001/mstts">
    <mstts:backgroundaudio src="https://contoso.com/sample.wav" volume="0.7" fadein="3000" fadeout="4000"/>
    <voice name="en-US-AvaMultilingualNeural">
        The text provided in this document will be spoken over the background audio.
    </voice>
</speak>

Stem en geluid aanpassen met SSML

Spraakelementen gebruiken

Spraakvoorbeelden

Voorbeeld van één stem

Voorbeeld van meerdere stemmen

Voorbeeld van aangepaste neurale spraak

Voorbeeld van audio-effect

Spreekstijlen en -rollen gebruiken

mstts express-as-voorbeelden

Voorbeeld van stijl en graden

Voorbeeld van rol

Voorbeeld van aangepaste neurale spraakstijl

Id van sprekerprofiel

Spreektalen aanpassen

Meertalige stemmen met het lang-element

Lang-voorbeelden

Prosody aanpassen

Prosody-voorbeelden

Voorbeeld van spreeksnelheid wijzigen

Voorbeeld van volume wijzigen

Voorbeeld van pitch wijzigen

Voorbeeld van toonhoogtebeschrijving wijzigen

Nadruk aanpassen

Nadrukvoorbeelden

Opgenomen audio toevoegen

Audiovoorbeelden

De audioduur aanpassen

voorbeelden van mstts-audioduur

Achtergrondaudio toevoegen

voorbeelden van achtergrondaudio met msts

Volgende stappen

Aanvullende resources