Anpassen von Stimme und Ton mit SSML
Sie können die Markupsprache für Sprachsynthese (Speech Synthesis Markup Language, SSML) verwenden, um die Stimme, die Sprache, den Namen, den Stil und die Rolle für Sprachsynthese für Ihre Sprachausgabe anzugeben. Sie können auch mehrere Stimmen in einem einzelnen SSML-Dokument verwenden und die Betonung, Sprechrate, Tonhöhe und Lautstärke anpassen. Darüber hinaus bietet SSML die Möglichkeit, vorab aufgezeichnete Audiodaten einzufügen, z. B. einen Soundeffekt oder eine Musiknote.
In diesem Artikel erfahren Sie, wie Sie SSML-Elemente verwenden, um Stimme und Ton anzugeben. Weitere Informationen zur SSML-Syntax finden Sie unter SSML-Dokumentstruktur und -Ereignisse.
Verwenden von Sprachelementen
In jedem SSML-Speak-Element muss mindestens ein voice
-Element angegeben werden. Dieses Element legt die Stimme fest, die für Sprachsynthese verwendet wird.
Sie können mehrere voice
-Elemente in ein einzelnes SSML-Dokument aufnehmen. Jedes voice
-Element kann eine andere Stimme angeben. Ferner können Sie dieselbe Stimme mehrmals mit unterschiedlichen Einstellungen verwenden, etwa beim Ändern der Ruhedauer zwischen Sätzen.
In der folgenden Tabelle ist die Verwendung der Attribute des voice
-Elements beschrieben:
attribute | BESCHREIBUNG | Erforderlich oder optional |
---|---|---|
name |
Die Stimme, die für die Ausgabe der Sprachsynthese verwendet wird. Eine vollständige Liste der unterstützten vordefinierten Stimmen finden Sie unter Sprachunterstützung. | Erforderlich |
effect |
Der Prozessor für den Audioeffekt, der verwendet wird, um die Qualität der synthetisierten Sprachausgabe für bestimmte Szenarien auf Geräten zu optimieren. In einigen Szenarien in Produktionsumgebungen könnte die Hörerfahrung aufgrund der Wiedergabeverzerrung auf bestimmten Geräten beeinträchtigt werden. Beispielsweise könnte die synthetisierte Sprache eines Autolautsprechers aufgrund von Umgebungsfaktoren wie Lautsprecherantwort, Raumhall und Hintergrundgeräuschen dumpf und gedämpft klingen. Der Passagier muss möglicherweise die Lautstärke aufdrehen, um besser zu hören. Um manuelle Vorgänge in einem solchen Szenario zu vermeiden, kann der Prozessor für den Audioeffekt den Sound klarer machen, indem er die Verzerrung der Wiedergabe kompensiert. Die folgenden Werte werden unterstützt:
Wenn der Wert fehlt oder ungültig ist, wird dieses Attribut ignoriert, und es wird kein Effekt angewendet. |
Optional |
Stimmbeispiele
Informationen zu den unterstützten Werten für Attribute des voice
-Elements finden Sie unter Verwenden von Sprachelementen.
Beispiel mit einer Stimme
In diesem Beispiel wird die Stimme en-US-AvaMultilingualNeural
verwendet.
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
<voice name="en-US-AvaMultilingualNeural">
This is the text that is spoken.
</voice>
</speak>
Beispiel für mehrere Stimmen
Innerhalb des speak
-Elements können Sie mehrere Stimmen für die Ausgabe der Sprachsynthese angeben. Diese Stimmen können in verschiedenen Sprachen sein. Der Text muss bei jeder Stimme von einem voice
-Element umschlossen werden.
In diesem Beispiel wird zwischen den Stimmen en-US-AvaMultilingualNeural
und en-US-AndrewMultilingualNeural
abgewechselt. Die neuronalen mehrsprachigen Stimmen können auf der Grundlage des eingegebenen Textes verschiedene Sprachen sprechen.
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
<voice name="en-US-AvaMultilingualNeural">
Good morning!
</voice>
<voice name="en-US-AndrewMultilingualNeural">
Good morning to you too Ava!
</voice>
</speak>
Beispiel für eine benutzerdefinierte neuronale Stimme
Zum Verwenden Ihrer benutzerdefinierten neuronalen Stimme geben Sie den Modellnamen in SSML als Stimmnamen an.
In diesem Beispiel wird eine benutzerdefinierte Stimme mit dem Namen my-custom-voice verwendet.
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
<voice name="my-custom-voice">
This is the text that is spoken.
</voice>
</speak>
Beispiel für Audioeffekte
Sie verwenden das effect
-Attribut, um die Hörerfahrung für Szenarien wie Autos und Telekommunikation zu optimieren. Im folgenden SSML-Beispiel wird das effect
-Attribut mit der Konfiguration in Fahrzeugszenarien verwendet.
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
<voice name="en-US-AvaMultilingualNeural" effect="eq_car">
This is the text that is spoken.
</voice>
</speak>
Verwenden von Sprechstilen und Rollen
Neuronale Stimmen haben standardmäßig einen neutralen Sprechstil. Sie können die Sprechweise, den Stilgrad und die Rolle auf Satzebene anpassen.
Hinweis
Der Speech-Dienst unterstützt Stile, Stilgrad und Rollen für eine Teilmenge der neuronalen Stimmen, wie in der Dokumentation zu Sprechstilen und Rollen beschrieben. Um zu bestimmen, welche Stile und Rollen für jede Stimme unterstützt werden, können Sie auch die Stimmen auflisten-API und die Webanwendung zur Audioinhaltserstellung verwenden.
In der folgenden Tabelle ist die Verwendung der Attribute des mstts:express-as
-Elements beschrieben:
attribute | BESCHREIBUNG | Erforderlich oder optional |
---|---|---|
style |
Der stimmspezifische Sprechstil. Sie können Emotionen wie Fröhlichkeit, Empathie und Besonnenheit ausdrücken. Sie können die Stimme auch für verschiedene Szenarien wie Kundendienst, Nachrichtenbeitrag und Sprachassistent optimieren. Wenn der Stilwert fehlt oder ungültig ist, wird das gesamte mstts:express-as -Element ignoriert, und der Dienst verwendet die neutrale Standardstimme. Informationen zu benutzerdefinierten neuronalen Sprechstilen finden Sie im Beispiel für benutzerdefinierte neuronale Stimme. |
Erforderlich |
styledegree |
Die Intensität der Sprechweise. Sie können eine kräftigere oder sanftere Sprechweise angeben, um die Sprache ausdrucksstärker oder gedämpfter zu gestalten. Der Bereich der akzeptierten Werte ist: 0.01 bis einschließlich 2 . Der Standardwert ist 1 , d. h. die vordefinierte Intensität für die Sprechweise. Die minimale Einheit ist 0.01 , was zu einer leichten Tendenz zur Zielsprechweise führt. Ein Wert von 2 führt zu einer Verdoppelung der standardmäßigen Intensität der Sprechweise. Wenn der Stilgrad fehlt oder für Ihre Stimme nicht unterstützt wird, wird dieses Attribut ignoriert. |
Optional |
role |
Das Sprechrollenspiel. Die Stimme kann ein anderes Alter und Geschlecht imitieren, aber der Name der Stimme ändert sich nicht. Beispielsweise kann eine männliche Stimme die Tonhöhe erhöhen und die Intonation so ändern, dass eine weibliche Stimme imitiert wird, aber der Stimmname wird nicht geändert. Wenn die Rolle fehlt oder für Ihre Stimme nicht unterstützt wird, wird dieses Attribut ignoriert. | Optional |
In der folgenden Tabelle werden die einzelnen unterstützten style
-Attribute beschrieben:
Style | BESCHREIBUNG |
---|---|
style="advertisement_upbeat" |
Drückt einen begeisterten und energiegeladenen Ton aus, um ein Produkt oder einen Dienst zu bewerben. |
style="affectionate" |
Warmer und herzlicher Ton mit höherer Tonhöhe und stimmlicher Energie Der Sprecher ist in einem Zustand, in dem er die Aufmerksamkeit der Zuhörer auf sich zieht. Die „Persönlichkeit“ des Sprechers ist oft von liebenswerter Art. |
style="angry" |
Wütender und verärgerter Ton |
style="assistant" |
Herzlicher und zwangloser Ton für digitale Assistenten |
style="calm" |
Kühle, gesammelte und gelassene Haltung beim Sprechen Ton, Tonhöhe und Intonation sind im Vergleich zu anderen Sprachtypen viel einheitlicher. |
style="chat" |
Lockerer und zwangloser Ton |
style="cheerful" |
Positiver und fröhlicher Ton |
style="customerservice" |
Freundlicher und hilfsbereiter Ton für den Kundensupport |
style="depressed" |
Melancholischer und niedergeschlagener Ton mit geringerer Tonhöhe und weniger Energie |
style="disgruntled" |
Verächtlicher und klagender Ton Eine Rede mit dieser Emotion zeugt von Unmut und Verachtung. |
style="documentary-narration" |
Dokumentationen werden in einem entspannten, interessierten und informativen Stil erzählt, der sich für Dokumentationen, Expertenkommentare und ähnliche Inhalte eignet. |
style="embarrassed" |
Unsicherer und zögerlicher Ton, wenn sich der Sprecher unwohl fühlt |
style="empathetic" |
Drückt ein Gefühl von Anteilnahme und Verständnis aus |
style="envious" |
Drückt einen Ton der Bewunderung aus, wenn eine Person etwas begehrt, das eine andere Person hat. |
style="excited" |
Drückt einen optimistischen und hoffnungsvollen Ton aus. Es klingt, als ob etwas Großartiges passiert, und der Sprecher sich darüber freut. |
style="fearful" |
Ängstlicher und nervöser Ton mit höherer Tonhöhe, höherer stimmlicher Energie und höherem Tempo Der Sprecher befindet sich in einem Zustand von Spannung und Unbehagen. |
style="friendly" |
Drückt einen angenehmen, einladenden und warmen Ton aus. Es klingt aufrichtig und fürsorglich. |
style="gentle" |
Sanfter, höflicher und angenehmer Ton mit geringerer Tonhöhe und stimmlicher Energie |
style="hopeful" |
Drückt einen warmen und sehnsüchtigen Ton aus. Es klingt, als würde dem Sprecher etwas Gutes widerfahren. |
style="lyrical" |
Melodischer und gefühlvoller Ton zum Ausdrücken von Emotionen |
style="narration-professional" |
Professioneller und objektiver Ton für das Lesen von Inhalten |
style="narration-relaxed" |
Beruhigender und melodiöser Ton für das Lesen von Inhalten. |
style="newscast" |
Formeller und professioneller Ton für Nachrichten |
style="newscast-casual" |
Gewandter und ungezwungener Ton für die Mitteilung allgemeiner Nachrichten |
style="newscast-formal" |
Formaler, souveräner und verbindlicher Ton für die Mitteilung von Nachrichten |
style="poetry-reading" |
Emotionaler und rhythmischer Ton beim Lesen eines Gedichts |
style="sad" |
Trauriger Ton |
style="serious" |
Strenger und gebieterischer Ton Der Sprecher klingt oft steifer und viel weniger entspannt mit festem Rhythmus. |
style="shouting" |
Ein Tonfall, der so klingt, als ob die Stimme weit weg oder an einem anderen Ort ist und sich bemüht, deutlich gehört zu werden. |
style="sports_commentary" |
Drückt einen entspannten und interessanten Ton bei der Übertragung von Sportereignissen aus. |
style="sports_commentary_excited" |
Drückt einen intensiven und energiegeladenen Ton für aufregende Momente bei der Übertragung von Sportereignissen aus. |
style="whispering" |
Drückt einen sanften Ton aus, der versucht, einen ruhigen und sanften Klang zu machen. |
style="terrified" |
Drückt einen beängstigten Ton aus, hastig und mit zitternder Stimme. Es klingt, als befände sich der Sprecher in einem unsicheren und hektischen Zustand. |
style="unfriendly" |
Drückt einen kalten und gleichgültigen Ton aus. |
Die folgende Tabelle enthält Beschreibungen der einzelnen unterstützten role
-Attribute:
Rolle | BESCHREIBUNG |
---|---|
role="Girl" |
Die Stimme imitiert ein Mädchen. |
role="Boy" |
Die Stimme imitiert einen Jungen. |
role="YoungAdultFemale" |
Die Stimme imitiert eine junge erwachsene Frau. |
role="YoungAdultMale" |
Die Stimme imitiert einen jungen erwachsenen Mann. |
role="OlderAdultFemale" |
Die Stimme imitiert eine ältere erwachsene Frau. |
role="OlderAdultMale" |
Die Stimme imitiert einen älteren erwachsenen Mann. |
role="SeniorFemale" |
Die Stimme imitiert eine reife Frau. |
role="SeniorMale" |
Die Stimme imitiert einen reifen Mann. |
mstts express-as-Beispiele
Informationen zu den unterstützten Werten für Attribute des mstts:express-as
-Elements finden Sie unter Verwenden von Sprechstilen und Rollen.
Beispiel für Stil und Grad
Sie verwenden das mstts:express-as
-Element, um Emotionen wie Fröhlichkeit, Empathie und Besonnenheit auszudrücken. Sie können die Stimme auch für verschiedene Szenarien wie Kundendienst, Nachrichtenbeitrag und Sprachassistent optimieren.
Im folgenden SSML-Beispiel wird das <mstts:express-as>
-Element mit dem Grad 2
für den sad
Stil verwendet.
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="zh-CN">
<voice name="zh-CN-XiaomoNeural">
<mstts:express-as style="sad" styledegree="2">
快走吧,路上一定要注意安全,早去早回。
</mstts:express-as>
</voice>
</speak>
Rollenbeispiel
Abgesehen von der Anpassung der Sprechweisen und ihrer Abstufungen können Sie auch den role
-Parameter anpassen, damit die Stimme ein anderes Alter und Geschlecht imitiert. Beispielsweise kann eine männliche Stimme die Tonhöhe erhöhen und die Intonation so ändern, dass eine weibliche Stimme imitiert wird, aber der Stimmname wird nicht geändert.
Dieser SSML-Codeausschnitt veranschaulicht, wie das Attribut role
verwendet wird, um die Rolle für zh-CN-XiaomoNeural
zu ändern.
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="zh-CN">
<voice name="zh-CN-XiaomoNeural">
女儿看见父亲走了进来,问道:
<mstts:express-as role="YoungAdultFemale" style="calm">
“您来的挺快的,怎么过来的?”
</mstts:express-as>
父亲放下手提包,说:
<mstts:express-as role="OlderAdultMale" style="calm">
“刚打车过来的,路上还挺顺畅。”
</mstts:express-as>
</voice>
</speak>
Stilbeispiel für benutzerdefinierte neuronale Stimme
Sie können Ihre benutzerdefinierte neuronale Stimme so trainieren, dass sie mit einigen voreingestellten Stilen wie cheerful
, sad
und whispering
sprechen kann. Darüber hinaus können Sie eine benutzerdefinierte neuronale Stimme trainieren, in einem benutzerdefinierten Stil zu sprechen, der durch Ihre Trainingsdaten bestimmt wird. Zum Verwenden Ihres benutzerdefinierten neuronalen Sprechstils in SSML geben Sie den Namen des Stils an, den Sie zuvor in Speech Studio eingegeben haben.
In diesem Beispiel wird eine benutzerdefinierte Stimme mit dem Namen my-custom-voice verwendet. Die benutzerdefinierte Stimme spricht mit dem voreingestellten Stil cheerful
und dem Stilgrad 2
und dann mit einem benutzerdefinierten Stil namens my-custom-style und dem Stilgrad 0.01
.
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
<voice name="my-custom-voice">
<mstts:express-as style="cheerful" styledegree="2">
That'd be just amazing!
</mstts:express-as>
<mstts:express-as style="my-custom-style" styledegree="0.01">
What's next?
</mstts:express-as>
</voice>
</speak>
Sprecherprofil-ID
Sie verwenden das mstts:ttsembedding
Element, um die speakerProfileId
Eigenschaft für eine persönliche Stimmeanzugeben. Persönliche Stimme ist eine benutzerdefinierte neurale Stimme, die auf Ihrer eigenen Stimme oder der Stimme Ihres Kunden trainiert wird. Weitere Informationen finden Sie unter Erstellen einer persönlichen Stimme.
Im folgenden SSML-Beispiel wird das <mstts:ttsembedding>
Element mit einem Sprachnamen und einer Sprecherprofil-ID verwendet.
<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='http://www.w3.org/2001/mstts' xml:lang='en-US'>
<voice xml:lang='en-US' xml:gender='Male' name='PhoenixV2Neural'>
<mstts:ttsembedding speakerProfileId='your speaker profile ID here'>
I'm happy to hear that you find me amazing and that I have made your trip planning easier and more fun. 我很高兴听到你觉得我很了不起,我让你的旅行计划更轻松、更有趣。Je suis heureux d'apprendre que vous me trouvez incroyable et que j'ai rendu la planification de votre voyage plus facile et plus amusante.
</mstts:ttsembedding>
</voice>
</speak>
Anpassen der gesprochenen Sprachen
Standardmäßig können mehrsprachige Stimmen die Sprache des Eingabetexts automatisch erkennen und in der Sprache des Standardgebietsschemas des Eingabetexts sprechen, ohne SSML zu verwenden. Optional können Sie das <lang xml:lang>
-Element verwenden, um die gesprochene Sprache für diese Stimmen anzupassen, um den bevorzugten Akzent festzulegen, z. B. auf en-GB
für britisches Englisch. Sie können die Ausgabesprache sowohl auf Satzebene als auch auf Wortebene anpassen. Informationen zu den unterstützten Sprachen für mehrsprachige Spracherkennung finden Sie unter Mehrsprachige Stimmen mit dem lang-Element für eine Tabelle, die die <lang>
-Syntax- und -Attributdefinitionen anzeigt.
In der folgenden Tabelle ist die Verwendung der Attribute des <lang xml:lang>
-Elements beschrieben:
attribute | BESCHREIBUNG | Erforderlich oder optional |
---|---|---|
xml:lang |
Die Sprache, in der die neuronale Stimme sprechen soll. | Erforderlich, um die gesprochene Sprache für die neuronale Stimme anzupassen. Wenn Sie lang xml:lang verwenden, muss das Gebietsschema angegeben werden. |
Hinweis
Das <lang xml:lang>
-Element ist mit den Elementen prosody
und break
nicht kompatibel. Sie können Pausen und Satzrhythmus wie Tonhöhe, Kontur, Geschwindigkeit oder Lautstärke in diesem Element nicht anpassen.
Nicht mehrsprachige Stimmen bieten standardmäßig keine Unterstützung für das <lang xml:lang>
-Element.
Mehrsprachige Stimmen mit dem lang-Element
Verwenden Sie den Abschnitt Mehrsprachige Stimmen, um zu bestimmen, welche Ausgabesprachen der Speech-Dienst für jede neuronale Stimme unterstützt, wie in der folgenden Beispieltabelle gezeigt. Wenn die Stimme nicht die Sprache des Eingabetexts spricht, erfolgt keine synthetisierte Audioausgabe vom Speech-Dienst.
Voice | Automatisch erkannte Sprachnummer | Automatisch erkannte Sprache (Gebietsschema) | Alle Gebietsschemanummern | Alle von SSML unterstützten Sprachen (Gebietsschema) |
---|---|---|---|---|
en-US-AndrewMultilingualNeural 1 (männlich)en-US-AvaMultilingualNeural 1 (weiblich)en-US-BrianMultilingualNeural 1 (männlich)en-US-EmmaMultilingualNeural 1 (weiblich) |
77 | Afrikaans (af-ZA ), Albanisch (sq-AL ), Amharisch (am-ET ), Arabisch (ar-EG ), Armenisch (hy-AM ), Aserbaidschanisch (az-AZ ), Bahasa Indonesia (id-ID ), Bangla (bn-BD ), Baskisch (eu-ES ), Bengalisch (bn-IN ), Bosnisch (bs-BA ), Bulgarisch (bg-BG ), Birmanisch (my-MM ), Katalanisch (ca-ES ), Chinesisch (Kantonesisch) (zh-HK ), Chinesisch (Mandarin) (zh-CN ), Chinesisch (Taiwanesisch) (zh-TW ), Kroatisch (hr-HR ), Tschechisch (cs-CZ ), Dänisch (da-DK ), Niederländisch (nl-NL ), Englisch (en-US ), Estnisch (et-EE ), Filipino (fil-PH ), Finnisch (fi-FI ), Französisch (fr-FR ), Galicisch (gl-ES ), Georgisch (ka-GE ), Deutsch (de-DE ), Griechisch (el-GR ), Hebräisch (he-IL ), Hindi (hi-IN ), Ungarisch (hu-HU ), Isländisch (is-IS ), Irisch (ga-IE ), Italienisch (it-IT ), Japanisch (ja-JP ), Javanisch (jv-ID ), Kannada (kn-IN ), Kasachisch (kk-KZ ), Khmer (km-KH ), Koreanisch (ko-KR ), Lao (lo-LA ), Lettisch (lv-LV ), Litauisch (lt-LT ), Mazedonisch (mk-MK ), Malaysisch (ms-MY ), Malayalam (ml-IN ), Maltesisch (mt-MT ), Mongolisch (mn-MN ), Nepali (ne-NP ), Norwegisch (Bokmål) (nb-NO ), Paschtunisch (ps-AF ), Persisch (fa-IR ), Polnisch (pl-PL ), Portugiesisch (pt-BR ), Rumänisch (ro-RO ), Russisch (ru-RU ), Serbisch (sr-RS ), Singhalesisch (si-LK ), Slowakisch (sk-SK ), Slowenisch (sl-SI ), Somali (so-SO ), Spanisch (es-ES ), Sundanesisch (su-ID ), Kisuaheli (sw-KE ), Schwedisch (sv-SE ), Tamil (ta-IN ), Telugu (te-IN ), Thailändisch (th-TH ), Türkisch (tr-TR ), Ukrainisch (uk-UA ), Urdu (ur-PK ), Usbekisch (uz-UZ ), Vietnamesisch (vi-VN ), Walisisch (cy-GB ), Zulu (zu-ZA ) |
91 | Afrikaans (Südafrika) (af-ZA ), Albanisch (Albanien) (sq-AL ), Amharisch (Äthiopien) (am-ET ), Arabisch (Ägypten) (ar-EG ), Arabisch (Saudi-Arabien) (ar-SA ), Armenisch (Armenien) (hy-AM ), Aserbaidschanisch (Aserbaidschan) (az-AZ ), Baskisch (Baskenland) (eu-ES ), Bengalisch (Indien) (bn-IN ), Bosnisch (Bosnien und Herzegowina) (bs-BA ), Bulgarisch (Bulgarien) (bg-BG ), Birmanisch (Myanmar) (my-MM ), Katalanisch (Spanisch) (ca-ES ), Chinesisch (Kantonesisch, traditionell) (zh-HK ), Chinesisch (Mandarin, vereinfacht) (zh-CN ), Chinesisch (taiwanesisches Mandarin) (zh-TW ), Kroatisch (Kroatien) (hr-HR ), Tschechisch (Tschechien) (cs-CZ ), Dänisch (Dänemark) (da-DK ), Niederländisch (Belgien) (nl-BE ), Niederländisch (Niederlande) (nl-NL ), Englisch (Australien) (en-AU ), Englisch (Kanada) (en-CA ), Englisch (Hongkong (SAR)) (en-HK ), Englisch (Indien) (en-IN ), Englisch (Irland) (en-IE ), Englisch (Vereinigtes Königreich) (en-GB ), Englisch (USA) (en-US ), Estnisch (Estland) (et-EE ), Filipino (Philippinen) (fil-PH ), Finnisch (Finland) (fi-FI ), Französisch (Belgien) (fr-BE ), Französisch (Kanada) (fr-CA ), Französisch (Frankreich) (fr-FR ), Französisch (Schweiz) (fr-CH ), Galicisch (Galizien) (gl-ES ), Georgisch (Georgien) (ka-GE ), Deutsch (Österreich) (de-AT ), Deutsch (Deutschland) (de-DE ), Deutsch (Schweiz) (de-CH ), Griechisch (Griechenland) (el-GR ), Hebräisch (Israel) (he-IL ), Hindi (Indien) (hi-IN ), Ungarisch (Ungarn) (hu-HU ), Isländisch (Island) (is-IS ), Indonesisch (Indonesien) (id-ID ), Irisch (Irland) (ga-IE ), Italienisch (Italien) (it-IT ), Japanisch (Japan) (ja-JP ), Javanisch (Indonesien) (jv-ID ), Kannada (Indien) (kn-IN ), Kasachisch (Kasachstan) (kk-KZ ), Khmer (Kambodscha) (km-KH ), Koreanisch (Südkorea) (ko-KR ), Lao (Laos) (lo-LA ), Lettisch (Lettland) (lv-LV ), Litauisch (Litauen) (lt-LT ), Mazedonisch (Nordmazedonien) (mk-MK ), Malaysisch (Malaysia) (ms-MY ), Malayalam (Indien) (ml-IN ), Maltesisch (Malta) (mt-MT ), Mongolisch (Mongolei) (mn-MN ), Nepali (Nepal) (ne-NP ), Norwegisch (Bokmål, Norwegen) (nb-NO ), Paschtunisch (Afghanistan) (ps-AF ), Persisch (Iran) (fa-IR ), Polnisch (Polen) (pl-PL ), Portugiesisch (Brasilien) (pt-BR ), Portugiesisch (Portugal) (pt-PT ), Rumänisch (Rumänien) (ro-RO ), Russisch (Russland) (ru-RU ), Serbisch (Kyrillisch, Serbien) (sr-RS ), Singhalesisch (Sri Lanka) (si-LK ), Slowakisch (Slowakei) (sk-SK ), Slowenisch (Slowenien) (sl-SI ), Somali (Somalia) (so-SO ), Spanisch (Mexiko) (es-MX ), Spanisch (Spanien) (es-ES ), Sundanesisch (Indonesien) (su-ID ), Kisuaheli (Kenia) (sw-KE ), Schwedisch (Schweden) (sv-SE ), Tamil (Indien) (ta-IN ), Telugu (Indien) (te-IN ), Thailändisch (Thailand) (th-TH ), Türkisch (Türkiye) (tr-TR ), Ukrainisch (Ukraine) (uk-UA ), Urdu (Pakistan) (ur-PK ), Usbekisch (Usbekistan) (uz-UZ ), Vietnamesisch (Vietnam) (vi-VN ), Walisisch (Vereinigtes Königreich) (cy-GB ), Zulu (Südafrika) (zu-ZA ) |
1 Das sind die neuronale mehrsprachige Stimmen in Azure KI Speech. Alle mehrsprachigen Stimmen können in der Sprache im Standardgebietsschema des Eingabetexts sprechen, ohne SSML zu verwenden. Sie können das <lang xml:lang>
-Element jedoch weiterhin verwenden, um den Sprachakzent jeder Sprache anzupassen, um bevorzugte Akzente wie den britischen Akzent (en-GB
) für Englisch festzulegen. Das primäre Gebietsschema für jede Stimme geht aus dem Präfix des Namens hervor. Das primäre Gebietsschema für die Stimme en-US-AndrewMultilingualNeural
ist beispielsweise en-US
.
Hinweis
Bestimmte SSML-Elemente wie break
, emphasis
, silence
und sub
werden in mehrsprachigen Stimmen nicht vollständig unterstützt.
Sprachbeispiele
Informationen zu den unterstützten Werten für Attribute des lang
-Elements finden Sie unter Anpassen der gesprochenen Sprache.
en-US
muss als Standardsprache innerhalb des speak
-Elements angegeben werden, unabhängig davon, ob die Sprache an anderer Stelle angepasst wird. In diesem Beispiel ist en-US
die primäre Sprache für en-US-AvaMultilingualNeural
.
Dieser SSML-Codeausschnitt zeigt, wie Sie <lang xml:lang>
verwenden, damit mit der neuronalen Stimme en-US-AvaMultilingualNeural
in der Sprache de-DE
gesprochen wird.
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
<voice name="en-US-AvaMultilingualNeural">
<lang xml:lang="de-DE">
Wir freuen uns auf die Zusammenarbeit mit Ihnen!
</lang>
</voice>
</speak>
Innerhalb des speak
-Elements können Sie mehrere Sprache, einschließlich en-US
, für die Sprachsynthese angeben. Bei jeder angepassten Sprache muss der Text mit der Sprache übereinstimmen und in ein voice
-Element integriert werden. Dieser SSML-Codeausschnitt zeigt, wie Sie <lang xml:lang>
verwenden, um die gesprochenen Sprachen in es-MX
, en-US
und fr-FR
zu ändern.
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
<voice name="en-US-AvaMultilingualNeural">
<lang xml:lang="es-MX">
¡Esperamos trabajar con usted!
</lang>
<lang xml:lang="en-US">
We look forward to working with you!
</lang>
<lang xml:lang="fr-FR">
Nous avons hâte de travailler avec vous!
</lang>
</voice>
</speak>
Anpassen des Satzrhythmus
Sie können das prosody
-Element verwenden, um Änderungen an Tonhöhe, Kontur, Bereich, Geschwindigkeit und Lautstärke für die Ausgabe der Sprachsynthese anzugeben. Das prosody
-Element kann Text und die folgenden Elemente enthalten: audio
, break
, p
, phoneme
, prosody
, say-as
, sub
und s
.
Weil Attributwerte für den Satzrhythmus über einen breiten Bereich variieren können, interpretiert die Spracherkennung die zugewiesenen Werte als einen Vorschlag dazu, wie die tatsächlichen Satzrhythmuswerte für die ausgewählte Stimme lauten sollten. Die Sprachsynthese beschränkt oder ersetzt nicht unterstützte Werte. Beispiele für nicht unterstützte Werte sind eine Tonhöhe von 1 MHz oder eine Lautstärke von 120.
In der folgenden Tabelle ist die Verwendung der Attribute des prosody
-Elements beschrieben:
attribute | BESCHREIBUNG | Erforderlich oder optional |
---|---|---|
contour |
Die Kontur stellt Änderungen der Tonhöhe dar. Diese Änderungen werden als ein Array von Zielen an den angegebenen Zeitpositionen in der Sprachausgabe dargestellt. Sätze von Parameterpaaren definieren jedes Ziel. Beispiel: <prosody contour="(0%,+20Hz) (10%,-2st) (40%,+10Hz)"> Der erste Wert in jeder Gruppe von Parametern gibt den Ort der Tonhöhenänderung als Prozentsatz der Textdauer an. Der zweite Wert gibt den Betrag an, um den die Tonhöhe erhöht oder verringert werden soll. Dazu wird ein relativer Wert oder ein Aufzählungswert für die Tonhöhe verwendet (siehe pitch ). Die Tonhöhenkontur funktioniert nicht für einzelne Wörter und kurze Ausdrücke. Es wird empfohlen, die Tonhöhenkontur mit ganzen Sätzen oder längeren Sätzen anzupassen. |
Optional |
pitch |
Gibt die Basistonhöhe für den Text an. Änderungen der Tonhöhe können auf Satzebene vorgenommen werden. Die Tonhöhenänderungen sollten innerhalb von 0,5 bis 1.5 Mal der ursprünglichen Audiowiedergabe betragen. Sie können die Tonhöhe ausdrücken als:
|
Optional |
range |
Ein Wert, der den Tonhöhenbereich für den Text darstellt. Sie können range mit denselben absoluten Werten, relativen Werten oder Aufzählungswerten ausdrücken, mit denen pitch beschrieben wird. |
Optional |
rate |
Gibt die Sprechgeschwindigkeit für den Text an. Die Sprechgeschwindigkeit kann auf Wort- oder Satzebene angewendet werden. Die Geschwindigkeitsänderungen sollten innerhalb von 0.5 bis 2 Mal der ursprünglichen Audiowiedergabe betragen. Sie können rate ausdrücken als:
|
Optional |
volume |
Gibt die Lautstärke der Sprechstimme an. Änderungen der Lautstärke können auf Satzebene vorgenommen werden. Sie können die Lautstärke ausdrücken als:
|
Optional |
Prosodiebeispiele
Informationen zu den unterstützten Werten für Attribute des prosody
-Elements finden Sie unter Anpassen des Satzrhythmus.
Beispiel zum Ändern der Sprechgeschwindigkeit
Dieser SSML-Codeschnipsel veranschaulicht, wie das rate
-Attribut verwendet wird, um die Sprechrate auf 30 % höher als die Standardrate zu ändern.
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
<voice name="en-US-AvaMultilingualNeural">
<prosody rate="+30.00%">
Enjoy using text to speech.
</prosody>
</voice>
</speak>
Beispiel zum Ändern der Lautstärke
Dieser SSML-Codeschnipsel veranschaulicht, wie das volume
-Attribut verwendet wird, um die Lautstärke auf 20 % höher als die Standardlautstärke zu ändern.
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
<voice name="en-US-AvaMultilingualNeural">
<prosody volume="+20.00%">
Enjoy using text to speech.
</prosody>
</voice>
</speak>
Beispiel zum Ändern der Tonhöhe
Dieser SSML-Codeschnipsel veranschaulicht, wie das pitch
-Attribut verwendet wird, damit die Stimme in einer hohen Tonhöhe spricht.
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
<voice name="en-US-AvaMultilingualNeural">
Welcome to <prosody pitch="high">Enjoy using text to speech.</prosody>
</voice>
</speak>
Beispiel zum Ändern der Tonhöhenkontur
Dieser SSML-Codeschnipsel veranschaulicht, wie das Attribut contour
verwendet wird, um die Kontur zu ändern.
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
<voice name="en-US-AvaMultilingualNeural">
<prosody contour="(60%,-60%) (100%,+80%)" >
Were you the only person in the room?
</prosody>
</voice>
</speak>
Anpassen der Hervorhebung
Sie können das optionale Element emphasis
zum Hinzufügen oder Entfernen von Word-Level-Stress für den Text verwenden. Dieses Element kann nur Text und die folgenden Elemente enthalten: audio
, break
, emphasis
, lang
, phoneme
, prosody
, say-as
, sub
und voice
.
Hinweis
Die Hervorhebungsoptimierung auf Wortebene ist nur für diese neuronalen Stimmen verfügbar: en-US-GuyNeural
, en-US-DavisNeural
, und en-US-JaneNeural
.
Bei Wörtern, die eine niedrige Tonhöhe und eine kurze Dauer haben, ist die Tonhöhe möglicherweise nicht hoch genug, um wahrgenommen zu werden.
In der folgenden Tabelle sind die Attribute des emphasis
-Elements beschrieben:
attribute | BESCHREIBUNG | Erforderlich oder optional |
---|---|---|
level |
Gibt die Stärke der Hervorhebung an, die angewendet werden soll:
Wenn das Attribut level nicht angegeben wird, ist moderate die Standardstufe. Ausführliche Informationen zu jedem Attribut finden Sie im Hervorhebungselement. |
Optional |
Betonungsbeispiele
Informationen zu den unterstützten Werten für Attribute des emphasis
-Elements finden Sie unter Anpassen der Hervorhebung.
In diesem SSML-Codeausschnitt wird veranschaulicht, wie Sie das Element emphasis
verwenden können, um für das Wort „Besprechungen“ eine moderate Akzentsetzung hinzuzufügen.
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
<voice name="en-US-AndrewMultilingualNeural">
I can help you join your <emphasis level="moderate">meetings</emphasis> fast.
</voice>
</speak>
Hinzufügen von Audioaufzeichnungen
Das audio
-Element ist optional. Sie können damit vorab aufgezeichnete Audiodaten in ein SSML-Dokument einfügen. Der Textkörper des audio
-Elements kann Nur-Text oder SSML-Markup enthalten, das verwendet wird, wenn die Audiodatei nicht verfügbar ist oder nicht wiedergegeben werden kann. Das audio
-Element kann außerdem Text und die folgenden Elemente enthalten: audio
, break
, p
, s
, phoneme
, prosody
, say-as
und sub
.
Alle Audiodaten, die im SSML-Dokument enthalten sind, müssen die folgenden Anforderungen erfüllen:
- Bei der Audiodatei muss es sich um eine gültige MP3-, WAV-, OPUS-, OGG-, FLAC- oder WMA-Datei handeln.
- Die Gesamtzeit für alle Text- und Audiodateien in einer einzelnen Antwort kann nicht über 600 Sekunden liegen.
- Die Audiodatei darf keine kundenspezifischen oder andere vertrauliche Informationen enthalten.
Hinweis
Das Element audio
wird von der API für lange Audioinhalte nicht unterstützt. Verwenden Sie für die Langform-Sprachsynthese stattdessen die Batchsynthese-API.
In der folgenden Tabelle ist die Verwendung der Attribute des audio
-Elements beschrieben:
attribute | BESCHREIBUNG | Erforderlich oder optional |
---|---|---|
src |
Der URI-Speicherort der Audiodatei. Die Audiodaten müssen auf einem HTTPS-Endpunkt gehostet werden, der über das Internet zugänglich ist. HTTPS ist erforderlich. Die Domäne, die die Datei hostet, muss über ein gültiges vertrauenswürdiges TSL/SSL-Zertifikat verfügen. Sie sollten die Audiodatei in einer Blob Storage-Instanz in derselben Azure-Region wie den Sprachsynthese-Endpunkt speichern, um die Wartezeit zu minimieren. | Erforderlich |
Audiobeispiele
Informationen zu den unterstützten Werten für Attribute des audio
-Elements finden Sie unter Hinzufügen von Audioaufzeichnungen.
Dieser SSML-Codeschnipsel veranschaulicht, wie das src
-Attribut verwendet wird, um Audio aus zwei WAV-Dateien einzufügen.
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
<voice name="en-US-AvaMultilingualNeural">
<p>
<audio src="https://contoso.com/opinionprompt.wav"/>
Thanks for offering your opinion. Please begin speaking after the beep.
<audio src="https://contoso.com/beep.wav">
Could not play the beep, please voice your opinion now.
</audio>
</p>
</voice>
</speak>
Anpassen der Dauer der Audiodaten
Verwenden Sie das Element mstts:audioduration
, um die Dauer von Audioausgaben festzulegen. Nutzen Sie dieses Element, um die zeitliche Steuerung von Audioausgaben zu synchronisieren. Die Audiodauer kann um das 0.5
- bis 2
-Fache der ursprünglichen Wiedergabegeschwindigkeit verlangsamt oder beschleunigt werden. Bei der ursprünglichen Audioausgabe handelt es sich um die Audiodaten ohne andere Wiedergabeeinstellungen. Die Sprechgeschwindigkeit wird basierend auf dem festgelegten Wert entsprechend verlangsamt oder beschleunigt.
Die Einstellung für die Audiodauer gilt für den gesamten Eingabetext innerhalb des umschließenden voice
-Elements. Um die Einstellung für die Audiodauer zurückzusetzen oder erneut zu ändern, müssen Sie ein neues voice
-Element entweder mit derselben oder einer anderen Stimme verwenden.
In der folgenden Tabelle ist die Verwendung der Attribute des mstts:audioduration
-Elements beschrieben:
attribute | BESCHREIBUNG | Erforderlich oder optional |
---|---|---|
value |
Angeforderte Dauer der Audioausgabe in Sekunden, z. B. 2s , oder in Millisekunden, z. B. 2000ms .Der Maximalwert für die Ausgabeaudiodauer beträgt 300 Sekunden. Dieser Wert sollte dem 0.5 - bis 2 -Fachen der ursprünglichen Audiodauer ohne weitere Wiedergabeeinstellungen entsprechen. Wenn die angeforderte Dauer Ihrer Audiodaten beispielsweise 30s entspricht, muss die ursprüngliche Audiodauer zwischen 15 und 60 Sekunden liegen. Wenn Sie einen Wert außerhalb dieser Grenzen festlegen, wird die Dauer entsprechend dem jeweiligen minimalen oder maximalen Vielfachen festgelegt. Für die Ausgabe von Audiodaten, die länger als 300 Sekunden sind, generieren Sie zunächst das Original-Audiomaterial ohne weitere Rateneinstellungen und berechnen dann die Rate, die Sie mit Hilfe der Prosodie-Rate anpassen müssen, um die gewünschte Dauer zu erreichen. |
Erforderlich |
mstts-Beispiele für die Audiodauer
Informationen zu den unterstützten Werten für Attribute des mstts:audioduration
-Elements finden Sie unter Anpassen der Dauer der Audiodaten.
In diesem Beispiel beträgt die ursprüngliche Audiowiedergabe etwa 15 Sekunden. Das mstts:audioduration
-Element wird verwendet, um die Audiodauer auf 20 Sekunden oder 20s
festzulegen.
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" xml:lang="en-US">
<voice name="en-US-AvaMultilingualNeural">
<mstts:audioduration value="20s"/>
If we're home schooling, the best we can do is roll with what each day brings and try to have fun along the way.
A good place to start is by trying out the slew of educational apps that are helping children stay happy and smash their schooling at the same time.
</voice>
</speak>
Hinzufügen von Hintergrundaudioaufnahmen
Sie können das mstts:backgroundaudio
-Element verwenden, um Hintergrundaudioaufnahmen zu Ihren SSML-Dokumenten hinzuzufügen oder eine Audiodatei mit Sprachsynthese zu mischen. Mithilfe von mstts:backgroundaudio
können Sie im Hintergrund eine Audiodatei in einer Schleife laufen lassen, am Anfang der Sprachsynthese einblenden und am Ende der Sprachsynthese ausblenden.
Wenn die bereitgestellte Hintergrundaudioaufnahme kürzer ist als die Sprachsynthese oder das Ausblenden, wird sie in einer Schleife laufen gelassen. Wenn sie länger ist als die Sprachsynthese, wird sie angehalten, sobald das Ausblenden abgeschlossen ist.
Pro SSML-Dokument ist nur eine Hintergrundaudiodatei zulässig. Sie können audio
-Tags in das Element voice
integrieren, um dem SSML-Dokument weitere Audioaufnahmen hinzuzufügen.
Hinweis
Das mstts:backgroundaudio
-Element sollte vor alle voice
-Elemente gesetzt werden. Wenn angegeben, muss es sich um das erste untergeordnete Element des speak
-Elements handelt.
Das Element mstts:backgroundaudio
wird von der API für lange Audioinhalte nicht unterstützt. Verwenden Sie für die Langform-Sprachsynthese stattdessen die Batchsynthese-API (Vorschau).
In der folgenden Tabelle ist die Verwendung der Attribute des mstts:backgroundaudio
-Elements beschrieben:
attribute | BESCHREIBUNG | Erforderlich oder optional |
---|---|---|
src |
Der URI-Speicherort der Hintergrundaudiodatei. | Erforderlich |
volume |
Die Lautstärke der Hintergrundaudiodatei. Zulässige Werte: 0 bis 100 (einschließlich). Standardwert: 1 . |
Optional |
fadein |
Die Einblendedauer der Hintergrundaudiodatei in Millisekunden. Der Standardwert ist 0 , was dem „Nicht einblenden“ entspricht. Zulässige Werte: 0 bis 10000 (einschließlich). |
Optional |
fadeout |
Die Ausblendedauer der Hintergrundaudiodatei in Millisekunden. Der Standardwert ist 0 , was „Nicht ausblenden“ entspricht. Zulässige Werte: 0 bis 10000 (einschließlich). |
Optional |
mstss backgroundaudio-Beispiele
Informationen zu den unterstützten Werten für Attribute des mstts:backgroundaudi
-Elements finden Sie unter Hinzufügen von Hintergrundaudioaufnahmen.
<speak version="1.0" xml:lang="en-US" xmlns:mstts="http://www.w3.org/2001/mstts">
<mstts:backgroundaudio src="https://contoso.com/sample.wav" volume="0.7" fadein="3000" fadeout="4000"/>
<voice name="en-US-AvaMultilingualNeural">
The text provided in this document will be spoken over the background audio.
</voice>
</speak>