Was sind High-Definition-Stimmen?

2025-04-30

Die Einführung neuronaler HD-Stimmen (High Definition) für die Sprachsynthese zeigt, wie sich Azure KI Speech im Bereich der Sprachsynthesetechnologie immer weiter entwickelt. Die HD-Stimmen können den Inhalt verstehen, automatisch Emotionen im Eingabetext erkennen und die Sprechweise in Echtzeit an die Stimmung anpassen. HD-Stimmen behalten eine konsistente Sprachpersona im Vergleich zu ihren neuronalen Gegenstücken (nicht HD) bei und bieten durch erweiterte Funktionen einen noch höheren Mehrwert.

Zentrale Features neuronaler HD-Stimmen für die Sprachsynthese

Hier finden Sie die zentralen Features der HD-Stimmen von Azure KI Speech:

Schlüsselfunktionen	Beschreibung
Menschlich-ähnliche Sprachgenerierung	Neuronale HD-Stimmen für die Sprachsynthese können eine sehr natürliche und menschenähnliche Sprache generieren. Das Modell wird mit Millionen von Stunden mehrsprachiger Daten trainiert. Dadurch ist es in der Lage, Eingabetext korrekt zu interpretieren und Sprache mit passender Emotion sowie mit passendem Tempo und Rhythmus zu generieren – ganz ohne manuelle Anpassungen.
Dialogorientiert	Neuronale HD-Stimmen für die Sprachsynthese können natürliche Sprachmuster replizieren, einschließlich spontaner Pausen und Betonungen. Bei Konversationstext kann das Modell gängige Phoneme wie Pausen und Füllwörter reproduzieren. Die generierte Stimme klingt so, als ob sich jemand direkt mit Ihnen unterhält.
Prosodievariationen	Bei neuronalen HD-Stimmen für die Sprachsynthese gibt es leichte Variationen in jeder Ausgabe, um noch realistischer zu wirken. Durch diese Variationen klingt die Sprache natürlicher, da menschliche Stimmen natürliche Variationen aufweisen.
High Fidelity	Das Hauptziel neuronaler HD-Stimmen für die Sprachsynthese ist die Generierung von High Fidelity-Audio. Die synthetische Sprache, die von unserem System produziert wird, kann menschliche Sprache qualitativ hochwertig und mit natürlichem Klang imitieren.

Vergleich der HD-Stimmen von Azure KI Speech mit anderen Azure-Stimmen für die Sprachsynthese

Inwiefern unterscheiden sich HD-Stimmen von Azure KI Speech von anderen Azure-Stimmen für die Sprachsynthese? Welche Unterschiede gibt es bei Features und Funktionen?

Hier sehen Sie einen Vergleich der Features der HD-Stimmen von Azure KI Speech, der HD-Stimmen von Azure OpenAI und der Stimmen von Azure KI Speech:

Funktion	HD-Stimmen von Azure KI Speech	HD-Stimmen von Azure OpenAI	Stimmen von Azure KI Speech (kein HD)
Region	„USA, Osten“, „Asien, Südosten“, „Europa, Westen“	„USA, Norden-Mitte“, „Schweden, Mitte“	In Dutzenden Regionen verfügbar. Siehe Regionsliste.
Anzahl der Stimmen	30	6	Mehr als 500
Mehrsprachig	Ja	Ja	Ja (nur bei mehrsprachigen Stimmen)
SSML-Unterstützung	Unterstützung für eine Teilmenge von SSML-Elementen.	Unterstützung für eine Teilmenge von SSML-Elementen.	Unterstützung für den vollständigen Satz von SSML in Azure AI Speech.
Entwicklungsoptionen	Speech SDK, Speech-CLI, REST-API	Speech SDK, Speech-CLI, REST-API	Speech SDK, Speech-CLI, REST-API
Bereitstellungsoptionen	Nur Cloud	Nur Cloud	Cloud, eingebettet, hybrid und Container.
Echtzeit- oder Batchsynthese	Nur Echtzeit	Echtzeit- und Batchsynthese	Echtzeit- und Batchsynthese
Latenz	Weniger als 300 ms	Mehr als 500 ms	Weniger als 300 ms
Samplerate von synthetisiertem Audio	8, 16, 24 und 48 kHz	8, 16, 24 und 48 kHz	8, 16, 24 und 48 kHz
Audioformat der Sprachausgabe	Opus, mp3, pcm, truesilk	Opus, mp3, pcm, truesilk	Opus, mp3, pcm, truesilk

Unterstützte HD-Stimmen von Azure KI Speech

Die Werte der HD-Stimmen von Azure KI Speech haben das Format voicename:basemodel:version. Bei dem Namen vor dem Doppelpunkt (z. B. en-US-Ava) handelt es sich um den Namen der Stimmpersona und um das ursprüngliche Gebietsschema. Das Basismodell wird in nachfolgenden Updates anhand von Versionen nachverfolgt.

Derzeit ist DragonHD das einzige Basismodell, das für HD-Stimmen von Azure KI Speech verfügbar ist. Verwenden Sie die Version LatestNeural, um sicherzustellen, dass Sie die neueste Version des von uns bereitgestellten Basismodells verwenden, ohne Codeänderungen vornehmen zu müssen.

Für die Persona en-US-Ava können Sie beispielsweise die folgenden HD-Stimmenwerte angeben:

en-US-Ava:DragonHDLatestNeural: Verwendet immer die neueste Version des Basismodells, das wir später bereitstellen.

Die folgende Tabelle enthält die derzeit verfügbaren HD-Stimmen von Azure KI Speech:

Name der Stimme	Geschlecht	Der Status	Hinweis
de-DE-Florian:DragonHDLatestNeural	Männlich	Allgemein verfügbar
de-DE-Seraphina:DragonHDLatestNeural	Weiblich	Allgemein verfügbar
en-US-Adam:DragonHDLatestNeural	Männlich	Allgemein verfügbar
en-US-Alloy:DragonHDLatestNeural	Männlich	Vorschau
en-US-Andrew:DragonHDLatestNeural	Männlich	Allgemein verfügbar
en-US-Andrew2:DragonHDLatestNeural	Männlich	Allgemein verfügbar	Optimiert für Unterhaltungsinhalte
en-US-Andrew3:DragonHDLatestNeural	Männlich	Vorschau	Optimiert für Podcastinhalte
en-US-Aria:DragonHDLatestNeural	Weiblich	Vorschau
en-US-Ava:DragonHDLatestNeural	Weiblich	Allgemein verfügbar
en-US-Ava3:DragonHDLatestNeural	Weiblich	Vorschau	Optimiert für Podcastinhalte
en-US-Brian:DragonHDLatestNeural	Männlich	Allgemein verfügbar
en-US-Davis:DragonHDLatestNeural	Männlich	Allgemein verfügbar
en-US-Emma:DragonHDLatestNeural	Weiblich	Allgemein verfügbar
en-US-Emma2:DragonHDLatestNeural	Weiblich	Allgemein verfügbar	Optimiert für Unterhaltungsinhalte
en-US-Jenny:DragonHDLatestNeural	Weiblich	Vorschau
en-US-MultiTalker-Ava-Andrew:DragonHDLatestNeural	Männlich	Vorschau
en-US-Nova:DragonHDLatestNeural	Weiblich	Vorschau
en-US-Phoebe:DragonHDLatestNeural	Weiblich	Vorschau
en-US-Serena:DragonHDLatestNeural	Weiblich	Vorschau
en-US-Steffan:DragonHDLatestNeural	Männlich	Allgemein verfügbar
es-ES-Tristan:DragonHDLatestNeural	Männlich	Allgemein verfügbar
es-ES-Ximena:DragonHDLatestNeural	Weiblich	Allgemein verfügbar
fr-FR-Remy:DragonHDLatestNeural	Männlich	Allgemein verfügbar
fr-FR-Vivienne:DragonHDLatestNeural	Weiblich	Allgemein verfügbar
ja-JP-Masaru:DragonHDLatestNeural	Männlich	Allgemein verfügbar
ja-JP-Nanami:DragonHDLatestNeural	Weiblich	Allgemein verfügbar
zh-CN-Xiaochen:DragonHDLatestNeural	Weiblich	Allgemein verfügbar
zh-CN-Yunfan:DragonHDLatestNeural	Männlich	Allgemein verfügbar

Verwenden der HD-Stimmen von Azure KI Speech

Sie können HD-Stimmen mit dem gleichen Speech SDK und den gleichen REST-APIs verwenden wie Stimmen ohne HD.

Hier sind einige wichtige Punkte, die bei der Verwendung der HD-Stimmen von Azure KI Speech zu berücksichtigen sind:

Gebietsschema der Stimme: Das Gebietsschema im Namen der Stimme gibt die ursprüngliche Sprache und Region an.
Basismodelle:
- HD-Stimmen verfügen über ein Basismodell, das den Eingabetext versteht und das passende Sprechmuster vorhersagt. Sie können das gewünschte Modell (z. B. DragonHDLatestNeural) entsprechend der Verfügbarkeit der einzelnen Stimmen angeben.
SSML-Verwendung: Verwenden Sie das Format voicename:basemodel:version, um auf eine Stimme in SSML zu verweisen. Bei dem Namen vor dem Doppelpunkt (z. B. de-DE-Seraphina) handelt es sich um den Namen der Stimmpersona und um das ursprüngliche Gebietsschema. Das Basismodell wird in nachfolgenden Updates anhand von Versionen nachverfolgt.
Temperaturparameter:
- Der Temperaturwert ist ein Gleitkommawert zwischen 0 und 1, der die Zufälligkeit der Ausgabe beeinflusst. Sie können den Temperaturparameter auch anpassen, um die Variation von Ausgaben zu steuern. Weniger Zufälligkeit liefert stabilere Ergebnisse. Mehr Zufälligkeit führt zu mehr Vielfalt, bietet aber weniger Konsistenz.
- Eine niedrigere Temperatur führt zu weniger Zufälligkeit, was besser vorhersagbare Ausgaben zur Folge hat. Eine höhere Temperatur erhöht die Zufälligkeit, was vielfältigere Ausgaben ermöglicht. Die Standardtemperatur ist auf 1,0 festgelegt.

Hier sehen Sie ein Beispiel für die Verwendung der HD-Stimmen von Azure KI Speech in SSML:

<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='https://www.w3.org/2001/mstts' xml:lang='en-US'>
<voice name='en-US-Ava:DragonHDLatestNeural' parameters='temperature=0.8'>Here is a test</voice>
</speak>

Unterstützte und nicht unterstützte SSML-Elemente für HD-Stimmen von Azure KI Speech

Die Speech Synthesis Markup Language (SSML) mit Eingabetext bestimmt die Struktur, den Inhalt und andere Merkmale der Sprachsynthese-Ausgabe. Beispielsweise können Sie mit SSML einen Absatz, einen Satz, eine Unterbrechung bzw. eine Pause oder Stille definieren. Sie können Text in Ereignistags wie Lesezeichen oder viseme einschließen, die später von Ihrer Anwendung verarbeitet werden können.

Die HD-Stimmen von Azure KI Speech unterstützen nicht alle SSML-Elemente oder -Ereignisse, die von anderen Azure KI Speech-Stimmen unterstützt werden. HD-Stimmen von Azure KI Speech unterstützen insbesondere keine Ereignisse bei Wortgrenzen.

Ausführliche Informationen zu den unterstützten und nicht unterstützten SSML-Elementen für HD-Stimmen von Azure KI Speech finden Sie in der folgenden Tabelle. Anweisungen zur Verwendung von SSML-Elementen finden Sie in der SSML-Dokumentation (Speech Synthesis Markup Language).

SSML-Element	Beschreibung	Unterstützt in HD-Stimmen von Azure KI Speech
`<voice>`	Gibt die Sprach- und optionalen Effekte an (`eq_car` und `eq_telecomhp8k`).	Ja
`<mstts:express-as>`	Gibt Sprechstile und Rollen an.	Nein
`<mstts:ttsembedding>`	Gibt die `speakerProfileId`-Eigenschaft für eine persönliche Stimme an.	Nein
`<lang xml:lang>`	Gibt die gesprochene Sprache an.	Ja
`<prosody>`	Passt Tonhöhe, Kontur, Bereich, Rate und Lautstärke an.	Nein
`<emphasis>`	Fügt Betonung auf Wortebene für den Text hinzu oder entfernt sie.	Nein
`<audio>`	Fügt vorab aufgezeichnete Audiodaten in ein SSML-Dokument ein.	Nein
`<mstts:audioduration>`	Gibt die Dauer der Audioausgabe an.	Nein
`<mstts:backgroundaudio>`	Fügt Hintergrundaudioaufnahmen zu Ihren SSML-Dokumenten hinzu oder mischt eine Audiodatei mit Text-zu-Sprache.	Nein
`<phoneme>`	Gibt die phonetische Aussprache in SSML-Dokumenten an.	Nein
`<lexicon>`	Definiert, wie mehrere Entitäten in SSML gelesen werden.	Ja (nur Aliasunterstützung)
`<say-as>`	Gibt den Inhaltstyp, z. B. Zahl oder Datum, für den Text des Elements an.	Ja
`<sub>`	Gibt den Textwert des Aliasattributs anstelle des eingeschlossenen Texts des Elements an, der ausgesprochen werden soll.	Ja
`<math>`	Verwendet MathML als Eingabetext, um mathematische Notationen in der Audioausgabe ordnungsgemäß auszusprechen.	Nein
`<bookmark>`	Ruft den Offset der einzelnen Markierungen im Audiodatenstrom ab.	Nein
`<break>`	Setzt das Standardverhalten von Unterbrechungen oder Pausen zwischen Wörtern außer Kraft.	Nein
`<mstts:silence>`	Fügt eine Pause vor oder nach dem Text oder zwischen zwei aufeinander folgenden Sätzen ein.	Nein
`<mstts:viseme>`	Bestimmt die Position des Gesichts und des Mundes, während eine Person spricht.	Nein
`<p>`	Gibt Absätze in SSML-Dokumenten an.	Ja
`<s>`	Gibt Sätze in SSML-Dokumenten an.	Ja

Hinweis

Obwohl ein vorheriger Abschnitt in diesem Leitfaden auch Azure AI Speech HD-Stimmen mit Azure OpenAI HD-Stimmen verglichen hat, gelten die von Azure AI Speech unterstützten SSML-Elemente nicht für Azure OpenAI-Stimmen.

Freigeben über

Was sind High-Definition-Stimmen?

Zentrale Features neuronaler HD-Stimmen für die Sprachsynthese

Vergleich der HD-Stimmen von Azure KI Speech mit anderen Azure-Stimmen für die Sprachsynthese

Unterstützte HD-Stimmen von Azure KI Speech

Verwenden der HD-Stimmen von Azure KI Speech

Unterstützte und nicht unterstützte SSML-Elemente für HD-Stimmen von Azure KI Speech

Zugehöriger Inhalt

Feedback

Zusätzliche Ressourcen