Freigeben über


Was sind High-Definition-Stimmen?

Die Einführung neuronaler HD-Stimmen (High Definition) für die Sprachsynthese zeigt, wie sich Azure KI Speech im Bereich der Sprachsynthesetechnologie immer weiter entwickelt. Die HD-Stimmen können den Inhalt verstehen, automatisch Emotionen im Eingabetext erkennen und die Sprechweise in Echtzeit an die Stimmung anpassen. HD-Stimmen behalten eine konsistente Sprachpersona im Vergleich zu ihren neuronalen Gegenstücken (nicht HD) bei und bieten durch erweiterte Funktionen einen noch höheren Mehrwert.

Zentrale Features neuronaler HD-Stimmen für die Sprachsynthese

Hier finden Sie die zentralen Features der HD-Stimmen von Azure KI Speech:

Schlüsselfunktionen Beschreibung
Menschlich-ähnliche Sprachgenerierung Neuronale HD-Stimmen für die Sprachsynthese können eine sehr natürliche und menschenähnliche Sprache generieren. Das Modell wird mit Millionen von Stunden mehrsprachiger Daten trainiert. Dadurch ist es in der Lage, Eingabetext korrekt zu interpretieren und Sprache mit passender Emotion sowie mit passendem Tempo und Rhythmus zu generieren – ganz ohne manuelle Anpassungen.
Dialogorientiert Neuronale HD-Stimmen für die Sprachsynthese können natürliche Sprachmuster replizieren, einschließlich spontaner Pausen und Betonungen. Bei Konversationstext kann das Modell gängige Phoneme wie Pausen und Füllwörter reproduzieren. Die generierte Stimme klingt so, als ob sich jemand direkt mit Ihnen unterhält.
Prosodievariationen Bei neuronalen HD-Stimmen für die Sprachsynthese gibt es leichte Variationen in jeder Ausgabe, um noch realistischer zu wirken. Durch diese Variationen klingt die Sprache natürlicher, da menschliche Stimmen natürliche Variationen aufweisen.
High Fidelity Das Hauptziel neuronaler HD-Stimmen für die Sprachsynthese ist die Generierung von High Fidelity-Audio. Die synthetische Sprache, die von unserem System produziert wird, kann menschliche Sprache qualitativ hochwertig und mit natürlichem Klang imitieren.

Vergleich der HD-Stimmen von Azure KI Speech mit anderen Azure-Stimmen für die Sprachsynthese

Inwiefern unterscheiden sich HD-Stimmen von Azure KI Speech von anderen Azure-Stimmen für die Sprachsynthese? Welche Unterschiede gibt es bei Features und Funktionen?

Hier sehen Sie einen Vergleich der Features der HD-Stimmen von Azure KI Speech, der HD-Stimmen von Azure OpenAI und der Stimmen von Azure KI Speech:

Funktion HD-Stimmen von Azure KI Speech HD-Stimmen von Azure OpenAI Stimmen von Azure KI Speech (kein HD)
Region „USA, Osten“, „Asien, Südosten“, „Europa, Westen“ „USA, Norden-Mitte“, „Schweden, Mitte“ In Dutzenden Regionen verfügbar. Siehe Regionsliste.
Anzahl der Stimmen 30 6 Mehr als 500
Mehrsprachig Ja Ja Ja (nur bei mehrsprachigen Stimmen)
SSML-Unterstützung Unterstützung für eine Teilmenge von SSML-Elementen. Unterstützung für eine Teilmenge von SSML-Elementen. Unterstützung für den vollständigen Satz von SSML in Azure AI Speech.
Entwicklungsoptionen Speech SDK, Speech-CLI, REST-API Speech SDK, Speech-CLI, REST-API Speech SDK, Speech-CLI, REST-API
Bereitstellungsoptionen Nur Cloud Nur Cloud Cloud, eingebettet, hybrid und Container.
Echtzeit- oder Batchsynthese Nur Echtzeit Echtzeit- und Batchsynthese Echtzeit- und Batchsynthese
Latenz Weniger als 300 ms Mehr als 500 ms Weniger als 300 ms
Samplerate von synthetisiertem Audio 8, 16, 24 und 48 kHz 8, 16, 24 und 48 kHz 8, 16, 24 und 48 kHz
Audioformat der Sprachausgabe Opus, mp3, pcm, truesilk Opus, mp3, pcm, truesilk Opus, mp3, pcm, truesilk

Unterstützte HD-Stimmen von Azure KI Speech

Die Werte der HD-Stimmen von Azure KI Speech haben das Format voicename:basemodel:version. Bei dem Namen vor dem Doppelpunkt (z. B. en-US-Ava) handelt es sich um den Namen der Stimmpersona und um das ursprüngliche Gebietsschema. Das Basismodell wird in nachfolgenden Updates anhand von Versionen nachverfolgt.

Derzeit ist DragonHD das einzige Basismodell, das für HD-Stimmen von Azure KI Speech verfügbar ist. Verwenden Sie die Version LatestNeural, um sicherzustellen, dass Sie die neueste Version des von uns bereitgestellten Basismodells verwenden, ohne Codeänderungen vornehmen zu müssen.

Für die Persona en-US-Ava können Sie beispielsweise die folgenden HD-Stimmenwerte angeben:

  • en-US-Ava:DragonHDLatestNeural: Verwendet immer die neueste Version des Basismodells, das wir später bereitstellen.

Die folgende Tabelle enthält die derzeit verfügbaren HD-Stimmen von Azure KI Speech:

Name der Stimme Geschlecht Der Status Hinweis
de-DE-Florian:DragonHDLatestNeural Männlich Allgemein verfügbar
de-DE-Seraphina:DragonHDLatestNeural Weiblich Allgemein verfügbar
en-US-Adam:DragonHDLatestNeural Männlich Allgemein verfügbar
en-US-Alloy:DragonHDLatestNeural Männlich Vorschau
en-US-Andrew:DragonHDLatestNeural Männlich Allgemein verfügbar
en-US-Andrew2:DragonHDLatestNeural Männlich Allgemein verfügbar Optimiert für Unterhaltungsinhalte
en-US-Andrew3:DragonHDLatestNeural Männlich Vorschau Optimiert für Podcastinhalte
en-US-Aria:DragonHDLatestNeural Weiblich Vorschau
en-US-Ava:DragonHDLatestNeural Weiblich Allgemein verfügbar
en-US-Ava3:DragonHDLatestNeural Weiblich Vorschau Optimiert für Podcastinhalte
en-US-Brian:DragonHDLatestNeural Männlich Allgemein verfügbar
en-US-Davis:DragonHDLatestNeural Männlich Allgemein verfügbar
en-US-Emma:DragonHDLatestNeural Weiblich Allgemein verfügbar
en-US-Emma2:DragonHDLatestNeural Weiblich Allgemein verfügbar Optimiert für Unterhaltungsinhalte
en-US-Jenny:DragonHDLatestNeural Weiblich Vorschau
en-US-MultiTalker-Ava-Andrew:DragonHDLatestNeural Männlich Vorschau
en-US-Nova:DragonHDLatestNeural Weiblich Vorschau
en-US-Phoebe:DragonHDLatestNeural Weiblich Vorschau
en-US-Serena:DragonHDLatestNeural Weiblich Vorschau
en-US-Steffan:DragonHDLatestNeural Männlich Allgemein verfügbar
es-ES-Tristan:DragonHDLatestNeural Männlich Allgemein verfügbar
es-ES-Ximena:DragonHDLatestNeural Weiblich Allgemein verfügbar
fr-FR-Remy:DragonHDLatestNeural Männlich Allgemein verfügbar
fr-FR-Vivienne:DragonHDLatestNeural Weiblich Allgemein verfügbar
ja-JP-Masaru:DragonHDLatestNeural Männlich Allgemein verfügbar
ja-JP-Nanami:DragonHDLatestNeural Weiblich Allgemein verfügbar
zh-CN-Xiaochen:DragonHDLatestNeural Weiblich Allgemein verfügbar
zh-CN-Yunfan:DragonHDLatestNeural Männlich Allgemein verfügbar

Verwenden der HD-Stimmen von Azure KI Speech

Sie können HD-Stimmen mit dem gleichen Speech SDK und den gleichen REST-APIs verwenden wie Stimmen ohne HD.

Hier sind einige wichtige Punkte, die bei der Verwendung der HD-Stimmen von Azure KI Speech zu berücksichtigen sind:

  • Gebietsschema der Stimme: Das Gebietsschema im Namen der Stimme gibt die ursprüngliche Sprache und Region an.
  • Basismodelle:
    • HD-Stimmen verfügen über ein Basismodell, das den Eingabetext versteht und das passende Sprechmuster vorhersagt. Sie können das gewünschte Modell (z. B. DragonHDLatestNeural) entsprechend der Verfügbarkeit der einzelnen Stimmen angeben.
  • SSML-Verwendung: Verwenden Sie das Format voicename:basemodel:version, um auf eine Stimme in SSML zu verweisen. Bei dem Namen vor dem Doppelpunkt (z. B. de-DE-Seraphina) handelt es sich um den Namen der Stimmpersona und um das ursprüngliche Gebietsschema. Das Basismodell wird in nachfolgenden Updates anhand von Versionen nachverfolgt.
  • Temperaturparameter:
    • Der Temperaturwert ist ein Gleitkommawert zwischen 0 und 1, der die Zufälligkeit der Ausgabe beeinflusst. Sie können den Temperaturparameter auch anpassen, um die Variation von Ausgaben zu steuern. Weniger Zufälligkeit liefert stabilere Ergebnisse. Mehr Zufälligkeit führt zu mehr Vielfalt, bietet aber weniger Konsistenz.
    • Eine niedrigere Temperatur führt zu weniger Zufälligkeit, was besser vorhersagbare Ausgaben zur Folge hat. Eine höhere Temperatur erhöht die Zufälligkeit, was vielfältigere Ausgaben ermöglicht. Die Standardtemperatur ist auf 1,0 festgelegt.

Hier sehen Sie ein Beispiel für die Verwendung der HD-Stimmen von Azure KI Speech in SSML:

<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='https://www.w3.org/2001/mstts' xml:lang='en-US'>
<voice name='en-US-Ava:DragonHDLatestNeural' parameters='temperature=0.8'>Here is a test</voice>
</speak>

Unterstützte und nicht unterstützte SSML-Elemente für HD-Stimmen von Azure KI Speech

Die Speech Synthesis Markup Language (SSML) mit Eingabetext bestimmt die Struktur, den Inhalt und andere Merkmale der Sprachsynthese-Ausgabe. Beispielsweise können Sie mit SSML einen Absatz, einen Satz, eine Unterbrechung bzw. eine Pause oder Stille definieren. Sie können Text in Ereignistags wie Lesezeichen oder viseme einschließen, die später von Ihrer Anwendung verarbeitet werden können.

Die HD-Stimmen von Azure KI Speech unterstützen nicht alle SSML-Elemente oder -Ereignisse, die von anderen Azure KI Speech-Stimmen unterstützt werden. HD-Stimmen von Azure KI Speech unterstützen insbesondere keine Ereignisse bei Wortgrenzen.

Ausführliche Informationen zu den unterstützten und nicht unterstützten SSML-Elementen für HD-Stimmen von Azure KI Speech finden Sie in der folgenden Tabelle. Anweisungen zur Verwendung von SSML-Elementen finden Sie in der SSML-Dokumentation (Speech Synthesis Markup Language).

SSML-Element Beschreibung Unterstützt in HD-Stimmen von Azure KI Speech
<voice> Gibt die Sprach- und optionalen Effekte an (eq_car und eq_telecomhp8k). Ja
<mstts:express-as> Gibt Sprechstile und Rollen an. Nein
<mstts:ttsembedding> Gibt die speakerProfileId-Eigenschaft für eine persönliche Stimme an. Nein
<lang xml:lang> Gibt die gesprochene Sprache an. Ja
<prosody> Passt Tonhöhe, Kontur, Bereich, Rate und Lautstärke an. Nein
<emphasis> Fügt Betonung auf Wortebene für den Text hinzu oder entfernt sie. Nein
<audio> Fügt vorab aufgezeichnete Audiodaten in ein SSML-Dokument ein. Nein
<mstts:audioduration> Gibt die Dauer der Audioausgabe an. Nein
<mstts:backgroundaudio> Fügt Hintergrundaudioaufnahmen zu Ihren SSML-Dokumenten hinzu oder mischt eine Audiodatei mit Text-zu-Sprache. Nein
<phoneme> Gibt die phonetische Aussprache in SSML-Dokumenten an. Nein
<lexicon> Definiert, wie mehrere Entitäten in SSML gelesen werden. Ja (nur Aliasunterstützung)
<say-as> Gibt den Inhaltstyp, z. B. Zahl oder Datum, für den Text des Elements an. Ja
<sub> Gibt den Textwert des Aliasattributs anstelle des eingeschlossenen Texts des Elements an, der ausgesprochen werden soll. Ja
<math> Verwendet MathML als Eingabetext, um mathematische Notationen in der Audioausgabe ordnungsgemäß auszusprechen. Nein
<bookmark> Ruft den Offset der einzelnen Markierungen im Audiodatenstrom ab. Nein
<break> Setzt das Standardverhalten von Unterbrechungen oder Pausen zwischen Wörtern außer Kraft. Nein
<mstts:silence> Fügt eine Pause vor oder nach dem Text oder zwischen zwei aufeinander folgenden Sätzen ein. Nein
<mstts:viseme> Bestimmt die Position des Gesichts und des Mundes, während eine Person spricht. Nein
<p> Gibt Absätze in SSML-Dokumenten an. Ja
<s> Gibt Sätze in SSML-Dokumenten an. Ja

Hinweis

Obwohl ein vorheriger Abschnitt in diesem Leitfaden auch Azure AI Speech HD-Stimmen mit Azure OpenAI HD-Stimmen verglichen hat, gelten die von Azure AI Speech unterstützten SSML-Elemente nicht für Azure OpenAI-Stimmen.