Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Die Einführung neuronaler HD-Stimmen (High Definition) für die Sprachsynthese zeigt, wie sich Azure KI Speech im Bereich der Sprachsynthesetechnologie immer weiter entwickelt. Die HD-Stimmen können den Inhalt verstehen, automatisch Emotionen im Eingabetext erkennen und die Sprechweise in Echtzeit an die Stimmung anpassen. HD-Stimmen behalten eine konsistente Sprachpersona im Vergleich zu ihren neuronalen Gegenstücken (nicht HD) bei und bieten durch erweiterte Funktionen einen noch höheren Mehrwert.
Zentrale Features neuronaler HD-Stimmen für die Sprachsynthese
Hier finden Sie die zentralen Features der HD-Stimmen von Azure KI Speech:
Schlüsselfunktionen | Beschreibung |
---|---|
Menschlich-ähnliche Sprachgenerierung | Neuronale HD-Stimmen für die Sprachsynthese können eine sehr natürliche und menschenähnliche Sprache generieren. Das Modell wird mit Millionen von Stunden mehrsprachiger Daten trainiert. Dadurch ist es in der Lage, Eingabetext korrekt zu interpretieren und Sprache mit passender Emotion sowie mit passendem Tempo und Rhythmus zu generieren – ganz ohne manuelle Anpassungen. |
Dialogorientiert | Neuronale HD-Stimmen für die Sprachsynthese können natürliche Sprachmuster replizieren, einschließlich spontaner Pausen und Betonungen. Bei Konversationstext kann das Modell gängige Phoneme wie Pausen und Füllwörter reproduzieren. Die generierte Stimme klingt so, als ob sich jemand direkt mit Ihnen unterhält. |
Prosodievariationen | Bei neuronalen HD-Stimmen für die Sprachsynthese gibt es leichte Variationen in jeder Ausgabe, um noch realistischer zu wirken. Durch diese Variationen klingt die Sprache natürlicher, da menschliche Stimmen natürliche Variationen aufweisen. |
High Fidelity | Das Hauptziel neuronaler HD-Stimmen für die Sprachsynthese ist die Generierung von High Fidelity-Audio. Die synthetische Sprache, die von unserem System produziert wird, kann menschliche Sprache qualitativ hochwertig und mit natürlichem Klang imitieren. |
Vergleich der HD-Stimmen von Azure KI Speech mit anderen Azure-Stimmen für die Sprachsynthese
Inwiefern unterscheiden sich HD-Stimmen von Azure KI Speech von anderen Azure-Stimmen für die Sprachsynthese? Welche Unterschiede gibt es bei Features und Funktionen?
Hier sehen Sie einen Vergleich der Features der HD-Stimmen von Azure KI Speech, der HD-Stimmen von Azure OpenAI und der Stimmen von Azure KI Speech:
Funktion | HD-Stimmen von Azure KI Speech | HD-Stimmen von Azure OpenAI | Stimmen von Azure KI Speech (kein HD) |
---|---|---|---|
Region | „USA, Osten“, „Asien, Südosten“, „Europa, Westen“ | „USA, Norden-Mitte“, „Schweden, Mitte“ | In Dutzenden Regionen verfügbar. Siehe Regionsliste. |
Anzahl der Stimmen | 30 | 6 | Mehr als 500 |
Mehrsprachig | Ja | Ja | Ja (nur bei mehrsprachigen Stimmen) |
SSML-Unterstützung | Unterstützung für eine Teilmenge von SSML-Elementen. | Unterstützung für eine Teilmenge von SSML-Elementen. | Unterstützung für den vollständigen Satz von SSML in Azure AI Speech. |
Entwicklungsoptionen | Speech SDK, Speech-CLI, REST-API | Speech SDK, Speech-CLI, REST-API | Speech SDK, Speech-CLI, REST-API |
Bereitstellungsoptionen | Nur Cloud | Nur Cloud | Cloud, eingebettet, hybrid und Container. |
Echtzeit- oder Batchsynthese | Nur Echtzeit | Echtzeit- und Batchsynthese | Echtzeit- und Batchsynthese |
Latenz | Weniger als 300 ms | Mehr als 500 ms | Weniger als 300 ms |
Samplerate von synthetisiertem Audio | 8, 16, 24 und 48 kHz | 8, 16, 24 und 48 kHz | 8, 16, 24 und 48 kHz |
Audioformat der Sprachausgabe | Opus, mp3, pcm, truesilk | Opus, mp3, pcm, truesilk | Opus, mp3, pcm, truesilk |
Unterstützte HD-Stimmen von Azure KI Speech
Die Werte der HD-Stimmen von Azure KI Speech haben das Format voicename:basemodel:version
. Bei dem Namen vor dem Doppelpunkt (z. B. en-US-Ava
) handelt es sich um den Namen der Stimmpersona und um das ursprüngliche Gebietsschema. Das Basismodell wird in nachfolgenden Updates anhand von Versionen nachverfolgt.
Derzeit ist DragonHD
das einzige Basismodell, das für HD-Stimmen von Azure KI Speech verfügbar ist. Verwenden Sie die Version LatestNeural
, um sicherzustellen, dass Sie die neueste Version des von uns bereitgestellten Basismodells verwenden, ohne Codeänderungen vornehmen zu müssen.
Für die Persona en-US-Ava
können Sie beispielsweise die folgenden HD-Stimmenwerte angeben:
en-US-Ava:DragonHDLatestNeural
: Verwendet immer die neueste Version des Basismodells, das wir später bereitstellen.
Die folgende Tabelle enthält die derzeit verfügbaren HD-Stimmen von Azure KI Speech:
Name der Stimme | Geschlecht | Der Status | Hinweis |
---|---|---|---|
de-DE-Florian:DragonHDLatestNeural | Männlich | Allgemein verfügbar | |
de-DE-Seraphina:DragonHDLatestNeural | Weiblich | Allgemein verfügbar | |
en-US-Adam:DragonHDLatestNeural | Männlich | Allgemein verfügbar | |
en-US-Alloy:DragonHDLatestNeural | Männlich | Vorschau | |
en-US-Andrew:DragonHDLatestNeural | Männlich | Allgemein verfügbar | |
en-US-Andrew2:DragonHDLatestNeural | Männlich | Allgemein verfügbar | Optimiert für Unterhaltungsinhalte |
en-US-Andrew3:DragonHDLatestNeural | Männlich | Vorschau | Optimiert für Podcastinhalte |
en-US-Aria:DragonHDLatestNeural | Weiblich | Vorschau | |
en-US-Ava:DragonHDLatestNeural | Weiblich | Allgemein verfügbar | |
en-US-Ava3:DragonHDLatestNeural | Weiblich | Vorschau | Optimiert für Podcastinhalte |
en-US-Brian:DragonHDLatestNeural | Männlich | Allgemein verfügbar | |
en-US-Davis:DragonHDLatestNeural | Männlich | Allgemein verfügbar | |
en-US-Emma:DragonHDLatestNeural | Weiblich | Allgemein verfügbar | |
en-US-Emma2:DragonHDLatestNeural | Weiblich | Allgemein verfügbar | Optimiert für Unterhaltungsinhalte |
en-US-Jenny:DragonHDLatestNeural | Weiblich | Vorschau | |
en-US-MultiTalker-Ava-Andrew:DragonHDLatestNeural | Männlich | Vorschau | |
en-US-Nova:DragonHDLatestNeural | Weiblich | Vorschau | |
en-US-Phoebe:DragonHDLatestNeural | Weiblich | Vorschau | |
en-US-Serena:DragonHDLatestNeural | Weiblich | Vorschau | |
en-US-Steffan:DragonHDLatestNeural | Männlich | Allgemein verfügbar | |
es-ES-Tristan:DragonHDLatestNeural | Männlich | Allgemein verfügbar | |
es-ES-Ximena:DragonHDLatestNeural | Weiblich | Allgemein verfügbar | |
fr-FR-Remy:DragonHDLatestNeural | Männlich | Allgemein verfügbar | |
fr-FR-Vivienne:DragonHDLatestNeural | Weiblich | Allgemein verfügbar | |
ja-JP-Masaru:DragonHDLatestNeural | Männlich | Allgemein verfügbar | |
ja-JP-Nanami:DragonHDLatestNeural | Weiblich | Allgemein verfügbar | |
zh-CN-Xiaochen:DragonHDLatestNeural | Weiblich | Allgemein verfügbar | |
zh-CN-Yunfan:DragonHDLatestNeural | Männlich | Allgemein verfügbar |
Verwenden der HD-Stimmen von Azure KI Speech
Sie können HD-Stimmen mit dem gleichen Speech SDK und den gleichen REST-APIs verwenden wie Stimmen ohne HD.
Hier sind einige wichtige Punkte, die bei der Verwendung der HD-Stimmen von Azure KI Speech zu berücksichtigen sind:
- Gebietsschema der Stimme: Das Gebietsschema im Namen der Stimme gibt die ursprüngliche Sprache und Region an.
- Basismodelle:
- HD-Stimmen verfügen über ein Basismodell, das den Eingabetext versteht und das passende Sprechmuster vorhersagt. Sie können das gewünschte Modell (z. B. DragonHDLatestNeural) entsprechend der Verfügbarkeit der einzelnen Stimmen angeben.
- SSML-Verwendung: Verwenden Sie das Format
voicename:basemodel:version
, um auf eine Stimme in SSML zu verweisen. Bei dem Namen vor dem Doppelpunkt (z. B.de-DE-Seraphina
) handelt es sich um den Namen der Stimmpersona und um das ursprüngliche Gebietsschema. Das Basismodell wird in nachfolgenden Updates anhand von Versionen nachverfolgt. - Temperaturparameter:
- Der Temperaturwert ist ein Gleitkommawert zwischen 0 und 1, der die Zufälligkeit der Ausgabe beeinflusst. Sie können den Temperaturparameter auch anpassen, um die Variation von Ausgaben zu steuern. Weniger Zufälligkeit liefert stabilere Ergebnisse. Mehr Zufälligkeit führt zu mehr Vielfalt, bietet aber weniger Konsistenz.
- Eine niedrigere Temperatur führt zu weniger Zufälligkeit, was besser vorhersagbare Ausgaben zur Folge hat. Eine höhere Temperatur erhöht die Zufälligkeit, was vielfältigere Ausgaben ermöglicht. Die Standardtemperatur ist auf 1,0 festgelegt.
Hier sehen Sie ein Beispiel für die Verwendung der HD-Stimmen von Azure KI Speech in SSML:
<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='https://www.w3.org/2001/mstts' xml:lang='en-US'>
<voice name='en-US-Ava:DragonHDLatestNeural' parameters='temperature=0.8'>Here is a test</voice>
</speak>
Unterstützte und nicht unterstützte SSML-Elemente für HD-Stimmen von Azure KI Speech
Die Speech Synthesis Markup Language (SSML) mit Eingabetext bestimmt die Struktur, den Inhalt und andere Merkmale der Sprachsynthese-Ausgabe. Beispielsweise können Sie mit SSML einen Absatz, einen Satz, eine Unterbrechung bzw. eine Pause oder Stille definieren. Sie können Text in Ereignistags wie Lesezeichen oder viseme einschließen, die später von Ihrer Anwendung verarbeitet werden können.
Die HD-Stimmen von Azure KI Speech unterstützen nicht alle SSML-Elemente oder -Ereignisse, die von anderen Azure KI Speech-Stimmen unterstützt werden. HD-Stimmen von Azure KI Speech unterstützen insbesondere keine Ereignisse bei Wortgrenzen.
Ausführliche Informationen zu den unterstützten und nicht unterstützten SSML-Elementen für HD-Stimmen von Azure KI Speech finden Sie in der folgenden Tabelle. Anweisungen zur Verwendung von SSML-Elementen finden Sie in der SSML-Dokumentation (Speech Synthesis Markup Language).
SSML-Element | Beschreibung | Unterstützt in HD-Stimmen von Azure KI Speech |
---|---|---|
<voice> |
Gibt die Sprach- und optionalen Effekte an (eq_car und eq_telecomhp8k ). |
Ja |
<mstts:express-as> |
Gibt Sprechstile und Rollen an. | Nein |
<mstts:ttsembedding> |
Gibt die speakerProfileId -Eigenschaft für eine persönliche Stimme an. |
Nein |
<lang xml:lang> |
Gibt die gesprochene Sprache an. | Ja |
<prosody> |
Passt Tonhöhe, Kontur, Bereich, Rate und Lautstärke an. | Nein |
<emphasis> |
Fügt Betonung auf Wortebene für den Text hinzu oder entfernt sie. | Nein |
<audio> |
Fügt vorab aufgezeichnete Audiodaten in ein SSML-Dokument ein. | Nein |
<mstts:audioduration> |
Gibt die Dauer der Audioausgabe an. | Nein |
<mstts:backgroundaudio> |
Fügt Hintergrundaudioaufnahmen zu Ihren SSML-Dokumenten hinzu oder mischt eine Audiodatei mit Text-zu-Sprache. | Nein |
<phoneme> |
Gibt die phonetische Aussprache in SSML-Dokumenten an. | Nein |
<lexicon> |
Definiert, wie mehrere Entitäten in SSML gelesen werden. | Ja (nur Aliasunterstützung) |
<say-as> |
Gibt den Inhaltstyp, z. B. Zahl oder Datum, für den Text des Elements an. | Ja |
<sub> |
Gibt den Textwert des Aliasattributs anstelle des eingeschlossenen Texts des Elements an, der ausgesprochen werden soll. | Ja |
<math> |
Verwendet MathML als Eingabetext, um mathematische Notationen in der Audioausgabe ordnungsgemäß auszusprechen. | Nein |
<bookmark> |
Ruft den Offset der einzelnen Markierungen im Audiodatenstrom ab. | Nein |
<break> |
Setzt das Standardverhalten von Unterbrechungen oder Pausen zwischen Wörtern außer Kraft. | Nein |
<mstts:silence> |
Fügt eine Pause vor oder nach dem Text oder zwischen zwei aufeinander folgenden Sätzen ein. | Nein |
<mstts:viseme> |
Bestimmt die Position des Gesichts und des Mundes, während eine Person spricht. | Nein |
<p> |
Gibt Absätze in SSML-Dokumenten an. | Ja |
<s> |
Gibt Sätze in SSML-Dokumenten an. | Ja |
Hinweis
Obwohl ein vorheriger Abschnitt in diesem Leitfaden auch Azure AI Speech HD-Stimmen mit Azure OpenAI HD-Stimmen verglichen hat, gelten die von Azure AI Speech unterstützten SSML-Elemente nicht für Azure OpenAI-Stimmen.