Was sind OpenAI-Stimmen für die Sprachsynthese?

2025-05-20

Wie Azure KI Speech-Stimmen liefern die OpenAI-Stimmen für die Sprachsynthese qualitativ hochwertige Sprachsynthese, mit deren Hilfe Sie Text in natürlich klingende Sprache umwandeln können. Dadurch entstehen vielfältige Möglichkeiten für immersive und interaktive Benutzererfahrungen.

Die OpenAI-Stimmen für die Sprachsynthese sind in zwei Modellvarianten verfügbar: Neural und NeuralHD.

Neural: Optimiert für Echtzeit-Anwendungsfälle mit möglichst niedriger Latenz, dafür aber geringerer Qualität als NeuralHD.
NeuralHD: Optimiert auf Qualität.

In Azure KI Services verfügbare Stimmen für die Sprachsynthese

Sie könnten fragen: Wenn ich eine OpenAI-Sprachsynthese verwenden möchte, sollte ich sie über Azure OpenAI in Azure AI Foundry Models oder über Azure AI Speech verwenden? In welchen Szenarien sollte ich das eine bzw. das andere verwenden?

Jedes Stimmenmodell bietet unterschiedliche Features und Funktionen. Wählen Sie einfach das für Ihre spezifischen Anforderungen am besten geeignete aus. Sie möchten die Möglichkeiten und Unterschiede zwischen den in Azure KI Services verfügbaren Stimmen für die Sprachsynthese verstehen?

Sie können in Azure KI Services aus den folgenden Stimmen für die Sprachsynthese auswählen:

OpenAI-Text-zu-Sprache-Stimmen in Azure OpenAI. Verfügbar in den folgenden Regionen: USA, Norden-Mitte und Schweden, Mitte.
OpenAI-Stimmen für die Sprachsynthese in Azure KI Speech. Verfügbar in den folgenden Regionen: USA, Norden-Mitte und Schweden, Mitte.
Azure KI Speech unterstützt Stimmen für die Sprachsynthese. In Dutzenden Regionen verfügbar. Weitere Informationen finden Sie in der Regionsliste.

OpenAI-Stimmen für die Sprachsynthese über Azure OpenAI oder über Azure KI Speech?

Wenn Sie OpenAI-Stimmen für die Sprachsynthese verwenden möchten, können Sie auswählen, ob sie mithilfe von Azure OpenAI oder Azure KI Speechverwendet werden sollen. Sie können den Sprachkatalog besuchen, um Beispiele von Azure OpenAI-Stimmen zu hören oder Sprache mit Ihrem eigenen Text mithilfe der Audioinhaltserstellung zu hören. Die Audioausgabe ist in beiden Fällen identisch, mit nur wenigen Featureunterschieden zwischen den beiden Diensten. Genauere Informationen können Sie der nachstehenden Tabelle entnehmen.

Hier sehen Sie einen Vergleich der Features von OpenAI-Stimmen für die Sprachsynthese in Azure OpenAI und Azure KI Speech.

Funktion	Azure OpenAI (OpenAI-Stimmen)	Azure KI Speech (OpenAI-Stimmen)	Azure KI Speech-Stimmen
Region	„USA, Norden-Mitte“, „Schweden, Mitte“	„USA, Norden-Mitte“, „Schweden, Mitte“	In Dutzenden Regionen verfügbar. Weitere Informationen finden Sie in der Regionsliste.
Sprachvielfalt	6	12	Mehr als 500
Anzahl mehrsprachiger Stimmen	6	12	49
Maximale mehrsprachige Abdeckung	57	57	77
Unterstützung von SSML (Speech Synthesis Markup Language, Markupsprache für Sprachsynthese)	Nicht unterstützt	Unterstützung einer Teilmenge von SSML-Elementen.	Unterstützung aller SSML-Elemente in Azure KI Speech.
Entwicklungsoptionen	REST-API	Speech SDK, Speech-CLI, REST-API	Speech SDK, Speech-CLI, REST-API
Bereitstellungsoption	Nur Cloud	Nur Cloud	Cloud, eingebettet, hybrid und Container.
Echtzeit- oder Batchsynthese	Echtzeit	Echtzeit	Echtzeit- und Batchsynthese
Latenz	mehr als 500 ms	mehr als 500 ms	weniger als 300 ms
Abtastrate von synthetisierten Audio	24 kHz	8, 16, 24 und 48 kHz	8, 16, 24 und 48 kHz
Audioformat der Sprachausgabe	Opus, mp3, aac, flac	Opus, mp3, pcm, truesilk	Opus, mp3, pcm, truesilk

Es gibt weitere Features und Funktionen in Azure KI Speech, die für OpenAI-Stimmen nicht verfügbar sind. Zum Beispiel:

OpenAI-Stimmen für die Sprachsynthese in Azure KI Speech unterstützt nur eine Teilmenge der SSML-Elemente. Azure KI Speech-Stimmen unterstützen sämtliche SSML-Elemente.
Azure KI Speech unterstützt Ereignisse bei Wortgrenzen. OpenAI-Stimmen unterstützen keine Ereignisse bei Wortgrenzen.

Verfügbare OpenAI-Stimmen für Text-zu-Sprache

Die verfügbaren OpenAI-Stimmen in Azure OpenAI sind:

alloy
echo
fable
onyx
nova
shimmer

Die verfügbaren OpenAI-Stimmen in Azure KI Speech sind:

en-US-AlloyMultilingualNeural
en-US-EchoMultilingualNeural
en-US-FableMultilingualNeural
en-US-OnyxMultilingualNeural
en-US-NovaMultilingualNeural
en-US-ShimmerMultilingualNeural
en-US-AlloyMultilingualNeuralHD
en-US-EchoMultilingualNeuralHD
en-US-FableMultilingualNeuralHD
en-US-OnyxMultilingualNeuralHD
en-US-NovaMultilingualNeuralHD
en-US-ShimmerMultilingualNeuralHD

SSML-Elemente, die von OpenAI-Stimmen für die Sprachsynthese in Azure KI Speech unterstützt werden

Die Speech Synthesis Markup Language (SSML) mit Eingabetext bestimmt die Struktur, den Inhalt und andere Merkmale der Sprachsynthese-Ausgabe. Beispielsweise können Sie mit SSML einen Absatz, einen Satz, eine Unterbrechung bzw. eine Pause oder Stille definieren. Sie können Text mit Ereignistags wie Lesezeichen oder Mundbildern umschließen, die später von Ihrer Anwendung verarbeitet werden können.

In der folgenden Tabelle werden die SSML-Elemente (Speech Synthesis Markup Language) beschrieben, die von OpenAI-Stimmen für die Sprachsynthese in Azure KI Speech unterstützt werden. Für OpenAI-Stimmen wird nur die folgende Teilmenge von SSML-Tags unterstützt. Weitere Informationen finden Sie unter SSML-Dokumentstruktur und -Ereignisse.

Name des SSML-Elements	Beschreibung
`<speak>`	Schließt den gesamten zu sprechenden Inhalt ein. Es ist das Stammelement eines SSML-Dokuments.
`<voice>`	Spezifiziert eine Stimme, die für die Ausgabe der Sprachsynthese verwendet wird.
`<sub>`	Gibt den Textwert des Aliasattributs anstelle des eingeschlossenen Texts des Elements an, der ausgesprochen werden soll.
`<say-as>`	Gibt den Inhaltstyp, z. B. Zahl oder Datum, für den Text des Elements an. Alle `interpret-as`-Eigenschaftswerte mit Ausnahme von `interpret-as="name"` werden für dieses Element unterstützt. Beispiel: `<say-as interpret-as="date" format="dmy">10-12-2016</say-as>` wird unterstützt, `<say-as interpret-as="name">ED</say-as>` aber nicht. Weitere Informationen finden Sie unter Aussprache in SSML.
`<s>`	Bezeichnet Sätze.
`<lang>`	Gibt das Standardgebietsschema für die Sprach an, in der die neuronale Stimme sprechen soll.
`<break>`	Verwenden Sie dieses Element, um das Standardverhalten von Unterbrechungen oder Pausen zwischen Wörtern außer Kraft zu setzen.

Freigeben über

Was sind OpenAI-Stimmen für die Sprachsynthese?

In Azure KI Services verfügbare Stimmen für die Sprachsynthese

OpenAI-Stimmen für die Sprachsynthese über Azure OpenAI oder über Azure KI Speech?

Verfügbare OpenAI-Stimmen für Text-zu-Sprache

SSML-Elemente, die von OpenAI-Stimmen für die Sprachsynthese in Azure KI Speech unterstützt werden

Zugehöriger Inhalt

Feedback

Zusätzliche Ressourcen