Freigeben über


Was sind OpenAI-Stimmen für die Sprachsynthese?

Wie Azure KI Speech-Stimmen liefern die OpenAI-Stimmen für die Sprachsynthese qualitativ hochwertige Sprachsynthese, mit deren Hilfe Sie Text in natürlich klingende Sprache umwandeln können. Dadurch entstehen vielfältige Möglichkeiten für immersive und interaktive Benutzererfahrungen.

Die OpenAI-Stimmen für die Sprachsynthese sind in zwei Modellvarianten verfügbar: Neural und NeuralHD.

  • Neural: Optimiert für Echtzeit-Anwendungsfälle mit möglichst niedriger Latenz, dafür aber geringerer Qualität als NeuralHD.
  • NeuralHD: Optimiert auf Qualität.

In Azure KI Services verfügbare Stimmen für die Sprachsynthese

Möglicherweise stellen Sie sich folgende Frage: Wenn ich eine OpenAI-Stimme für die Sprachsynthese verwenden möchte, sollte ich dafür dann Azure OpenAI Service oder Azure KI Speech verwenden? In welchen Szenarien sollte ich das eine bzw. das andere verwenden?

Jedes Stimmenmodell bietet unterschiedliche Features und Funktionen. Wählen Sie einfach das für Ihre spezifischen Anforderungen am besten geeignete aus. Sie möchten die Möglichkeiten und Unterschiede zwischen den in Azure KI Services verfügbaren Stimmen für die Sprachsynthese verstehen?

Sie können in Azure KI Services aus den folgenden Stimmen für die Sprachsynthese auswählen:

  • OpenAI-Stimmen für die Sprachsynthese in Azure OpenAI Service. Verfügbar in den folgenden Regionen: USA, Norden-Mitte und Schweden, Mitte.
  • OpenAI-Stimmen für die Sprachsynthese in Azure KI Speech. Verfügbar in den folgenden Regionen: USA, Norden-Mitte und Schweden, Mitte.
  • Azure KI Speech unterstützt Stimmen für die Sprachsynthese. In Dutzenden Regionen verfügbar. Weitere Informationen finden Sie in der Regionsliste.

OpenAI-Stimmen für die Sprachsynthese über Azure OpenAI Service oder über Azure KI Speech?

Wenn Sie OpenAI-Stimmen für die Sprachsynthese verwenden möchten, können Sie auswählen, ob sie mithilfe von Azure OpenAI oder Azure KI Speechverwendet werden sollen. Sie können den Sprachkatalog besuchen, um Beispiele von Azure OpenAI-Stimmen zu hören oder Sprache mit Ihrem eigenen Text mithilfe der Audioinhaltserstellung zu hören. Die Audioausgabe ist in beiden Fällen identisch, mit nur wenigen Featureunterschieden zwischen den beiden Diensten. Genauere Informationen können Sie der nachstehenden Tabelle entnehmen.

Hier sehen Sie einen Vergleich der Features von OpenAI-Stimmen für die Sprachsynthese in Azure OpenAI Service und Azure KI Speech.

Funktion Azure OpenAI Service (OpenAI-Stimmen) Azure KI Speech (OpenAI-Stimmen) Azure KI Speech-Stimmen
Region „USA, Norden-Mitte“, „Schweden, Mitte“ „USA, Norden-Mitte“, „Schweden, Mitte“ In Dutzenden Regionen verfügbar. Weitere Informationen finden Sie in der Regionsliste.
Sprachvielfalt 6 12 Mehr als 500
Anzahl mehrsprachiger Stimmen 6 12 49
Maximale mehrsprachige Abdeckung 57 57 77
Unterstützung von SSML (Speech Synthesis Markup Language, Markupsprache für Sprachsynthese) Nicht unterstützt Unterstützung einer Teilmenge von SSML-Elementen. Unterstützung aller SSML-Elemente in Azure KI Speech.
Entwicklungsoptionen REST-API Speech SDK, Speech-CLI, REST-API Speech SDK, Speech-CLI, REST-API
Bereitstellungsoption Nur Cloud Nur Cloud Cloud, eingebettet, hybrid und Container.
Echtzeit- oder Batchsynthese Echtzeit Echtzeit- und Batchsynthese Echtzeit- und Batchsynthese
Latenz mehr als 500 ms mehr als 500 ms weniger als 300 ms
Abtastrate von synthetisierten Audio 24 kHz 8, 16, 24 und 48 kHz 8, 16, 24 und 48 kHz
Audioformat der Sprachausgabe opus, mp3, aac, flac opus, mp3, pcm, truesilk opus, mp3, pcm, truesilk

Es gibt weitere Features und Funktionen in Azure KI Speech, die für OpenAI-Stimmen nicht verfügbar sind. Zum Beispiel:

SSML-Elemente, die von OpenAI-Stimmen für die Sprachsynthese in Azure KI Speech unterstützt werden

Die Speech Synthesis Markup Language (SSML) mit Eingabetext bestimmt die Struktur, den Inhalt und andere Merkmale der Sprachsynthese-Ausgabe. Beispielsweise können Sie mit SSML einen Absatz, einen Satz, eine Unterbrechung bzw. eine Pause oder Stille definieren. Sie können Text mit Ereignistags wie Lesezeichen oder Mundbildern umschließen, die später von Ihrer Anwendung verarbeitet werden können.

In der folgenden Tabelle werden die SSML-Elemente (Speech Synthesis Markup Language) beschrieben, die von OpenAI-Stimmen für die Sprachsynthese in Azure KI Speech unterstützt werden. Für OpenAI-Stimmen wird nur die folgende Teilmenge von SSML-Tags unterstützt. Weitere Informationen finden Sie unter SSML-Dokumentstruktur und -Ereignisse.

Name des SSML-Elements Beschreibung
<speak> Schließt den gesamten zu sprechenden Inhalt ein. Es ist das Stammelement eines SSML-Dokuments.
<voice> Spezifiziert eine Stimme, die für die Ausgabe der Sprachsynthese verwendet wird.
<sub> Gibt den Textwert des Aliasattributs anstelle des eingeschlossenen Texts des Elements an, der ausgesprochen werden soll.
<say-as> Gibt den Inhaltstyp, z. B. Zahl oder Datum, für den Text des Elements an.

Alle interpret-as-Eigenschaftswerte mit Ausnahme von interpret-as="name" werden für dieses Element unterstützt. Beispiel: <say-as interpret-as="date" format="dmy">10-12-2016</say-as> wird unterstützt, <say-as interpret-as="name">ED</say-as> aber nicht. Weitere Informationen finden Sie unter Aussprache in SSML.
<s> Bezeichnet Sätze.
<lang> Gibt das Standardgebietsschema für die Sprach an, in der die neuronale Stimme sprechen soll.
<break> Verwenden Sie dieses Element, um das Standardverhalten von Unterbrechungen oder Pausen zwischen Wörtern außer Kraft zu setzen.