Was sind OpenAI-Stimmen für die Sprachsynthese?
Wie Azure KI Speech-Stimmen liefern die OpenAI-Stimmen für die Sprachsynthese qualitativ hochwertige Sprachsynthese, mit deren Hilfe Sie Text in natürlich klingende Sprache umwandeln können. Dadurch entstehen vielfältige Möglichkeiten für immersive und interaktive Benutzererfahrungen.
Die OpenAI-Stimmen für die Sprachsynthese sind in zwei Modellvarianten verfügbar: Neural
und NeuralHD
.
Neural
: Optimiert für Echtzeit-Anwendungsfälle mit möglichst niedriger Latenz, dafür aber geringerer Qualität alsNeuralHD
.NeuralHD
: Optimiert auf Qualität.
In Azure KI Services verfügbare Stimmen für die Sprachsynthese
Möglicherweise stellen Sie sich folgende Frage: Wenn ich eine OpenAI-Stimme für die Sprachsynthese verwenden möchte, sollte ich dafür dann Azure OpenAI Service oder Azure KI Speech verwenden? In welchen Szenarien sollte ich das eine bzw. das andere verwenden?
Jedes Stimmenmodell bietet unterschiedliche Features und Funktionen. Wählen Sie einfach das für Ihre spezifischen Anforderungen am besten geeignete aus. Sie möchten die Möglichkeiten und Unterschiede zwischen den in Azure KI Services verfügbaren Stimmen für die Sprachsynthese verstehen?
Sie können in Azure KI Services aus den folgenden Stimmen für die Sprachsynthese auswählen:
- OpenAI-Stimmen für die Sprachsynthese in Azure OpenAI Service. Verfügbar in den folgenden Regionen: USA, Norden-Mitte und Schweden, Mitte.
- OpenAI-Stimmen für die Sprachsynthese in Azure KI Speech. Verfügbar in den folgenden Regionen: USA, Norden-Mitte und Schweden, Mitte.
- Azure KI Speech unterstützt Stimmen für die Sprachsynthese. In Dutzenden Regionen verfügbar. Weitere Informationen finden Sie in der Regionsliste.
OpenAI-Stimmen für die Sprachsynthese über Azure OpenAI Service oder über Azure KI Speech?
Wenn Sie OpenAI-Stimmen für die Sprachsynthese verwenden möchten, können Sie auswählen, ob sie mithilfe von Azure OpenAI oder Azure KI Speechverwendet werden sollen. Sie können den Sprachkatalog besuchen, um Beispiele von Azure OpenAI-Stimmen zu hören oder Sprache mit Ihrem eigenen Text mithilfe der Audioinhaltserstellung zu hören. Die Audioausgabe ist in beiden Fällen identisch, mit nur wenigen Featureunterschieden zwischen den beiden Diensten. Genauere Informationen können Sie der nachstehenden Tabelle entnehmen.
Hier sehen Sie einen Vergleich der Features von OpenAI-Stimmen für die Sprachsynthese in Azure OpenAI Service und Azure KI Speech.
Funktion | Azure OpenAI Service (OpenAI-Stimmen) | Azure KI Speech (OpenAI-Stimmen) | Azure KI Speech-Stimmen |
---|---|---|---|
Region | „USA, Norden-Mitte“, „Schweden, Mitte“ | „USA, Norden-Mitte“, „Schweden, Mitte“ | In Dutzenden Regionen verfügbar. Weitere Informationen finden Sie in der Regionsliste. |
Sprachvielfalt | 6 | 12 | Mehr als 500 |
Anzahl mehrsprachiger Stimmen | 6 | 12 | 49 |
Maximale mehrsprachige Abdeckung | 57 | 57 | 77 |
Unterstützung von SSML (Speech Synthesis Markup Language, Markupsprache für Sprachsynthese) | Nicht unterstützt | Unterstützung einer Teilmenge von SSML-Elementen. | Unterstützung aller SSML-Elemente in Azure KI Speech. |
Entwicklungsoptionen | REST-API | Speech SDK, Speech-CLI, REST-API | Speech SDK, Speech-CLI, REST-API |
Bereitstellungsoption | Nur Cloud | Nur Cloud | Cloud, eingebettet, hybrid und Container. |
Echtzeit- oder Batchsynthese | Echtzeit | Echtzeit- und Batchsynthese | Echtzeit- und Batchsynthese |
Latenz | mehr als 500 ms | mehr als 500 ms | weniger als 300 ms |
Abtastrate von synthetisierten Audio | 24 kHz | 8, 16, 24 und 48 kHz | 8, 16, 24 und 48 kHz |
Audioformat der Sprachausgabe | opus, mp3, aac, flac | opus, mp3, pcm, truesilk | opus, mp3, pcm, truesilk |
Es gibt weitere Features und Funktionen in Azure KI Speech, die für OpenAI-Stimmen nicht verfügbar sind. Zum Beispiel:
- OpenAI-Stimmen für die Sprachsynthese in Azure KI Speech unterstützt nur eine Teilmenge der SSML-Elemente. Azure KI Speech-Stimmen unterstützen sämtliche SSML-Elemente.
- Azure KI Speech unterstützt Ereignisse bei Wortgrenzen. OpenAI-Stimmen unterstützen keine Ereignisse bei Wortgrenzen.
SSML-Elemente, die von OpenAI-Stimmen für die Sprachsynthese in Azure KI Speech unterstützt werden
Die Speech Synthesis Markup Language (SSML) mit Eingabetext bestimmt die Struktur, den Inhalt und andere Merkmale der Sprachsynthese-Ausgabe. Beispielsweise können Sie mit SSML einen Absatz, einen Satz, eine Unterbrechung bzw. eine Pause oder Stille definieren. Sie können Text mit Ereignistags wie Lesezeichen oder Mundbildern umschließen, die später von Ihrer Anwendung verarbeitet werden können.
In der folgenden Tabelle werden die SSML-Elemente (Speech Synthesis Markup Language) beschrieben, die von OpenAI-Stimmen für die Sprachsynthese in Azure KI Speech unterstützt werden. Für OpenAI-Stimmen wird nur die folgende Teilmenge von SSML-Tags unterstützt. Weitere Informationen finden Sie unter SSML-Dokumentstruktur und -Ereignisse.
Name des SSML-Elements | Beschreibung |
---|---|
<speak> |
Schließt den gesamten zu sprechenden Inhalt ein. Es ist das Stammelement eines SSML-Dokuments. |
<voice> |
Spezifiziert eine Stimme, die für die Ausgabe der Sprachsynthese verwendet wird. |
<sub> |
Gibt den Textwert des Aliasattributs anstelle des eingeschlossenen Texts des Elements an, der ausgesprochen werden soll. |
<say-as> |
Gibt den Inhaltstyp, z. B. Zahl oder Datum, für den Text des Elements an. Alle interpret-as -Eigenschaftswerte mit Ausnahme von interpret-as="name" werden für dieses Element unterstützt. Beispiel: <say-as interpret-as="date" format="dmy">10-12-2016</say-as> wird unterstützt, <say-as interpret-as="name">ED</say-as> aber nicht. Weitere Informationen finden Sie unter Aussprache in SSML. |
<s> |
Bezeichnet Sätze. |
<lang> |
Gibt das Standardgebietsschema für die Sprach an, in der die neuronale Stimme sprechen soll. |
<break> |
Verwenden Sie dieses Element, um das Standardverhalten von Unterbrechungen oder Pausen zwischen Wörtern außer Kraft zu setzen. |