Spieleentwicklung mit Azure KI Speech

2025-06-08

Azure KI Speech kann verwendet werden, um verschiedene Gaming-Szenarien zu verbessern – sowohl im Spiel als auch außerhalb des Spiels.

Im Folgenden finden Sie einige Speech-Features, die Sie für flexible und interaktive Gaming-Erlebnisse in Betracht ziehen sollten:

Lassen Sie alle an der Unterhaltung teilhaben, indem Sie Audioausgaben aus Text synthetisieren. Oder indem Text aus Audioinhalten angezeigt wird.
Machen Sie das Spiel für Spieler*innen zugänglicher, die Text in einer bestimmten Sprache nicht verstehen, einschließlich junger Spieler*innen, die noch nicht lesen und schreiben können. Die Spieler können sich Storylines und Anweisungen in ihrer bevorzugten Sprache anhören.
Erstellen Sie Spiel-Avatare und Nicht-Spieler-Charaktere (Non-Playable Characters, NPCs), die eine Unterhaltung im Spiel initiieren oder daran teilnehmen können.
Standardstimmen bieten sehr natürliche integrierte Stimmen und eine branchenweit führende Stimmvielfalt – dank eines großen Portfolios an Sprachen und Stimmen.
Benutzerdefinierte Stimme zum Erstellen einer Stimme, die mit konsistenter Qualität und konsistentem Sprechstil markenspezifisch bleibt. Sie können Emotionen, Akzente, Nuancen, Lachen und andere paralinguistische Sounds und Ausdrücke hinzufügen.
Verwenden Sie die Prototyperstellung für Spieledialoge, um den Zeit- und Geldaufwand für das Produkt zu reduzieren und das Spiel früher auf den Markt zu bringen. Sie können die Dialogzeilen schnell austauschen und Variationen in Echtzeit anhören, um den Spielinhalt zu durchlaufen.

Sie können das Speech SDK oder die Speech CLI verwenden, um die Features Spracherkennung, Sprachsynthese, Sprachenerkennung und Sprachübersetzung mit geringer Latenz und in Echtzeit zu nutzen. Sie können auch die Batch-Transkriptions-API verwenden, um aufgezeichnete Sprache zu transkribieren. Verwenden Sie die Batchsynthese-API, um eine große Menge an Texteingaben (lang und kurz) in Sprache zu synthetisieren.

Informationen zur Gebietsschemaverfügbarkeit sowie zur regionalen Verfügbarkeit finden Sie unter Unterstützung von Sprachen und Stimmen und Unterstützung für Regionen.

Sprachsynthese

Binden Sie alle in die Unterhaltung ein, indem Sie Textnachrichten mittels Sprachsynthese in Audio konvertieren. Dies ist beispielsweise beim Prototyping von Spieldialogen, zur Verbesserung der Barrierefreiheit oder für NPC-Stimmen hilfreich. Sprachsynthese umfasst Features für Standardstimmen und benutzerdefinierte Stimmen. Standardstimmen bieten sehr natürliche integrierte Stimmen und eine branchenweit führende Stimmvielfalt – dank eines großen Portfolios an Sprachen und Stimmen. Benutzerdefinierte Stimme ist ein benutzerfreundlicher Self-Service zum Erstellen einer sehr natürlichen benutzerdefinierten Stimme.

Behalten Sie die folgenden Vorteile beim Aktivieren dieser Funktionalität in Ihrem Spiel im Blick:

Unterstützte Stimmen und Sprachen: Ein großes Portfolio von Gebietsschemas und Stimmen wird unterstützt. Sie können auch mehrere Sprachen für die Sprachsynthese-Ausgabe angeben. Für benutzerdefinierte Spracherkennung können Sie verschiedene Sprachen aus einzelsprachigen Schulungsdaten erstellen .
Unterschiedliche Emotionsstile werden unterstützt: Gefühle, z. B. fröhlich, wütend, traurig, aufgeregt, hoffnungsvoll, freundlich, unfreundlich, ängstlich, schreiend und flüsternd. Sie können die Sprechweise, den Stilgrad und die Rolle auf Satzebene anpassen.
Viseme werden unterstützt: Sie können Viseme während der Echtzeit-Synthetisierung verwenden, um die Bewegung von 2D- und 3D-Avatarmodellen zu steuern, sodass die Mundbewegungen perfekt mit synthetischer Sprache übereinstimmen. Weitere Informationen finden Sie unter Abrufen der Gesichtsposition mit Mundbild.
Feinabstimmung der Sprachsynthese-Ausgabe mit der Speech Synthesis Markup Language (SSML): Mit SSML können Sie die Sprachsynthese-Ausgabe anpassen und die Sprachabstimmung noch besser unterstützen. Weitere Informationen finden Sie unter Übersicht über SSML (Speech Synthesis Markup Language, Markupsprache für Sprachsynthese).
Audioausgabe - Jedes Standardstimmemodell ist mit 24 kHz und High-Fidelity 48 kHz verfügbar. Wenn Sie das Ausgabeformat 48 kHz auswählen, wird entsprechend das High-Fidelity-Sprachmodell mit 48 kHz aufgerufen. Durch Upsampling oder Downsampling beim Synthetisieren können andere Abtastraten als 24 kHz und 48 kHz erreicht werden. Beispielsweise erfolgt ein Downsampling von 48 kHz auf 44,1 kHz. Jedes Audioformat enthält eine Bitrate und einen Codierungstyp. Weitere Informationen finden Sie unter Unterstützte Audioformate. Weitere Informationen zu 48-kHz-Stimmen mit hoher Qualität finden Sie in diesem Einführungsblog.

Ein Beispiel finden Sie in der Schnellstartanleitung zur Sprachsynthese.

Spracherkennung

Sie können Spracherkennung verwenden, um Text aus dem gesprochenen Audio in Ihrem Spiel anzuzeigen. Ein Beispiel finden Sie in der Schnellstartanleitung zur Spracherkennung.

Sprachenerkennung

Mit der Spracherkennung können Sie die Sprache der vom Spieler übermittelten Chatzeichenfolge erkennen.

Sprachübersetzung

Es ist nicht ungewöhnlich, dass Spieler*innen in der gleichen Spielsitzung unterschiedliche Sprachen sprechen. Für sie ist es möglicherweise hilfreich, sowohl die ursprüngliche Nachricht als auch die entsprechende Übersetzung zu erhalten. Sie können die Sprachübersetzung verwenden, um Text zwischen Sprachen zu übersetzen, damit Spieler auf der ganzen Welt in ihrer jeweiligen Muttersprache miteinander kommunizieren können.

Ein Beispiel finden Sie im Schnellstart zur Sprachübersetzung.

Hinweis

Neben dem Speech-Dienst können Sie auch den Übersetzer-Dienst verwenden. Informationen zum Ausführen von Textübersetzungen zwischen unterstützten Quell- und Zielsprachen in Echtzeit finden Sie unter Textübersetzung.

Freigeben über

Spieleentwicklung mit Azure KI Speech

Sprachsynthese

Spracherkennung

Sprachenerkennung

Sprachübersetzung

Nächste Schritte

Feedback

Zusätzliche Ressourcen