Dokumentation zur Spracherkennung
Die Spracherkennung des Speech-Diensts (auch als Sprache-zu-Text bezeichnet) ermöglicht die Echtzeit- und Batch-Transkription von Audiostreams in Text. Bei zusätzlicher Referenztexteingabe ermöglicht sie auch die Echtzeitbewertung der Aussprache und gibt Sprechern Feedback zur Richtigkeit und Flüssigkeit des gesprochenen Texts.
Informationen zur Spracherkennung
Überblick
- Was ist die Echtzeit-Spracherkennung?
- Was ist die Batch-Spracherkennung?
- Was ist Custom Speech?
- Verwenden der Speech CLI für Spracherkennung ohne Code
Schnellstart
Entwickeln mit Spracherkennung
Schrittanleitung
- Verwenden der API für schnelle Transkription
- Erstellen eines Custom Speech-Projekts
- Trainieren eines Modells für Custom Speech
- Verwenden komprimierter Audioeingabeformate