Was ist die Spracherkennung?

In diesem Überblick lernen Sie die Vorteile und Funktionen des Spracherkennungsfeatures des Speech-Diensts kennen, der Teil von Azure Cognitive Services ist.

Die Spracherkennung (Sprache zu Text) ermöglicht die Echtzeit- oder Offlinetranskription von Audiostreams in Text. Eine vollständige Liste der verfügbaren Sprachen für die Spracherkennung finden Sie unter Spracherkennung.

Hinweis

Microsoft nutzt dieselbe Erkennungstechnologie bei Cortana und Office-Produkten.

Erste Schritte

Probieren Sie den Schnellstart für Sprache-in-Test aus, um mit der Arbeit zu beginnen. Die Spracherkennung ist über das Speech SDK, die REST-API und die Speech CLI verfügbar.

Ausführliche Beispiele stehen im Repository Azure-Samples/cognitive-services-speech-sdk auf GitHub zur Verfügung. Es gibt Beispiele für C# (einschließlich UWP, Unity und Xamarin), C++, Java, JavaScript (einschließlich Browser und Node.js), Objective-C, Python und Swift. Codebeispiele für Go stehen im Repository Microsoft/cognitive-services-speech-sdk-go auf GitHub zur Verfügung.

Batch-Transkription

Bei der Batch-Transkription handelt es sich um Spracherkenungs-REST-API-Vorgänge, mit denen Sie große Mengen von Audiodaten im Speicher transkribieren können. Sie können per SAS-URI (Shared Access Signature) auf Audiodateien verweisen und Transkriptionsergebnisse asynchron empfangen. Weitere Informationen zur Verwendung der Batch-Transkriptions-API finden Sie unter Verwenden der Batch-Transkription und Beispiele für die Batch-Transkription (REST).

Custom Speech

Der Azure-Spracherkennungsdienst analysiert Audio in Echtzeit oder Batches, um das gesprochene Wort in Text zu transkribieren. Ohne weitere Konfiguration verwendet die Spracherkennung ein universelles Sprachmodell als Basismodell, das mit Microsoft-eigenen Daten trainiert wird und häufig verwendete gesprochene Sprache widerspiegelt. Dieses Basismodell wird mit Dialekten und Phonemen vortrainiert, die eine Vielzahl von gemeinsamen Bereichen abbilden. Das Basismodell funktioniert in den meisten Szenarien gut.

Das Basismodell reicht möglicherweise nicht aus, wenn das Audiosignal Umgebungsgeräusche oder viel branchen- und domänenspezifischen Jargon enthält. In diesen Fällen ist das Erstellen eines benutzerdefinierten Sprachmodells durch Training mit zusätzlichen Daten sinnvoll, die diesem bestimmten Bereich zugeordnet sind. Sie können benutzerdefinierte Akustik-, Sprach- und Aussprachemodelle erstellen und trainieren. Weitere Informationen finden Sie unter Custom Speech und Spracherkennungs-REST API.

Anpassungsoptionen variieren je nach Sprache oder Gebietsschema. Informationen zum Überprüfen der Unterstützung finden Sie unter Sprach- und Stimmunterstützung für den Speech-Dienst.

Nächste Schritte