Was ist Spracherkennung?

In diesem Überblick lernen Sie die Vorteile und Funktionen des Spracherkennungs-Features des Speech-Diensts kennen, der Teil von Azure KI Services ist. Die Spracherkennung kann für die Echtzeit- oder die Batchtranskription von Audiostreams in Text verwendet werden.

Hinweis

Informationen zum Vergleichen der Preise der Echtzeittranskription mit der Batchtranskription finden Sie unter Preise für den Speech-Dienst.

Eine vollständige Liste der verfügbaren Sprachen für die Spracherkennung finden Sie unter Unterstützung von Sprachen und Stimmen.

Spracherkennung in Echtzeit

Bei der Spracherkennung in Echtzeit wird das Audiomaterial transkribiert, während die Sprache von einem Mikrofon oder einer Datei erkannt wird. Verwenden Sie Spracherkennung in Echtzeit für Anwendungen, die Audiodaten in Echtzeit transkribieren müssen, z. B.:

Die Spracherkennung in Echtzeit ist über das Speech SDK und die Speech CLI verfügbar.

Batch-Transkription

Die Batch-Transkription wird für die Transkription großer Mengen an Audiomaterial im Speicher verwendet. Sie können per SAS-URI (Shared Access Signature) auf Audiodateien verweisen und Transkriptionsergebnisse asynchron empfangen. Verwenden Sie die Batchtranskription für Anwendungen, die Audiodaten in einem Massenvorgang transkribieren müssen, z. B.:

  • Transkriptionen, Untertitel für Hörgeschädigte oder Untertitel für vorab aufgezeichnete Audiodaten
  • Contact Center-Post-Call-Analysen
  • Diarisierung (Sprechertrennung)

Die Batchtranskription ist verfügbar über:

Custom Speech

Custom Speech ermöglicht Ihnen das Bewerten und Verbessern der Genauigkeit der Spracherkennung für Ihre Anwendungen und Produkte. Ein benutzerdefiniertes Sprachmodell kann für Spracherkennung in Echtzeit, Sprachübersetzung und Batchtranskription verwendet werden.

Tipp

Ein gehosteter Bereitstellungsendpunkt ist nicht erforderlich, um Custom Speech mit der Batch-Transkriptions-API zu verwenden. Sie können Ressourcen sparen, wenn das Custom Speech-Modell nur für die Batchtranskription verwendet wird. Weitere Informationen finden Sie unter Preise für den Speech-Dienst.

Ohne weitere Konfiguration verwendet die Spracherkennung ein universelles Sprachmodell als Basismodell, das mit Microsoft-eigenen Daten trainiert wird und häufig verwendete gesprochene Sprache widerspiegelt. Das Basismodell wird mit Dialekten und Phonemen vortrainiert, die verschiedene gängige Gebiete repräsentieren. Wenn Sie eine Anforderung zur Spracherkennung ausführen, wird standardmäßig das aktuelle Basismodell für jede unterstützte Sprache verwendet. Das Basismodell funktioniert in den meisten Spracherkennungsszenarien gut.

Ein benutzerdefiniertes Modell kann verwendet werden, um das Basismodell mit dem Ziel zu erweitern, die Erkennung von Fachvokabular zu verbessern, das für die Anwendung spezifisch ist, indem Textdaten zum Trainieren des Modells bereitgestellt werden. Es kann außerdem verwendet werden, um die Erkennung basierend auf den spezifischen Audiobedingungen der Anwendung zu verbessern, indem Audiodaten mit Referenztranskriptionen bereitgestellt werden. Weitere Informationen finden Sie unter Custom Speech und Spracherkennungs-REST API.

Anpassungsoptionen variieren je nach Sprache oder Gebietsschema. Informationen zum Überprüfen der Unterstützung finden Sie unter Sprach- und Stimmunterstützung für den Speech-Dienst.

Verantwortungsvolle KI

Zu einem KI-System gehört nicht nur die Technologie, sondern auch die Personen, die das System verwenden, sowie die davon betroffenen Personen und die Umgebung, in der es bereitgestellt wird. Lesen Sie die Transparenzhinweise, um mehr über die verantwortungsvolle Nutzung und den Einsatz von KI in Ihren Systemen zu erfahren.

Nächste Schritte