Was ist Spracherkennung?

Artikel
07/19/2024

In diesem Überblick lernen Sie die Vorteile und Funktionen des Spracherkennungs-Features des Speech-Diensts kennen, der Teil von Azure KI Services ist. Die Spracherkennung kann für die Echtzeittranskription, die Batchtranskription oder die schnelle Transkription von Audiostreams in Text verwendet werden.

Hinweis

Informationen zum Vergleichen der Preise der Echtzeittranskription mit der Batchtranskription finden Sie unter Preise für den Speech-Dienst.

Eine vollständige Liste der verfügbaren Sprachen für die Spracherkennung finden Sie unter Unterstützung von Sprachen und Stimmen.

Spracherkennung in Echtzeit

Bei der Spracherkennung in Echtzeit wird das Audiomaterial transkribiert, während die Sprache von einem Mikrofon oder einer Datei erkannt wird. Verwenden Sie Spracherkennung in Echtzeit für Anwendungen, die Audiodaten in Echtzeit transkribieren müssen, z. B.:

Transkriptionen, Untertitel für Hörgeschädigte oder Untertitel für Livebesprechungen
Diarisierung (Sprechertrennung)
Aussprachebewertung
Contact Center-Agenten-Unterstützung
Diktieren
Sprach-Agents

Die Spracherkennung in Echtzeit ist über das Speech SDK und die Speech CLI verfügbar.

Schnelle Transkription (Vorschau)

Die API für schnelle Transkription wird verwendet, um Audiodateien synchron und viel schneller als Echtzeitaudio zu transkribieren. Verwenden Sie schnelle Transkription in den Szenarien, in denen Sie die Transkription einer Audioaufzeichnung so schnell wie möglich mit vorhersagbarer Latenz benötigen, z. B.:

Schnelle Audio- oder Videotranskription, Untertitel und Bearbeitung.
Videoübersetzung

Hinweis

Die API für schnelle Transkription ist nur über die Spracherkennung für die Text-REST-API Version 2024-05-15-preview und höher verfügbar.

Informationen zu den ersten Schritten mit der schnellen Transkription finden Sie unter Verwenden der API für schnelle Transkription (Vorschau).

Batch-Transkriptions-API

Die Batch-Transkription wird für die Transkription großer Mengen an Audiomaterial im Speicher verwendet. Sie können per SAS-URI (Shared Access Signature) auf Audiodateien verweisen und Transkriptionsergebnisse asynchron empfangen. Verwenden Sie die Batchtranskription für Anwendungen, die Audiodaten in einem Massenvorgang transkribieren müssen, z. B.:

Transkriptionen, Untertitel für Hörgeschädigte oder Untertitel für vorab aufgezeichnete Audiodaten
Contact Center-Post-Call-Analysen
Diarisierung (Sprechertrennung)

Die Batchtranskription ist verfügbar über:

Spracherkennungs-REST-API: Informationen zu den ersten Schritten finden Sie unter Verwenden von Batchtranskription und Beispiele für Batchtranskription (REST).
Die Speech CLI unterstützt sowohl Echtzeit- als auch Batchtranskription. Führen Sie den folgenden Befehl aus, um die Hilfe der Speech-CLI zu Batchtranskriptionen anzuzeigen:
```
spx help batch transcription
```

Custom Speech

Custom Speech ermöglicht Ihnen das Bewerten und Verbessern der Genauigkeit der Spracherkennung für Ihre Anwendungen und Produkte. Ein benutzerdefiniertes Sprachmodell kann für Spracherkennung in Echtzeit, Sprachübersetzung und Batchtranskription verwendet werden.

Tipp

Ein gehosteter Bereitstellungsendpunkt ist nicht erforderlich, um Custom Speech mit der Batch-Transkriptions-API zu verwenden. Sie können Ressourcen sparen, wenn das Custom Speech-Modell nur für die Batchtranskription verwendet wird. Weitere Informationen finden Sie unter Preise für den Speech-Dienst.

Ohne weitere Konfiguration verwendet die Spracherkennung ein universelles Sprachmodell als Basismodell, das mit Microsoft-eigenen Daten trainiert wird und häufig verwendete gesprochene Sprache widerspiegelt. Das Basismodell wird mit Dialekten und Phonemen vortrainiert, die verschiedene gängige Gebiete repräsentieren. Wenn Sie eine Anforderung zur Spracherkennung ausführen, wird standardmäßig das aktuelle Basismodell für jede unterstützte Sprache verwendet. Das Basismodell funktioniert in den meisten Spracherkennungsszenarien gut.

Ein benutzerdefiniertes Modell kann verwendet werden, um das Basismodell mit dem Ziel zu erweitern, die Erkennung von Fachvokabular zu verbessern, das für die Anwendung spezifisch ist, indem Textdaten zum Trainieren des Modells bereitgestellt werden. Es kann außerdem verwendet werden, um die Erkennung basierend auf den spezifischen Audiobedingungen der Anwendung zu verbessern, indem Audiodaten mit Referenztranskriptionen bereitgestellt werden. Weitere Informationen finden Sie unter Custom Speech und Spracherkennungs-REST API.

Anpassungsoptionen variieren je nach Sprache oder Gebietsschema. Informationen zum Überprüfen der Unterstützung finden Sie unter Sprach- und Stimmunterstützung für den Speech-Dienst.

Verantwortungsvolle KI

Zu einem KI-System gehört nicht nur die Technologie, sondern auch die Personen, die das System verwenden, sowie die davon betroffenen Personen und die Umgebung, in der es bereitgestellt wird. Lesen Sie die Transparenzhinweise, um mehr über die verantwortungsvolle Nutzung und den Einsatz von KI in Ihren Systemen zu erfahren.

Freigeben über