Teilen über


Was ist Spracherkennung?

Der Dienst „Azure KI Speech“ bietet fortschrittliche Spracherkennungsfunktionen (Sprache-in-Text). Dieses Feature unterstützt sowohl Echtzeit- als auch Batchtranskription und bietet vielseitige Lösungen zum Konvertieren von Audiodatenströmen in Text.

Wichtige Funktionen

Der Dienst „Sprache-in-Text“ bietet die folgenden wichtigen Funktionen:

Spracherkennung in Echtzeit

Bei Sprache-in-Text in Echtzeit wird das Audiomaterial transkribiert, während es von einem Mikrofon oder einer Datei erkannt wird. Es eignet sich ideal für Anwendungen, die eine sofortige Transkription erfordern, z. B.:

  • Transkriptionen, Untertitel oder Live-Untertitel für Livebesprechungen: Echtzeit-Audiotranskription für Bedienungshilfen und Aufzeichnung.
  • Diarisierung (Sprechertrennung): Identifizieren und Unterscheiden zwischen verschiedenen Sprechern im Audio.
  • Aussprachebewertung: Bewerten und Bereitstellen von Feedback zur Genauigkeit der Aussprache.
  • Unterstützung von Callcenter-Mitarbeitern: Bereitstellung einer Echtzeittranskription zur Unterstützung von Kundendienstmitarbeitern.
  • Diktat: Transkribieren von gesprochenen Wörtern in geschriebenen Text zu Dokumentationszwecken.
  • Sprach-Agents: Einrichten von IVR-Systemen (Interactive Voice Response, interaktive Sprachantwort) zum Transkribieren von Benutzerfragen und Befehlen.

Auf Sprache-in-Text in Echtzeit kann über das Speech-SDK, die Speech-CLI und die REST-API zugegriffen werden, sodass die Integration in verschiedene Anwendungen und Workflows ermöglicht wird. Sprache-in-Text in Echtzeit ist über das Speech-SDK, die Speech-CLI und REST-APIs wie die API für schnelle Transkription verfügbar.

Schnelle Transkription (Vorschau)

Die API für schnelle Transkription wird verwendet, um Audiodateien synchron und schneller als Echtzeitaudio zu transkribieren. Verwenden Sie schnelle Transkription in den Szenarien, in denen Sie die Transkription einer Audioaufzeichnung so schnell wie möglich mit vorhersagbarer Latenz benötigen, z. B.:

  • Schnelle Audio- oder Videotranskription und Untertitel: Sie erhalten schnell eine Transkription einer gesamten Video- oder Audiodatei.
  • Videoübersetzung: Sie erhalten sofort neue Untertitel für ein Video, wenn Sie Audio in verschiedenen Sprachen haben.

Hinweis

Die API für schnelle Transkription ist nur über die Spracherkennung für die Text-REST-API Version 2024-05-15-preview und höher verfügbar.

Informationen zu den ersten Schritten mit der schnellen Transkription finden Sie unter Verwenden der API für schnelle Transkription (Vorschau).

Batch-Transkriptions-API

Batchtranskription ist für das Transkribieren von großen Mengen in Dateien gespeicherter Audiodaten konzipiert. Diese Methode verarbeitet Audio asynchron und eignet sich für:

  • Transkriptionen, Live-Untertitel oder Untertitel für vorab aufgezeichnete Audiodaten: Konvertieren gespeicherter Audioinhalte in Text.
  • Analyse von getätigten Anrufen in einem Contact Center: Analysiert aufgezeichnete Anrufe, um wertvolle Erkenntnisse zu gewinnen.
  • Diarisierung (Sprechertrennung): Unterscheidung zwischen verschiedenen Sprechern in aufgezeichneten Audiodaten.

Die Batchtranskription ist verfügbar über:

Custom Speech

Custom Speech ermöglicht Ihnen das Bewerten und Verbessern der Genauigkeit der Spracherkennung für Ihre Anwendungen und Produkte. Ein benutzerdefiniertes Sprachmodell kann für Spracherkennung in Echtzeit, Sprachübersetzung und Batchtranskription verwendet werden.

Tipp

Ein gehosteter Bereitstellungsendpunkt ist nicht erforderlich, um Custom Speech mit der Batch-Transkriptions-API zu verwenden. Sie können Ressourcen sparen, wenn das Custom Speech-Modell nur für die Batchtranskription verwendet wird. Weitere Informationen finden Sie unter Preise für den Speech-Dienst.

Ohne weitere Konfiguration verwendet die Spracherkennung ein universelles Sprachmodell als Basismodell, das mit Microsoft-eigenen Daten trainiert wird und häufig verwendete gesprochene Sprache widerspiegelt. Das Basismodell wird mit Dialekten und Phonemen vortrainiert, die verschiedene gängige Gebiete repräsentieren. Wenn Sie eine Anforderung zur Spracherkennung ausführen, wird standardmäßig das aktuelle Basismodell für jede unterstützte Sprache verwendet. Das Basismodell funktioniert in den meisten Spracherkennungsszenarien gut.

Mit Custom Speech (benutzerdefinierte Spracherkennung) können Sie das Spracherkennungsmodell an die spezifischen Anforderungen Ihrer Anwendung anpassen. Dies kann besonders nützlich für folgende Zwecke sein:

  • Verbesserte Erkennung von domänenspezifischem Vokabular: Trainieren Sie das Modell mit Textdaten, die für Ihr Anwendungsgebiet relevant sind.
  • Verbesserte Genauigkeit für bestimmte Audiobedingungen: Verwenden Sie Audiodaten mit Referenztranskriptionen, um das Modell zu verfeinern.

Weitere Informationen zur benutzerdefinierten Spracherkennung finden Sie in der Übersicht über Custom Speech und in der Dokumentation zur REST-API für Sprache-in-Text.

Ausführliche Informationen zu Anpassungsoptionen pro Sprache und Gebietsschema finden Sie in der Dokumentation zu Sprach- und Stimmunterstützung für den Speech-Dienst.

Anwendungsbeispiele

Im Folgenden finden Sie einige praktische Beispiele für die Verwendung des Azure KI-Dienstes „Sprache-in-Text“:

Anwendungsfall Szenario Lösung
Transkriptionen von Livebesprechungen und Untertitel Eine virtuelle Veranstaltungsplattform muss Echtzeituntertitel für Webinare bereitstellen. Integrieren Sie die Funktion „Sprache-in-Text in Echtzeit“ mithilfe des Speech-SDK, um gesprochenen Inhalt in Untertitel zu transkribieren, die während der Veranstaltung live angezeigt werden.
Kundendienstverbesserung Ein Callcenter möchte Mitarbeiter unterstützen, indem Echtzeittranskriptionen von Kundenanrufen bereitgestellt werden. Verwenden Sie die Funktion „Sprache-in-Text in Echtzeit“ über die Speech-CLI, um Anrufe zu transkribieren, sodass Mitarbeiter Kundenanfragen besser verstehen und ihre Fragen besser beantworten können.
Untertitel für Videos Eine Videohostingplattform möchte schnell eine Reihe von Untertiteln für ein Video generieren. Verwenden Sie die schnelle Transkription, um schnell eine Reihe von Untertiteln für das gesamte Video zu erhalten.
Tools für den Bildungsbereich Eine E-Learning-Plattform möchte Transkriptionen für Videolektionen bereitstellen. Wenden Sie die Batchtranskription über die REST-API „Sprache-in-Text“ an, um vorab aufgezeichnete Videolektionen zu verarbeiten und Texttranskriptionen für die Schulungsteilnehmer zu generieren.
Dokumentation für das Gesundheitswesen Ein Gesundheitsdienstleister muss Patientengespräche dokumentieren. Verwenden Sie die Funktion „Sprache-in-Text in Echtzeit“ für Diktate, sodass Gesundheitsexperten ihre Notizen sprechen können, die dann sofort transkribiert werden. Verwenden Sie ein benutzerdefiniertes Modell, um die Erkennung bestimmter medizinischer Begriffe zu verbessern.
Medien und Unterhaltung Ein Medienunternehmen möchte Untertitel für ein großes Archiv von Videos erstellen. Verwenden Sie die Batchtranskription, um die Videodateien in einem Massenvorgang zu verarbeiten und genaue Untertitel für jedes Video zu generieren.
Marktforschung Ein Marktforschungsunternehmen muss Kundenfeedback von Audioaufzeichnungen analysieren. Verwenden Sie die Batchtranskription, um Audiofeedback in Text zu konvertieren, was eine einfachere Analyse und schnelle Einblicke ermöglicht.

Verantwortungsvolle KI

Zu einem KI-System gehört nicht nur die Technologie, sondern auch die Personen, die das System verwenden, sowie die davon betroffenen Personen und die Umgebung, in der es bereitgestellt wird. Lesen Sie die Transparenzhinweise, um mehr über die verantwortungsvolle Nutzung und den Einsatz von KI in Ihren Systemen zu erfahren.