Was ist das Whisper-Modell?
Das Whisper-Modell ist ein Spracherkennungsmodell von OpenAI, mit dem Sie Audiodateien transkribieren können. Das Modell wird mit einem umfangreichen Dataset aus englischsprachigen Audio- und Textdaten trainiert. Das Modell ist für das Transkribieren von Audiodateien in englischer Sprache optimiert. Das Modell kann auch zum Transkribieren von Audiodateien verwendet werden, die gesprochene Daten in anderen Sprachen enthalten. Die Ausgabe des Modells ist englischer Text.
Whisper-Modelle sind über Azure OpenAI Service oder über Azure KI Speech verfügbar. Die Features unterscheiden sich für diese Angebote. In Azure KI Speech (Batchtranskription) ist Whisper nur eins von vielen Modellen, das Sie für die Spracherkennung verwenden können.
Sie können sich folgende Fragen stellen:
Ist das Whisper-Modell eine gute Wahl für mein Szenario, oder ist ein Azure KI Speech-Modell besser geeignet? Wie lassen sich die APIs der beiden Modelltypen vergleichen?
Wenn ich das Whisper-Modell verwenden möchte, sollte ich es über Azure OpenAI Service oder über Azure KI Speech verwenden? In welchen Szenarien sollte ich das eine bzw. das andere verwenden?
Whisper-Modell oder Azure KI Speech-Modelle
Je nach Szenario sind entweder das Whisper-Modell oder die Azure KI Speech-Modelle geeignet. Wenn Sie sich für die Verwendung von Azure KI Speech entscheiden, können Sie aus mehreren Modellen wählen, einschließlich des Whisper-Modells. In der folgenden Tabelle werden Optionen verglichen und Empfehlungen zum Einstieg bereitgestellt.
Szenario | Whisper-Modell | Azure KI Speech-Modelle |
---|---|---|
Echtzeittranskriptionen, Untertitel für Hörgeschädigte und Untertitel für Audio und Video. | Nicht verfügbar | Empfohlen |
Transkriptionen, Untertitel für Hörgeschädigte und Untertitel für vorab aufgezeichnete Audio- und Videodaten. | Das Whisper-Modell über Azure OpenAI wird für die schnelle Verarbeitung einzelner Audiodateien empfohlen. Das Whisper-Modell über Azure KI Speech (Batchtranskription) wird für die Batchverarbeitung großer Dateien empfohlen. Weitere Informationen finden Sie unter Whisper-Modell über Azure KI Speech (Batchtranskription) oder über Azure OpenAI Service? | Empfohlen für die Batchverarbeitung großer Dateien, Diarisierung und Zeitstempel auf Wortebene. |
Transkript von Telefonanrufaufzeichnungen und -analysen wie Anrufzusammenfassung, Stimmung, Schlüsselthemen und benutzerdefinierte Erkenntnisse. | Verfügbar | Empfohlen |
Echtzeittranskription und -analyse zur Unterstützung von Callcenter-Sachbearbeiter*innen bei Kundenfragen. | Nicht verfügbar | Empfohlen |
Transkript von Besprechungsaufzeichnungen und -analysen wie Besprechungszusammenfassung, Besprechungskapitel und Extraktion von Aktionselementen. | Verfügbar | Empfohlen |
Texteingabe in Echtzeit und Dokumentgenerierung durch Sprachdiktat. | Nicht verfügbar | Empfohlen |
Kontaktcenter-Sprach-Agent: Anrufrouting und interaktive Sprachantwort für Callcenter. | Verfügbar | Empfohlen |
Sprach-Assistent: anwendungsspezifischer Sprach-Assistent für Set-Top-Boxen, mobile Apps, Fahrzeuge und andere Szenarien. | Verfügbar | Empfohlen |
Aussprachebewertung: Bewerten der Aussprache der Stimme eines Sprechers oder einer Sprecherin. | Nicht verfügbar | Empfohlen |
Übersetzen von Liveaudiodaten aus einer Sprache in eine andere. | Nicht verfügbar | Empfohlen über die Sprachübersetzungs-API |
Übersetzen von vorab aufgezeichneten Audiodaten aus anderen Sprachen ins Englische. | Empfohlen | Verfügbar über die Sprachübersetzungs-API |
Übersetzen von vorab aufgezeichneten Audiodaten in andere Sprachen als Englisch. | Nicht verfügbar | Empfohlen über die Sprachübersetzungs-API |
Whisper-Modell über Azure KI Speech oder über Azure OpenAI Service?
Wenn Sie sich für die Verwendung des Whisper-Modells entscheiden, haben Sie zwei Optionen. Sie können wählen, ob Sie das Whisper-Modell über Azure OpenAI oder über Azure KI Speech (Batchtranskription) verwenden möchten. In beiden Fällen ist der transkribierte Text gleichermaßen lesbar. Sie können Audiodaten in gemischten Sprachen eingeben, und die Ausgabe erfolgt in Englisch.
Das Whisper-Modell über Azure OpenAI Service eignet sich möglicherweise am besten für Folgendes:
- Schnelles Transkribieren einzelner Audiodateien
- Übersetzen von Audio aus anderen Sprachen ins Englische
- Bereitstellen einer Äußerung für das Modell, um die Ausgabe zu steuern
- Unterstützte Dateiformate: mp3, mp4, mpweg, mpga, m4a, wav und webm
- Für Dateinamen werden nur ASCII-Zeichen unterstützt
Whisper-Modell über Azure KI Speech (Batchtranskription) eignet sich möglicherweise am besten für:
- Transkribieren von Dateien über 25 MB (bis zu 1 GB). Die Dateigrößenbegrenzung für das Whisper-Modell in Azure OpenAI beträgt 25 MB.
- das Transkribieren großer Batches von Audiodateien.
- Diarisierung zum Unterscheiden zwischen den verschiedenen Sprechern, die an der Unterhaltung teilnehmen. Der Speech-Dienst stellt Informationen darüber bereit, welcher Sprecher einen bestimmten Teil der transkribierten Sprache sprach. Das Whisper-Modell über Azure OpenAI unterstützt keine Diarisierung.
- Zeitstempel auf Wortebene.
- unterstützte Dateiformate: mp3, wav und ogg.
Eine weitere Überlegung ist die regionale Unterstützung.
- Das Whisper-Modell über Azure OpenAI Service ist in den folgenden Regionen verfügbar: „USA, Osten 2“, „Indien, Süden“, „USA, Norden-Mitte“, „Norwegen, Osten“, „Schweden, Mitte“, „Schweiz, Norden“ und „Europa, Westen“.
- Das Whisper-Modell über Azure KI Speech ist in den folgenden Regionen verfügbar: „Australien, Osten“, „USA, Osten“, „USA, Norden-Mitte“, „USA, Süden-Mitte“, „Asien, Südosten“, „Vereinigtes Königreich, Süden“ und „Europa, Westen“.