Freigeben über


Was ist das Whisper-Modell?

Das Whisper-Modell ist ein Sprach-zu-Text-Modell von OpenAI, mit dem Sie Audiodateien transkribieren oder übersetzen können. Das Modell wird mit einem umfangreichen Dataset aus englischsprachigen Audio- und Textdaten trainiert.

  • Das Modell ist für das Transkribieren von Audiodateien in englischer Sprache optimiert.
  • Das Modell kann auch verwendet werden, um Audiodateien zu übersetzen, die Sprache in anderen Sprachen enthalten. Die Ausgabe der Transkription ist englischer Text.

Flüstermodelle sind über azure OpenAI in Azure AI Foundry Models oder über Azure AI Speech verfügbar. Die Features unterscheiden sich für diese Angebote. In Azure KI Speech (Batchtranskription) ist Whisper nur eins von vielen Modellen, das Sie für die Spracherkennung verwenden können.

Sie können sich folgende Fragen stellen:

  • Ist das Whisper-Modell eine gute Wahl für mein Szenario, oder ist ein Azure KI Speech-Modell besser geeignet? Wie lassen sich die APIs der beiden Modelltypen vergleichen?

  • Wenn ich das Flüstermodell verwenden möchte, sollte ich es über azure OpenAI oder über Azure AI Speech verwenden? In welchen Szenarien sollte ich das eine bzw. das andere verwenden?

Whisper-Modell oder Azure KI Speech-Modelle

Je nach Szenario sind entweder das Whisper-Modell oder die Azure KI Speech-Modelle geeignet. Wenn Sie sich für die Verwendung von Azure KI Speech entscheiden, können Sie aus mehreren Modellen wählen, einschließlich des Whisper-Modells. In der folgenden Tabelle werden Optionen verglichen und Empfehlungen zum Einstieg bereitgestellt.

Szenario Whisper-Modell Azure KI Speech-Modelle
Echtzeittranskriptionen, Untertitel für Hörgeschädigte und Untertitel für Audio und Video. Nicht verfügbar Empfohlen
Transkriptionen, Untertitel für Hörgeschädigte und Untertitel für vorab aufgezeichnete Audio- und Videodaten. Das Whisper-Modell über Azure OpenAI wird für die schnelle Verarbeitung einzelner Audiodateien empfohlen. Das Whisper-Modell über Azure KI Speech (Batchtranskription) wird für die Batchverarbeitung großer Dateien empfohlen. Weitere Informationen finden Sie unter Whisper-Modell über Azure KI Speech (Batchtranskription) oder über Azure OpenAI? Empfohlen für die Batchverarbeitung großer Dateien, Diarisierung und Zeitstempel auf Wortebene.
Transkript von Telefonanrufaufzeichnungen und -analysen wie Anrufzusammenfassung, Stimmung, Schlüsselthemen und benutzerdefinierte Erkenntnisse. Verfügbar Empfohlen
Echtzeittranskription und -analyse zur Unterstützung von Callcenter-Sachbearbeiter*innen bei Kundenfragen. Nicht verfügbar Empfohlen
Transkript von Besprechungsaufzeichnungen und -analysen wie Besprechungszusammenfassung, Besprechungskapitel und Extraktion von Aktionselementen. Verfügbar Empfohlen
Texteingabe in Echtzeit und Dokumentgenerierung durch Sprachdiktat. Nicht verfügbar Empfohlen
Kontaktcenter-Sprach-Agent: Anrufrouting und interaktive Sprachantwort für Callcenter.​ Verfügbar Empfohlen
Sprach-Assistent: anwendungsspezifischer Sprach-Assistent für Set-Top-Boxen, mobile Apps, Fahrzeuge und andere Szenarien. Verfügbar Empfohlen
Aussprachebewertung: Bewerten der Aussprache der Stimme eines Sprechers oder einer Sprecherin. Nicht verfügbar Empfohlen
Übersetzen von Liveaudiodaten aus einer Sprache in eine andere. Nicht verfügbar Empfohlen über die Sprachübersetzungs-API.
Übersetzen von vorab aufgezeichneten Audiodaten aus anderen Sprachen ins Englische. Empfohlen Auch über die Sprachübersetzungs-API verfügbar.
Übersetzen von vorab aufgezeichneten Audiodaten in andere Sprachen als Englisch. Nicht verfügbar Empfohlen über die Sprachübersetzungs-API.

Flüstermodell über Azure AI Speech oder über Azure OpenAI?

Wenn Sie sich für die Verwendung des Whisper-Modells entscheiden, haben Sie zwei Optionen. Sie können wählen, ob Sie das Whisper-Modell über Azure OpenAI oder über Azure KI Speech (Batchtranskription) verwenden möchten. In beiden Fällen ist der transkribierte Text gleichermaßen lesbar.

Flüstermodell über Azure OpenAI eignet sich möglicherweise am besten für:

  • Schnelles Transkribieren von Audiodateien einzeln.
  • Übersetzen Sie Audio aus anderen Sprachen ins Englische. Sie können Audiodaten in gemischten Sprachen eingeben, und die Ausgabe erfolgt in Englisch.
  • Geben Sie eine Aufforderung an das Modell, um die Ausgabe zu steuern.
  • Unterstützte Dateiformate: mp3, mp4, mpweg, mpga, m4a, wav und webm.
  • Nur ASCII-Zeichen für Dateinamen unterstützt.

Whisper-Modell über Azure KI Speech (Batchtranskription) eignet sich möglicherweise am besten für:

  • Transkribieren von Dateien über 25 MB (bis zu 1 GB). Die Dateigrößenbegrenzung für das Whisper-Modell in Azure OpenAI beträgt 25 MB.
  • das Transkribieren großer Batches von Audiodateien.
  • Diarisierung zum Unterscheiden zwischen den verschiedenen Sprechern, die an der Unterhaltung teilnehmen. Der Speech-Dienst stellt Informationen darüber bereit, welcher Sprecher einen bestimmten Teil der transkribierten Sprache sprach. Das Whisper-Modell über Azure OpenAI unterstützt keine Diarisierung.
  • Zeitstempel auf Wortebene.
  • unterstützte Dateiformate: mp3, wav und ogg.

Eine weitere Überlegung ist die regionale Unterstützung.

  • Das Flüstermodell über Azure OpenAI ist in den folgenden Regionen verfügbar: East US 2, India South, North Central, Norwegen East, Schweden Central, Schweiz Nord- und Westeuropa.
  • Das Flüstermodell über Azure AI Speech ist in den folgenden Regionen verfügbar: Australien Ost, Ost-USA, Nord-Zentral-USA, Süd-Zentral-USA, Südostasien und Westeuropa.