Was ist das Whisper-Modell?

Das Flüstermodell ist ein Sprach-zu-Text-Modell aus OpenAI, mit dem Sie Audiodateien in Englisch transkribieren oder Audio aus anderen Sprachen in Englisch übersetzen können.

Flüstermodelle sind über Azure OpenAI in Microsoft Foundry Models oder über Azure Speech in Foundry Tools verfügbar. Die Features unterscheiden sich für diese Angebote. In Azure Speech (Batchtranskription) ist Whisper nur eines von mehreren Modellen, die Sie für Sprache-zu-Text verwenden können.

So beginnen Sie sofort:

Flüstermodell oder Azure Speech-Modelle

Wählen Sie basierend auf Ihrem Szenario aus – in der folgenden Tabelle sind Empfehlungen zusammengefasst. Wenn Sie Azure Speech verwenden, können Sie aus mehreren Modellen auswählen, einschließlich Flüster.

Szenario Whisper-Modell Azure Speech-Modelle
Echtzeittranskriptionen, Untertitel für Hörgeschädigte und Untertitel für Audio und Video. Nicht verfügbar Empfohlen
Transkriptionen, Untertitel für Hörgeschädigte und Untertitel für vorab aufgezeichnete Audio- und Videodaten. Das Whisper-Modell über Azure OpenAI wird für die schnelle Verarbeitung einzelner Audiodateien empfohlen. Das Flüstermodell über Azure Speech (Batchtranskription) wird für die Batchverarbeitung großer Dateien empfohlen. Weitere Informationen finden Sie unter Whisper-Modell mit Azure Speech Batchtranskription oder mit Azure OpenAI? Empfohlen für die Batchverarbeitung großer Dateien, Diarisierung und Zeitstempel auf Wortebene.
Transkript von Telefonanrufaufzeichnungen und -analysen wie Anrufzusammenfassung, Stimmung, Schlüsselthemen und benutzerdefinierte Erkenntnisse. Verfügbar Empfohlen
Echtzeittranskription und -analyse zur Unterstützung von Callcenter-Sachbearbeiter*innen bei Kundenfragen. Nicht verfügbar Empfohlen
Transkript von Besprechungsaufzeichnungen und -analysen wie Besprechungszusammenfassung, Besprechungskapitel und Extraktion von Aktionselementen. Verfügbar Empfohlen
Texteingabe in Echtzeit und Dokumentgenerierung durch Sprachdiktat. Nicht verfügbar Empfohlen
Kontaktcenter-Sprach-Agent: Anrufrouting und interaktive Sprachantwort für Callcenter.​ Verfügbar Empfohlen
Sprach-Assistent: anwendungsspezifischer Sprach-Assistent für Set-Top-Boxen, mobile Apps, Fahrzeuge und andere Szenarien. Verfügbar Empfohlen
Aussprachebewertung: Bewerten der Aussprache der Stimme eines Sprechers oder einer Sprecherin. Nicht verfügbar Empfohlen
Übersetzen von Liveaudiodaten aus einer Sprache in eine andere. Nicht verfügbar Empfohlen über die Sprachübersetzungs-API.
Übersetzen von vorab aufgezeichneten Audiodaten aus anderen Sprachen ins Englische. Empfohlen Auch über die Sprachübersetzungs-API verfügbar.
Übersetzen von vorab aufgezeichneten Audiodaten in andere Sprachen als Englisch. Nicht verfügbar Empfohlen über die Sprachübersetzungs-API.

Flüstermodell über Azure Speech oder über Azure OpenAI?

Wenn Sie sich für die Verwendung des Whisper-Modells entscheiden, haben Sie zwei Optionen. Sie können auswählen, ob Sie das Flüstermodell über Azure OpenAI oder über Azure Speech (Batchtranskription) verwenden möchten. In beiden Fällen ist der transkribierte Text gleichermaßen lesbar.

Flüstermodell über Azure OpenAI eignet sich möglicherweise am besten für:

  • Schnelles Transkribieren von Audiodateien einzeln.
  • Übersetzen Sie Audio aus anderen Sprachen ins Englische. Sie können Audiodaten in gemischten Sprachen eingeben, und die Ausgabe erfolgt in Englisch.
  • Geben Sie eine Aufforderung an das Modell, um die Ausgabe zu steuern.
  • Unterstützte Dateiformate: mp3, mp4, mpeg, mpga, m4a, wav und webm.
  • Nur ASCII-Zeichen für Dateinamen unterstützt.

Whisper-Modell über Azure Speech (Batchtranskription) eignet sich möglicherweise am besten für:

  • Transkribieren von Dateien über 25 MB (bis zu 1 GB). Die Dateigrößenbegrenzung für das Whisper-Modell in Azure OpenAI beträgt 25 MB.
  • das Transkribieren großer Batches von Audiodateien.
  • Diarisierung zum Unterscheiden zwischen den verschiedenen Sprechenden, die an der Unterhaltung teilnehmen. Der Speech-Dienst stellt Informationen darüber bereit, welche sprechende Person einen bestimmten Teil der transkribierten Sprache sprach. Das Whisper-Modell über Azure OpenAI unterstützt keine Diarisierung.
  • Zeitstempel auf Wortebene.
  • unterstützte Dateiformate: mp3, wav und ogg.

Eine weitere Überlegung ist die regionale Unterstützung.