Was ist das Whisper-Modell?

Artikel
24.09.2024

Das Whisper-Modell ist ein Spracherkennungsmodell von OpenAI, mit dem Sie Audiodateien transkribieren können. Das Modell wird mit einem umfangreichen Dataset aus englischsprachigen Audio- und Textdaten trainiert. Das Modell ist für das Transkribieren von Audiodateien in englischer Sprache optimiert. Das Modell kann auch zum Transkribieren von Audiodateien verwendet werden, die gesprochene Daten in anderen Sprachen enthalten. Die Ausgabe des Modells ist englischer Text.

Whisper-Modelle sind über Azure OpenAI Service oder über Azure KI Speech verfügbar. Die Features unterscheiden sich für diese Angebote. In Azure KI Speech (Batchtranskription) ist Whisper nur eins von vielen Modellen, das Sie für die Spracherkennung verwenden können.

Sie können sich folgende Fragen stellen:

Ist das Whisper-Modell eine gute Wahl für mein Szenario, oder ist ein Azure KI Speech-Modell besser geeignet? Wie lassen sich die APIs der beiden Modelltypen vergleichen?
Wenn ich das Whisper-Modell verwenden möchte, sollte ich es über Azure OpenAI Service oder über Azure KI Speech verwenden? In welchen Szenarien sollte ich das eine bzw. das andere verwenden?

Whisper-Modell oder Azure KI Speech-Modelle

Je nach Szenario sind entweder das Whisper-Modell oder die Azure KI Speech-Modelle geeignet. Wenn Sie sich für die Verwendung von Azure KI Speech entscheiden, können Sie aus mehreren Modellen wählen, einschließlich des Whisper-Modells. In der folgenden Tabelle werden Optionen verglichen und Empfehlungen zum Einstieg bereitgestellt.

Szenario	Whisper-Modell	Azure KI Speech-Modelle
Echtzeittranskriptionen, Untertitel für Hörgeschädigte und Untertitel für Audio und Video.	Nicht verfügbar	Empfohlen
Transkriptionen, Untertitel für Hörgeschädigte und Untertitel für vorab aufgezeichnete Audio- und Videodaten.	Das Whisper-Modell über Azure OpenAI wird für die schnelle Verarbeitung einzelner Audiodateien empfohlen. Das Whisper-Modell über Azure KI Speech (Batchtranskription) wird für die Batchverarbeitung großer Dateien empfohlen. Weitere Informationen finden Sie unter Whisper-Modell über Azure KI Speech (Batchtranskription) oder über Azure OpenAI Service?	Empfohlen für die Batchverarbeitung großer Dateien, Diarisierung und Zeitstempel auf Wortebene.
Transkript von Telefonanrufaufzeichnungen und -analysen wie Anrufzusammenfassung, Stimmung, Schlüsselthemen und benutzerdefinierte Erkenntnisse.	Verfügbar	Empfohlen
Echtzeittranskription und -analyse zur Unterstützung von Callcenter-Sachbearbeiter*innen bei Kundenfragen.	Nicht verfügbar	Empfohlen
Transkript von Besprechungsaufzeichnungen und -analysen wie Besprechungszusammenfassung, Besprechungskapitel und Extraktion von Aktionselementen.	Verfügbar	Empfohlen
Texteingabe in Echtzeit und Dokumentgenerierung durch Sprachdiktat.	Nicht verfügbar	Empfohlen
Kontaktcenter-Sprach-Agent: Anrufrouting und interaktive Sprachantwort für Callcenter.	Verfügbar	Empfohlen
Sprach-Assistent: anwendungsspezifischer Sprach-Assistent für Set-Top-Boxen, mobile Apps, Fahrzeuge und andere Szenarien.	Verfügbar	Empfohlen
Aussprachebewertung: Bewerten der Aussprache der Stimme eines Sprechers oder einer Sprecherin.	Nicht verfügbar	Empfohlen
Übersetzen von Liveaudiodaten aus einer Sprache in eine andere.	Nicht verfügbar	Empfohlen über die Sprachübersetzungs-API
Übersetzen von vorab aufgezeichneten Audiodaten aus anderen Sprachen ins Englische.	Empfohlen	Verfügbar über die Sprachübersetzungs-API
Übersetzen von vorab aufgezeichneten Audiodaten in andere Sprachen als Englisch.	Nicht verfügbar	Empfohlen über die Sprachübersetzungs-API

Whisper-Modell über Azure KI Speech oder über Azure OpenAI Service?

Wenn Sie sich für die Verwendung des Whisper-Modells entscheiden, haben Sie zwei Optionen. Sie können wählen, ob Sie das Whisper-Modell über Azure OpenAI oder über Azure KI Speech (Batchtranskription) verwenden möchten. In beiden Fällen ist der transkribierte Text gleichermaßen lesbar. Sie können Audiodaten in gemischten Sprachen eingeben, und die Ausgabe erfolgt in Englisch.

Das Whisper-Modell über Azure OpenAI Service eignet sich möglicherweise am besten für Folgendes:

Schnelles Transkribieren einzelner Audiodateien
Übersetzen von Audio aus anderen Sprachen ins Englische
Bereitstellen einer Äußerung für das Modell, um die Ausgabe zu steuern
Unterstützte Dateiformate: mp3, mp4, mpweg, mpga, m4a, wav und webm
Für Dateinamen werden nur ASCII-Zeichen unterstützt

Whisper-Modell über Azure KI Speech (Batchtranskription) eignet sich möglicherweise am besten für:

Transkribieren von Dateien über 25 MB (bis zu 1 GB). Die Dateigrößenbegrenzung für das Whisper-Modell in Azure OpenAI beträgt 25 MB.
das Transkribieren großer Batches von Audiodateien.
Diarisierung zum Unterscheiden zwischen den verschiedenen Sprechern, die an der Unterhaltung teilnehmen. Der Speech-Dienst stellt Informationen darüber bereit, welcher Sprecher einen bestimmten Teil der transkribierten Sprache sprach. Das Whisper-Modell über Azure OpenAI unterstützt keine Diarisierung.
Zeitstempel auf Wortebene.
unterstützte Dateiformate: mp3, wav und ogg.

Eine weitere Überlegung ist die regionale Unterstützung.

Das Whisper-Modell über Azure OpenAI Service ist in den folgenden Regionen verfügbar: „USA, Osten 2“, „Indien, Süden“, „Japan, Osten“, „USA, Norden-Mitte“, „Norwegen, Osten“, „Schweden, Mitte“, „Schweiz, Norden“ und „Europa, Westen“.
Das Whisper-Modell über Azure KI Speech ist in den folgenden Regionen verfügbar: „Australien, Osten“, „USA, Osten“, „USA, Norden-Mitte“, „USA, Süden-Mitte“, „Asien, Südosten“, „Vereinigtes Königreich, Süden“ und „Europa, Westen“.

Zusätzliche Ressourcen

Dokumentation

Azure OpenAI-Chat von Sprache zu Sprache – Speech-Dienst - Azure AI services

In dieser Schrittanleitung verwenden Sie Speech, um sich mit Azure OpenAI zu unterhalten. Speech erkennt Audiodaten, sendet sie an Azure OpenAI und synthetisiert Sprachantworten.
Spracherkennung mit Azure OpenAI Service - Azure OpenAI

Erfahren Sie, wie Sie das Whisper-Modell von Azure OpenAI für die Spracherkennung verwenden.
Spracherkennungsdienst: Erstellen einer Batchtranskription - Azure AI services

Erfahren Sie, wie Sie Azure KI Speech für Batchtranskriptionen verwenden, wo Sie Audio übermitteln und dann asynchron Transkriptionsergebnisse abrufen.
Übersicht über die Spracherkennung: Speech-Dienst - Azure AI services

Verschaffen Sie sich einen Überblick über die Vorteile und Funktionen des Spracherkennungs-Features des Speech-Dienstes.
Verwenden der API für schnelle Transkription – Spracherkennungsdienst - Azure AI services

Erfahren Sie, wie Sie Azure KI Speech für schnelle Transkriptionen verwenden können, wobei Sie Audio übermitteln, und Transkriptionsergebnisse schneller als Echtzeit erhalten.
Schnellstart Spracherkennung - Azure AI services

In dieser Schnellstartanleitung erfahren Sie, wie Sie den Speech-Dienst für die Echtzeitkonvertierung von Sprache in Text verwenden.
Übersicht zu Batch-Transkriptionen – Speech-Dienst - Azure AI services

Batch-Transkriptionen eignen sich besonders, wenn Sie eine große Menge von Audiodaten in einen Speicher wie z.B. Azure-Blobs transkribieren möchten. Damit können Sie Transkriptionen asynchron abrufen.

Schulung

Modul

Übersetzen von Sprache mit dem Azure KI Speech-Dienst - Training

Übersetzen von Sprache mit dem Azure KI Speech-Dienst

Zertifizierung

Microsoft Certified: Azure AI Fundamentals - Certifications

Zeigen Sie Ihre Kenntnisse von grundlegenden KI-Konzepten im Zusammenhang mit der Entwicklung von Software und Diensten von Microsoft Azure zum Erstellen von KI-Lösungen.

Ereignisse

Erstellen von KI-Apps und Agents

17. März, 21 Uhr - 21. März, 10 Uhr

Nehmen Sie an der Meetup-Serie teil, um skalierbare KI-Lösungen basierend auf realen Anwendungsfällen mit Mitentwicklern und Experten zu erstellen.

Jetzt registrieren

Teilen über

Was ist das Whisper-Modell?

Whisper-Modell oder Azure KI Speech-Modelle

Whisper-Modell über Azure KI Speech oder über Azure OpenAI Service?

Feedback

Zusätzliche Ressourcen

Teilen über

Was ist das Whisper-Modell?

Whisper-Modell oder Azure KI Speech-Modelle

Whisper-Modell über Azure KI Speech oder über Azure OpenAI Service?

Zugehöriger Inhalt

Feedback

Zusätzliche Ressourcen