Ereignisse
Erstellen von KI-Apps und Agents
17. März, 21 Uhr - 21. März, 10 Uhr
Nehmen Sie an der Meetup-Serie teil, um skalierbare KI-Lösungen basierend auf realen Anwendungsfällen mit Mitentwicklern und Experten zu erstellen.
Jetzt registrierenDieser Browser wird nicht mehr unterstützt.
Führen Sie ein Upgrade auf Microsoft Edge aus, um die neuesten Funktionen, Sicherheitsupdates und technischen Support zu nutzen.
Das Whisper-Modell ist ein Spracherkennungsmodell von OpenAI, mit dem Sie Audiodateien transkribieren können. Das Modell wird mit einem umfangreichen Dataset aus englischsprachigen Audio- und Textdaten trainiert. Das Modell ist für das Transkribieren von Audiodateien in englischer Sprache optimiert. Das Modell kann auch zum Transkribieren von Audiodateien verwendet werden, die gesprochene Daten in anderen Sprachen enthalten. Die Ausgabe des Modells ist englischer Text.
Whisper-Modelle sind über Azure OpenAI Service oder über Azure KI Speech verfügbar. Die Features unterscheiden sich für diese Angebote. In Azure KI Speech (Batchtranskription) ist Whisper nur eins von vielen Modellen, das Sie für die Spracherkennung verwenden können.
Sie können sich folgende Fragen stellen:
Ist das Whisper-Modell eine gute Wahl für mein Szenario, oder ist ein Azure KI Speech-Modell besser geeignet? Wie lassen sich die APIs der beiden Modelltypen vergleichen?
Wenn ich das Whisper-Modell verwenden möchte, sollte ich es über Azure OpenAI Service oder über Azure KI Speech verwenden? In welchen Szenarien sollte ich das eine bzw. das andere verwenden?
Je nach Szenario sind entweder das Whisper-Modell oder die Azure KI Speech-Modelle geeignet. Wenn Sie sich für die Verwendung von Azure KI Speech entscheiden, können Sie aus mehreren Modellen wählen, einschließlich des Whisper-Modells. In der folgenden Tabelle werden Optionen verglichen und Empfehlungen zum Einstieg bereitgestellt.
Szenario | Whisper-Modell | Azure KI Speech-Modelle |
---|---|---|
Echtzeittranskriptionen, Untertitel für Hörgeschädigte und Untertitel für Audio und Video. | Nicht verfügbar | Empfohlen |
Transkriptionen, Untertitel für Hörgeschädigte und Untertitel für vorab aufgezeichnete Audio- und Videodaten. | Das Whisper-Modell über Azure OpenAI wird für die schnelle Verarbeitung einzelner Audiodateien empfohlen. Das Whisper-Modell über Azure KI Speech (Batchtranskription) wird für die Batchverarbeitung großer Dateien empfohlen. Weitere Informationen finden Sie unter Whisper-Modell über Azure KI Speech (Batchtranskription) oder über Azure OpenAI Service? | Empfohlen für die Batchverarbeitung großer Dateien, Diarisierung und Zeitstempel auf Wortebene. |
Transkript von Telefonanrufaufzeichnungen und -analysen wie Anrufzusammenfassung, Stimmung, Schlüsselthemen und benutzerdefinierte Erkenntnisse. | Verfügbar | Empfohlen |
Echtzeittranskription und -analyse zur Unterstützung von Callcenter-Sachbearbeiter*innen bei Kundenfragen. | Nicht verfügbar | Empfohlen |
Transkript von Besprechungsaufzeichnungen und -analysen wie Besprechungszusammenfassung, Besprechungskapitel und Extraktion von Aktionselementen. | Verfügbar | Empfohlen |
Texteingabe in Echtzeit und Dokumentgenerierung durch Sprachdiktat. | Nicht verfügbar | Empfohlen |
Kontaktcenter-Sprach-Agent: Anrufrouting und interaktive Sprachantwort für Callcenter. | Verfügbar | Empfohlen |
Sprach-Assistent: anwendungsspezifischer Sprach-Assistent für Set-Top-Boxen, mobile Apps, Fahrzeuge und andere Szenarien. | Verfügbar | Empfohlen |
Aussprachebewertung: Bewerten der Aussprache der Stimme eines Sprechers oder einer Sprecherin. | Nicht verfügbar | Empfohlen |
Übersetzen von Liveaudiodaten aus einer Sprache in eine andere. | Nicht verfügbar | Empfohlen über die Sprachübersetzungs-API |
Übersetzen von vorab aufgezeichneten Audiodaten aus anderen Sprachen ins Englische. | Empfohlen | Verfügbar über die Sprachübersetzungs-API |
Übersetzen von vorab aufgezeichneten Audiodaten in andere Sprachen als Englisch. | Nicht verfügbar | Empfohlen über die Sprachübersetzungs-API |
Wenn Sie sich für die Verwendung des Whisper-Modells entscheiden, haben Sie zwei Optionen. Sie können wählen, ob Sie das Whisper-Modell über Azure OpenAI oder über Azure KI Speech (Batchtranskription) verwenden möchten. In beiden Fällen ist der transkribierte Text gleichermaßen lesbar. Sie können Audiodaten in gemischten Sprachen eingeben, und die Ausgabe erfolgt in Englisch.
Das Whisper-Modell über Azure OpenAI Service eignet sich möglicherweise am besten für Folgendes:
Whisper-Modell über Azure KI Speech (Batchtranskription) eignet sich möglicherweise am besten für:
Eine weitere Überlegung ist die regionale Unterstützung.
Ereignisse
Erstellen von KI-Apps und Agents
17. März, 21 Uhr - 21. März, 10 Uhr
Nehmen Sie an der Meetup-Serie teil, um skalierbare KI-Lösungen basierend auf realen Anwendungsfällen mit Mitentwicklern und Experten zu erstellen.
Jetzt registrierenSchulung
Modul
Übersetzen von Sprache mit dem Azure KI Speech-Dienst - Training
Übersetzen von Sprache mit dem Azure KI Speech-Dienst
Zertifizierung
Microsoft Certified: Azure AI Fundamentals - Certifications
Zeigen Sie Ihre Kenntnisse von grundlegenden KI-Konzepten im Zusammenhang mit der Entwicklung von Software und Diensten von Microsoft Azure zum Erstellen von KI-Lösungen.
Dokumentation
Azure OpenAI-Chat von Sprache zu Sprache – Speech-Dienst - Azure AI services
In dieser Schrittanleitung verwenden Sie Speech, um sich mit Azure OpenAI zu unterhalten. Speech erkennt Audiodaten, sendet sie an Azure OpenAI und synthetisiert Sprachantworten.
Spracherkennung mit Azure OpenAI Service - Azure OpenAI
Erfahren Sie, wie Sie das Whisper-Modell von Azure OpenAI für die Spracherkennung verwenden.
Spracherkennungsdienst: Erstellen einer Batchtranskription - Azure AI services
Erfahren Sie, wie Sie Azure KI Speech für Batchtranskriptionen verwenden, wo Sie Audio übermitteln und dann asynchron Transkriptionsergebnisse abrufen.