Vad är Whisper-modellen?

2025-05-23

Whisper-modellen är en tal till text-modell från OpenAI som du kan använda för att transkribera eller översätta ljudfiler. Modellen tränas på en stor datamängd med engelskt ljud och text.

Modellen är optimerad för att transkribera ljudfiler som innehåller tal på engelska.
Modellen kan också användas för att översätta ljudfiler som innehåller tal på andra språk. Utdata från transkriptionen är engelsk text.

Whisper-modeller är tillgängliga via Azure OpenAI i Azure AI Foundry Models eller via Azure AI Speech. Funktionerna skiljer sig åt för dessa erbjudanden. I Azure AI Speech (batch-transkription) är Whisper bara en av flera modeller som du kan använda för tal till text.

Du kanske undrar:

Är Whisper-modellen ett bra val för mitt scenario eller är en Azure AI Speech-modell bättre? Vilka är API-jämförelserna mellan de två typerna av modeller?
Om jag vill använda Whisper-modellen ska jag använda den via Azure OpenAI eller via Azure AI Speech? Vilka är de scenarier som hjälper mig att använda det ena eller det andra?

Whisper-modell eller Azure AI Speech-modeller

Antingen är Whisper-modellen eller Azure AI Speech-modellerna lämpliga beroende på dina scenarier. Om du väljer att använda Azure AI Speech kan du välja mellan flera modeller, inklusive Whisper-modellen. I följande tabell jämförs alternativ med rekommendationer om var du ska börja.

Scenarium	Whisper-modell	Azure AI Speech-modeller
Transkriptioner, bildtexter och undertexter i realtid för ljud och video.	Inte tillgängliga	Rekommenderat
Transkriptioner, bildtexter och undertexter för förinspelat ljud och video.	Whisper-modellen via Azure OpenAI rekommenderas för snabb bearbetning av enskilda ljudfiler. Whisper-modellen via Azure AI Speech (batch-transkription) rekommenderas för batchbearbetning av stora filer. För mer information, se Whisper-modellen via Azure AI Speech batch-transkription eller via Azure OpenAI?	Rekommenderas för batchbearbetning av stora filer, diarisering och tidsstämplar på ordnivå.
Avskrift av telefonsamtalsinspelningar och analyser som samtalssammanfattning, sentiment, viktiga ämnen och anpassade insikter.	Tillgängligt	Rekommenderat
Transkription och analys i realtid för att hjälpa kundtjänstagenter med kundfrågor.	Inte tillgängliga	Rekommenderat
Utskrift av mötesinspelningar och analys, till exempel mötessammanfattning, möteskapitlen och extrahering av åtgärdsobjekt.	Tillgängligt	Rekommenderat
Textinmatning i realtid och dokumentgenerering via röstdiktering.	Inte tillgängliga	Rekommenderat
Röstagent för kontaktcenter: Samtalsroutning och interaktivt röstsvar för callcenter.	Tillgängligt	Rekommenderat
Röstassistent: Programspecifik röstassistent för en digitalbox, mobilapp, bilbaserad och andra scenarier.	Tillgängligt	Rekommenderat
Uttalsbedömning: Utvärdera uttalet av en talares röst.	Inte tillgängliga	Rekommenderat
Översätt liveljud från ett språk till ett annat.	Inte tillgängliga	Rekommenderas via API:et för talöversättning.
Översätt förinspelat ljud från andra språk till engelska.	Rekommenderat	Finns även via API:et för talöversättning.
Översätt förinspelat ljud till andra språk än engelska.	Inte tillgängliga	Rekommenderas via API:et för talöversättning.

Whisper-modell via Azure AI Speech eller via Azure OpenAI?

Om du väljer att använda Whisper-modellen har du två alternativ. Du kan välja om du vill använda Whisper-modellen via Azure OpenAI eller via Azure AI Speech (batch-transkription). I båda fallen är läsbarheten för den transkriberade texten densamma.

Whisper Model via Azure OpenAI kan vara bäst för:

Transkribera snabbt ljudfiler en i taget.
Översätt ljud från andra språk till engelska. Du kan mata in blandat språkljud och utdata är på engelska.
Ange en uppmaning till modellen för att vägleda resultatet.
Filformat som stöds: mp3, mp4, mpweg, mpga, m4a, wav och webm.
Endast ASCII-tecken som stöds för filnamn.

Whisper Model via Azure AI Speech batch transkription kan vara bäst för:

Transkribera filer som är större än 25 MB (upp till 1 GB). Filstorleksgränsen för Azure OpenAI Whisper-modellen är 25 MB.
Transkribera stora mängder ljudfiler.
Diarisering för att skilja mellan de olika talare som deltar i konversationen. Taltjänsten tillhandahåller information om vilken talare som talade en viss del av transkriberat tal. Whisper-modellen via Azure OpenAI stöder inte diarisering.
Tidsstämplar på Word-nivå
Filformat som stöds: mp3, wav och ogg.

Regionalt stöd är ett annat övervägande.

Whisper-modellen via Azure OpenAI är tillgänglig i följande regioner: USA, östra 2, Indien, södra, norra centrala, Norge, östra, Sverige, centrala, Schweiz, norra och Europa, västra.
Whisper-modellen via Azure AI Speech är tillgänglig i följande regioner: Australien Östra, USA Östra, USA Norra Centrala, USA Södra Centrala, Sydostasien och Västeuropa.

Dela via

Vad är Whisper-modellen?

Whisper-modell eller Azure AI Speech-modeller

Whisper-modell via Azure AI Speech eller via Azure OpenAI?

Relaterat innehåll

Feedback

Ytterligare resurser