Vad är Whisper-modellen?

Whisper-modellen är en tal till text-modell från OpenAI som du kan använda för att transkribera ljudfiler. Modellen tränas på en stor datamängd med engelskt ljud och text. Modellen är optimerad för att transkribera ljudfiler som innehåller tal på engelska. Modellen kan också användas för att transkribera ljudfiler som innehåller tal på andra språk. Modellens utdata är engelsk text.

Whisper-modeller är tillgängliga via Azure OpenAI-tjänsten eller via Azure AI Speech. Funktionerna skiljer sig åt för dessa erbjudanden. I Azure AI Speech är Whisper bara en av flera tal till text-modeller som du kan använda.

Du kanske undrar:

  • Är Whisper-modellen ett bra val för mitt scenario eller är en Azure AI Speech-modell bättre? Vilka är API-jämförelserna mellan de två typerna av modeller?

  • Om jag vill använda Whisper-modellen ska jag använda den via Azure OpenAI-tjänsten eller via Azure AI Speech? Vilka är de scenarier som hjälper mig att använda det ena eller det andra?

Whisper-modell eller Azure AI Speech-modeller

Antingen är Whisper-modellen eller Azure AI Speech-modellerna lämpliga beroende på dina scenarier. Om du väljer att använda Azure AI Speech kan du välja mellan flera modeller, inklusive Whisper-modellen. I följande tabell jämförs alternativ med rekommendationer om var du ska börja.

Scenario Whisper-modell Azure AI Speech-modeller
Transkriptioner i realtid, bildtext och undertexter för ljud och video. Inte tillgängliga Rekommenderat
Transkriptioner, bildtext och undertexter för förinspelat ljud och video. Whisper-modellen via Azure OpenAI rekommenderas för snabb bearbetning av enskilda ljudfiler. Whisper-modellen via Azure AI Speech rekommenderas för batchbearbetning av stora filer. Mer information finns i Whisper-modellen via Azure AI Speech eller via Azure OpenAI Service? Rekommenderas för batchbearbetning av stora filer, diarisering och tidsstämplar på ordnivå.
Avskrift av telefonsamtalsinspelningar och analyser som samtalssammanfattning, sentiment, viktiga ämnen och anpassade insikter. Tillgängligt Rekommenderat
Transkription och analys i realtid för att hjälpa kundtjänstagenter med kundfrågor. Inte tillgängliga Rekommenderat
Utskrift av mötesinspelningar och analys, till exempel mötessammanfattning, möteskapitlen och extrahering av åtgärdsobjekt. Tillgängligt Rekommenderat
Textinmatning i realtid och dokumentgenerering via röstdiktering. Inte tillgängliga Rekommenderat
Röstagent för kontaktcenter: Samtalsroutning och interaktivt röstsvar för callcenter. Tillgängligt Rekommenderat
Röstassistent: Programspecifik röstassistent för en digitalbox, mobilapp, bilbaserad och andra scenarier. Tillgängligt Rekommenderat
Uttalsbedömning: Utvärdera uttalet av en talares röst. Inte tillgängliga Rekommenderat
Översätt liveljud från ett språk till ett annat. Inte tillgängliga Rekommenderas via API:et för talöversättning
Översätt förinspelat ljud från andra språk till engelska. Rekommenderat Tillgängligt via API:et för talöversättning
Översätt förinspelat ljud till andra språk än engelska. Inte tillgängliga Rekommenderas via API:et för talöversättning

Whisper-modell via Azure AI Speech eller via Azure OpenAI Service?

Om du väljer att använda Whisper-modellen har du två alternativ. Du kan välja om du vill använda Whisper-modellen via Azure OpenAI eller via Azure AI Speech. I båda fallen är läsbarheten för den transkriberade texten densamma. Du kan mata in blandat språkljud och utdata är på engelska.

Whisper Model via Azure OpenAI Service kan vara bäst för:

  • Snabbt transkribera ljudfiler en i taget
  • Översätta ljud från andra språk till engelska
  • Ange en uppmaning till modellen för att vägleda utdata
  • Filformat som stöds: mp3, mp4, mpweg, mpga, m4a, wav och webm

Whisper Model via Azure AI Speech kan vara bäst för:

  • Transkribera filer som är större än 25 MB (upp till 1 GB). Filstorleksgränsen för Azure OpenAI Whisper-modellen är 25 MB.
  • Transkribera stora mängder ljudfiler
  • Diarisering för att skilja mellan de olika talare som deltar i konversationen. Taltjänsten tillhandahåller information om vilken talare som talade en viss del av transkriberat tal. Whisper-modellen via Azure OpenAI stöder inte diarisering.
  • Tidsstämplar på Word-nivå
  • Filformat som stöds: mp3, wav och ogg
  • Anpassning av Whisper-basmodellen för att förbättra noggrannheten för ditt scenario (kommer snart)

Regionalt stöd är ett annat övervägande.

  • Whisper-modellen via Azure OpenAI Service är tillgänglig i följande regioner: EastUS 2, Indien, södra, Norra centrala, Norge, östra, Sverige, centrala och Europa, västra.
  • Whisper-modellen via Azure AI Speech är tillgänglig i följande regioner: Australien, östra, USA, östra, USA, norra centrala, USA, södra centrala, Sydostasien, Storbritannien, södra och Europa, västra.

Nästa steg