Wat is het Fluistermodel?

Artikel
04/07/2024

Het Whisper-model is een spraak-naar-tekstmodel van OpenAI dat u kunt gebruiken om audiobestanden te transcriberen. Het model wordt getraind op een grote gegevensset met Engelse audio en tekst. Het model is geoptimaliseerd voor het transcriberen van audiobestanden die spraak in het Engels bevatten. Het model kan ook worden gebruikt voor het transcriberen van audiobestanden die spraak in andere talen bevatten. De uitvoer van het model is Engelse tekst.

Fluistermodellen zijn beschikbaar via de Azure OpenAI-service of via Azure AI Speech. De functies verschillen voor deze aanbiedingen. In Azure AI Speech is Whisper slechts een van de verschillende spraak-naar-tekstmodellen die u kunt gebruiken.

U kunt het volgende vragen:

Is het Fluistermodel een goede keuze voor mijn scenario of is een Azure AI Speech-model beter? Wat zijn de API-vergelijkingen tussen de twee typen modellen?
Als ik het Fluistermodel wil gebruiken, moet ik het gebruiken via de Azure OpenAI-service of via Azure AI Speech? Wat zijn de scenario's die mij helpen om een of meer te gebruiken?

Fluistermodel of Azure AI Speech-modellen

Het Fluistermodel of de Azure AI Speech-modellen zijn geschikt, afhankelijk van uw scenario's. Als u besluit Azure AI Speech te gebruiken, kunt u kiezen uit verschillende modellen, waaronder het Fluistermodel. In de volgende tabel worden opties vergeleken met aanbevelingen over waar u moet beginnen.

Scenario	Fluistermodel	Azure AI Speech-modellen
Realtime transcripties, onderschrift s en ondertitels voor audio en video.	Niet beschikbaar	Aanbevolen
Transcripties, onderschrift s en ondertitels voor vooraf opgenomen audio en video.	Het Whisper-model via Azure OpenAI wordt aanbevolen voor een snelle verwerking van afzonderlijke audiobestanden. Het Fluistermodel via Azure AI Speech wordt aanbevolen voor batchverwerking van grote bestanden. Zie Fluistermodel via Azure AI Speech of via Azure OpenAI Service voor meer informatie?	Aanbevolen voor batchverwerking van grote bestanden, diarisatie en tijdstempels op woordniveau.
Transcriptie van opnamen en analyses van telefoongesprekken, zoals gespreksoverzicht, sentiment, belangrijke onderwerpen en aangepaste inzichten.	Beschikbaar	Aanbevolen
Realtime transcriptie en analyses om callcentermedewerkers te helpen met vragen van klanten.	Niet beschikbaar	Aanbevolen
Transcriptie van opnamen en analyses van vergaderingen, zoals samenvatting van vergaderingen, hoofdstukken van vergaderingen en extractie van actie-items.	Beschikbaar	Aanbevolen
Realtime tekstinvoer en documentgeneratie via spraakdicteren.	Niet beschikbaar	Aanbevolen
Spraakagent voor het contactcentrum: oproeproutering en interactieve spraakrespons voor callcenters.	Beschikbaar	Aanbevolen
Spraakassistent: Toepassingsspecifieke spraakassistent voor een set-top box, mobiele app, auto en andere scenario's.	Beschikbaar	Aanbevolen
Uitspraakbeoordeling: Beoordeel de uitspraak van de stem van een spreker.	Niet beschikbaar	Aanbevolen
Vertaal live audio van de ene taal naar de andere.	Niet beschikbaar	Aanbevolen via de spraakomzettings-API
Vertaal vooraf opgenomen audio uit andere talen in het Engels.	Aanbevolen	Beschikbaar via de spraakomzettings-API
Vertaal vooraf opgenomen audio in andere talen dan Engels.	Niet beschikbaar	Aanbevolen via de spraakomzettings-API

Fluistermodel via Azure AI Speech of via Azure OpenAI Service?

Als u besluit het Fluistermodel te gebruiken, hebt u twee opties. U kunt kiezen of u het Fluistermodel wilt gebruiken via Azure OpenAI of via Azure AI Speech. In beide gevallen is de leesbaarheid van de getranscribeerde tekst hetzelfde. U kunt audio in gemengde talen invoeren en de uitvoer is in het Engels.

Fluistermodel via De Azure OpenAI-service is mogelijk het beste voor:

Snel audiobestanden één voor één transcriberen
Audio uit andere talen vertalen in het Engels
Geef een prompt op aan het model om de uitvoer te begeleiden
Ondersteunde bestandsindelingen: mp3, mp4, mpweg, mpga, m4a, wav en webm

Het fluistermodel via Azure AI Speech kan het beste zijn voor:

Bestanden transcriberen die groter zijn dan 25 MB (maximaal 1 GB). De bestandsgrootte voor het Azure OpenAI Whisper-model is 25 MB.
Grote batches audiobestanden transcriberen
Diarisatie om onderscheid te maken tussen de verschillende sprekers die deelnemen aan het gesprek. De Speech-service biedt informatie over welke spreker een bepaald deel van getranscribeerde spraak sprak. Het Whisper-model via Azure OpenAI biedt geen ondersteuning voor diarisatie.
Tijdstempels op Word-niveau
Ondersteunde bestandsindelingen: mp3, wav en ogg
Aanpassing van het Fluisterbasismodel om de nauwkeurigheid van uw scenario te verbeteren (binnenkort beschikbaar)

Regionale ondersteuning is een andere overweging.

Het Whisper-model via Azure OpenAI Service is beschikbaar in de volgende regio's: EastUS 2, India - zuid, Noord-centraal, Noorwegen - oost, Zweden - centraal en Europa - west.
Het Fluistermodel via Azure AI Speech is beschikbaar in de volgende regio's: Australië - oost, VS - oost, VS - noord-centraal, VS - zuid-centraal, Azië - zuidoost, VK - zuid en Europa - west.

Delen via

Wat is het Fluistermodel?

Fluistermodel of Azure AI Speech-modellen

Fluistermodel via Azure AI Speech of via Azure OpenAI Service?

Volgende stappen

Aanvullende resources