Delen via


Wat is het Fluistermodel?

Het Whisper-model is een spraak-naar-tekstmodel van OpenAI dat u kunt gebruiken om audiobestanden te transcriberen. Het model wordt getraind op een grote gegevensset met Engelse audio en tekst. Het model is geoptimaliseerd voor het transcriberen van audiobestanden die spraak in het Engels bevatten. Het model kan ook worden gebruikt voor het transcriberen van audiobestanden die spraak in andere talen bevatten. De uitvoer van het model is Engelse tekst.

Fluistermodellen zijn beschikbaar via de Azure OpenAI-service of via Azure AI Speech. De functies verschillen voor deze aanbiedingen. In Azure AI Speech is Whisper slechts een van de verschillende spraak-naar-tekstmodellen die u kunt gebruiken.

U kunt het volgende vragen:

  • Is het Fluistermodel een goede keuze voor mijn scenario of is een Azure AI Speech-model beter? Wat zijn de API-vergelijkingen tussen de twee typen modellen?

  • Als ik het Fluistermodel wil gebruiken, moet ik het gebruiken via de Azure OpenAI-service of via Azure AI Speech? Wat zijn de scenario's die mij helpen om een of meer te gebruiken?

Fluistermodel of Azure AI Speech-modellen

Het Fluistermodel of de Azure AI Speech-modellen zijn geschikt, afhankelijk van uw scenario's. Als u besluit Azure AI Speech te gebruiken, kunt u kiezen uit verschillende modellen, waaronder het Fluistermodel. In de volgende tabel worden opties vergeleken met aanbevelingen over waar u moet beginnen.

Scenario Fluistermodel Azure AI Speech-modellen
Realtime transcripties, onderschrift s en ondertitels voor audio en video. Niet beschikbaar Aanbevolen
Transcripties, onderschrift s en ondertitels voor vooraf opgenomen audio en video. Het Whisper-model via Azure OpenAI wordt aanbevolen voor een snelle verwerking van afzonderlijke audiobestanden. Het Fluistermodel via Azure AI Speech wordt aanbevolen voor batchverwerking van grote bestanden. Zie Fluistermodel via Azure AI Speech of via Azure OpenAI Service voor meer informatie? Aanbevolen voor batchverwerking van grote bestanden, diarisatie en tijdstempels op woordniveau.
Transcriptie van opnamen en analyses van telefoongesprekken, zoals gespreksoverzicht, sentiment, belangrijke onderwerpen en aangepaste inzichten. Beschikbaar Aanbevolen
Realtime transcriptie en analyses om callcentermedewerkers te helpen met vragen van klanten. Niet beschikbaar Aanbevolen
Transcriptie van opnamen en analyses van vergaderingen, zoals samenvatting van vergaderingen, hoofdstukken van vergaderingen en extractie van actie-items. Beschikbaar Aanbevolen
Realtime tekstinvoer en documentgeneratie via spraakdicteren. Niet beschikbaar Aanbevolen
Spraakagent voor het contactcentrum: oproeproutering en interactieve spraakrespons voor callcenters. Beschikbaar Aanbevolen
Spraakassistent: Toepassingsspecifieke spraakassistent voor een set-top box, mobiele app, auto en andere scenario's. Beschikbaar Aanbevolen
Uitspraakbeoordeling: Beoordeel de uitspraak van de stem van een spreker. Niet beschikbaar Aanbevolen
Vertaal live audio van de ene taal naar de andere. Niet beschikbaar Aanbevolen via de spraakomzettings-API
Vertaal vooraf opgenomen audio uit andere talen in het Engels. Aanbevolen Beschikbaar via de spraakomzettings-API
Vertaal vooraf opgenomen audio in andere talen dan Engels. Niet beschikbaar Aanbevolen via de spraakomzettings-API

Fluistermodel via Azure AI Speech of via Azure OpenAI Service?

Als u besluit het Fluistermodel te gebruiken, hebt u twee opties. U kunt kiezen of u het Fluistermodel wilt gebruiken via Azure OpenAI of via Azure AI Speech. In beide gevallen is de leesbaarheid van de getranscribeerde tekst hetzelfde. U kunt audio in gemengde talen invoeren en de uitvoer is in het Engels.

Fluistermodel via De Azure OpenAI-service is mogelijk het beste voor:

  • Snel audiobestanden één voor één transcriberen
  • Audio uit andere talen vertalen in het Engels
  • Geef een prompt op aan het model om de uitvoer te begeleiden
  • Ondersteunde bestandsindelingen: mp3, mp4, mpweg, mpga, m4a, wav en webm

Het fluistermodel via Azure AI Speech kan het beste zijn voor:

  • Bestanden transcriberen die groter zijn dan 25 MB (maximaal 1 GB). De bestandsgrootte voor het Azure OpenAI Whisper-model is 25 MB.
  • Grote batches audiobestanden transcriberen
  • Diarisatie om onderscheid te maken tussen de verschillende sprekers die deelnemen aan het gesprek. De Speech-service biedt informatie over welke spreker een bepaald deel van getranscribeerde spraak sprak. Het Whisper-model via Azure OpenAI biedt geen ondersteuning voor diarisatie.
  • Tijdstempels op Word-niveau
  • Ondersteunde bestandsindelingen: mp3, wav en ogg
  • Aanpassing van het Fluisterbasismodel om de nauwkeurigheid van uw scenario te verbeteren (binnenkort beschikbaar)

Regionale ondersteuning is een andere overweging.

  • Het Whisper-model via Azure OpenAI Service is beschikbaar in de volgende regio's: EastUS 2, India - zuid, Noord-centraal, Noorwegen - oost, Zweden - centraal en Europa - west.
  • Het Fluistermodel via Azure AI Speech is beschikbaar in de volgende regio's: Australië - oost, VS - oost, VS - noord-centraal, VS - zuid-centraal, Azië - zuidoost, VK - zuid en Europa - west.

Volgende stappen