Condividi tramite


Che cos'è il modello Whisper?

Il modello Whisper è un modello di riconoscimento vocale da OpenAI che è possibile usare per trascrivere o tradurre file audio. Il training del modello viene eseguito su un set di dati di grandi dimensioni di audio e testo in inglese.

  • Il modello è ottimizzato per la trascrizione dei file audio che contengono la voce in inglese.
  • Il modello può essere usato anche per tradurre file audio che contengono la voce in altre lingue. L'output della trascrizione è testo in inglese.

I modelli Whisper sono disponibili tramite Azure OpenAI negli Azure AI Foundry Models o tramite Azure AI Speech. Le funzionalità differiscono per queste offerte. In Voce di Azure AI (trascrizione batch), Whisper è solo uno dei diversi modelli che è possibile usare per il riconoscimento vocale.

Ci si potrebbe chiedere:

  • Il modello Whisper è una scelta ottimale per lo scenario o è migliore un modello di Riconoscimento vocale di Intelligenza artificiale di Azure? Quali sono i confronti tra le API tra i due tipi di modelli?

  • Se si vuole usare il modello Whisper, è consigliabile usarlo tramite Azure OpenAI o tramite Riconoscimento vocale di Intelligenza artificiale di Azure? Quali sono gli scenari che mi guidano a usare uno o l'altro?

Il modello Whisper o modelli di Voce di Azure AI

Il modello Whisper o i modelli di Riconoscimento vocale di Azure per intelligenza artificiale sono appropriati a seconda degli scenari. Se si decide di usare Voce di Azure AI, è possibile scegliere tra diversi modelli, incluso il modello Whisper. Nella tabella seguente vengono confrontate le opzioni con le raccomandazioni su dove iniziare.

Sceneggiatura Modello Whisper Modelli di Riconoscimento vocale di Intelligenza artificiale di Azure
Trascrizioni, didascalie e sottotitoli in tempo reale per audio e video. Non disponibile Consigliato
Trascrizioni, didascalie e sottotitoli per audio e video preregistrati. Il modello Whisper tramite Azure OpenAI è consigliato per l'elaborazione rapida di singoli file audio. Il modello Whisper tramite Voce di Azure AI (trascrizione batch) è consigliato per l'elaborazione batch di file di grandi dimensioni. Per ulteriori informazioni, consultare il modello Whisper tramite la trascrizione batch di Azure AI Speech oppure attraverso Azure OpenAI. Consigliato per l'elaborazione batch di file di grandi dimensioni, la diarizzazione e i timestamp a livello di parola.
Trascrizione delle registrazioni delle chiamate telefoniche e analisi, ad esempio riepilogo delle chiamate, sentiment, argomenti chiave e informazioni dettagliate personalizzate. Disponibile Consigliato
Trascrizione e analisi in tempo reale per assistere gli agenti del call center con domande dei clienti. Non disponibile Consigliato
Trascrizione di registrazioni e analisi delle riunioni, ad esempio riepilogo delle riunioni, capitoli delle riunioni ed estrazione degli elementi di azione. Disponibile Consigliato
Immissione di testo in tempo reale e generazione di documenti tramite dettatura vocale. Non disponibile Consigliato
Agente vocale del Centro contatti: routing delle chiamate e risposta vocale interattiva per i call center. Disponibile Consigliato
Assistente vocale: assistente vocale specifico per un set-top box, un'app per dispositivi mobili, un'auto e altri scenari. Disponibile Consigliato
Valutazione della pronuncia: valutare la pronuncia della voce di un parlante. Non disponibile Consigliato
Tradurre l'audio live da una lingua a un'altra. Non disponibile Consigliato tramite l'API di traduzione vocale.
Tradurre l'audio preregistrato da altre lingue in inglese. Consigliato Disponibile anche tramite l'API traduzione vocale.
Tradurre l'audio preregistrato in lingue diverse dall'inglese. Non disponibile Consigliato tramite l'API di traduzione vocale.

Per il modello Whisper, utilizzare Azure AI Speech o Azure OpenAI?

Se si decide di utilizzare il modello Whisper, sono disponibili due opzioni. È possibile scegliere se usare il modello Whisper tramite Azure OpenAI o tramite Voce di Azure AI (trascrizione batch). In entrambi i casi, la leggibilità del testo trascritto è la stessa.

Il modello Whisper tramite Azure OpenAI potrebbe essere ideale per:

  • Trascrizione rapida dei file audio uno alla volta.
  • Tradurre audio da altre lingue in inglese. È possibile immettere audio in lingua mista e l'output è in inglese.
  • Fornire un prompt al modello per orientare l'output.
  • Formati di file supportati: mp3, mp4, mpeg, mpga, m4a, wav e webm.
  • Solo il carattere ASCII supportato per il nome file.

Il modello Whisper tramite la trascrizione batch di Voce di Azure Ai potrebbe essere la scelta migliore per:

  • Trascrizione di file di dimensioni superiori a 25 MB (fino a 1 GB). Il limite di dimensioni del file per il modello Azure OpenAI Whisper è di 25 MB.
  • Trascrizione di grandi batch di file audio.
  • Diarizzazione per distinguere tra i diversi relatori che partecipano alla conversazione. Il servizio Voce fornisce informazioni sull’oratore che ha pronunciato una particolare parte del discorso trascritto. Il modello Whisper tramite Azure OpenAI non supporta la diarizzazione.
  • Timestamp a livello di parola
  • Formati di file supportati: MP3, WAV e OGG.

Il supporto regionale è un'altra considerazione.

  • Il modello Whisper tramite Azure OpenAI è disponibile nelle aree seguenti: Stati Uniti orientali 2, India meridionale, Nord, Norvegia orientale, Svezia centrale, Svizzera settentrionale ed Europa occidentale.
  • Il modello Whisper tramite Riconoscimento vocale di Intelligenza artificiale di Azure è disponibile nelle aree seguenti: Australia orientale, Stati Uniti orientali, Stati Uniti centro-settentrionali, Stati Uniti centro-meridionali, Asia sud-orientale ed Europa occidentale.