Che cos'è il riconoscimento vocale?

Questa panoramica illustra i vantaggi e le caratteristiche della funzionalità di riconoscimento vocale del servizio Voce, che fa parte di Servizi di Azure AI. Il riconoscimento vocale può essere usato per la trascrizione in tempo reale o la trascrizione in batch di flussi audio in testo.

Nota

Per confrontare i prezzi della trascrizione in tempo reale con la trascrizione batch, vedere Prezzi di Voce di Azure AI.

Per un elenco completo delle lingue disponibili per il riconoscimento vocale, vedere Lingue e voci supportate.

Riconoscimento vocale in tempo reale

Con il riconoscimento vocale in tempo reale, l'audio viene trascritto come voce e riconosciuto da un microfono o da un file. Usare il riconoscimento vocale in tempo reale per le applicazioni che devono trascrivere audio in tempo reale, ad esempio:

Il riconoscimento vocale in tempo reale è disponibile tramite Speech SDK e l'interfaccia della riga di comando di Voce.

Trascrizione batch

La trascrizione batch viene usata per trascrivere una grande quantità di dati audio nella risorsa di archiviazione. È possibile puntare a file audio con un URI di firma di accesso condiviso (SAS) e ricevere in modo asincrono i risultati della trascrizione. Usare la trascrizione batch per le applicazioni che devono trascrivere l'audio in blocco, ad esempio:

  • Trascrizioni, didascalie o sottotitoli per l'audio preregistrato
  • Analisi post-chiamata del centro contatti
  • Diarizzazione

La trascrizione in batch è disponibile tramite:

Riconoscimento vocale personalizzato

Con Riconoscimento vocale personalizzato è possibile valutare e migliorare l'accuratezza del riconoscimento vocale per le applicazioni e i prodotti in uso. È possibile usare un modello conversione voce/testo personalizzato per il riconoscimento vocale in tempo reale, la traduzione vocale e la trascrizione in batch.

Suggerimento

Per usare Riconoscimento vocale personalizzato con l'API di trascrizione batch non è necessario un endpoint di distribuzione ospitata. È possibile risparmiare risorse se il modello conversione voce/testo personalizzato viene usato solo per la trascrizione in batch. Per altre informazioni, vedere Prezzi di Voce di Azure AI.

Il riconoscimento vocale usa un modello linguistico universale come modello di base sottoposto a training con dati di proprietà di Microsoft e riflette la lingua parlata comunemente usata. Il modello di base è sottoposto a training preliminare con dialetti e fonetici che rappresentano vari domini comuni. Quando si effettua una richiesta di riconoscimento vocale, per impostazione predefinita viene usato il modello di base più recente per ogni lingua supportata. Il modello di base funziona bene nella maggior parte degli scenari di riconoscimento vocale.

È possibile usare un modello personalizzato per aumentare il modello di base al fine di migliorare il riconoscimento del vocabolario specifico del dominio dell'applicazione fornendo dati di testo per eseguire il training del modello. Questo modello può anche essere usato per migliorare il riconoscimento in base alle specifiche condizioni audio dell'applicazione fornendo dati audio con trascrizioni di riferimento. Per altre informazioni, vedere Riconoscimento vocale personalizzato e API REST Riconoscimento vocale.

Le opzioni di personalizzazione variano in base alla lingua o alle impostazioni locali. Per verificare il supporto, vedere Lingue e voci supportate per il servizio Voce.

Intelligenza artificiale responsabile

Un sistema di intelligenza artificiale include non solo la tecnologia ma anche le persone che ne fanno uso, le persone interessate e l'ambiente di distribuzione. Leggere le note sulla trasparenza per informazioni sull'uso e sulla distribuzione di intelligenza artificiale responsabile nei sistemi.

Passaggi successivi