Condividi tramite


Che cos'è il riconoscimento vocale?

Questa panoramica illustra i vantaggi e le caratteristiche della funzionalità di riconoscimento vocale del servizio Voce, che fa parte di Servizi di Azure AI. Riconoscimento vocale può essere usato per la trascrizione in tempo reale, la trascrizione in batch o la trascrizione rapida di flussi audio in testo.

Nota

Per confrontare i prezzi della trascrizione in tempo reale, della trascrizione in batch e della trascrizione rapida, vedere Prezzi del servizio Voce.

Per un elenco completo delle lingue disponibili per il riconoscimento vocale, vedere Lingue e voci supportate.

Riconoscimento vocale in tempo reale

Con il riconoscimento vocale in tempo reale, l'audio viene trascritto come riconoscimento vocale da un microfono o da un file. Usare il riconoscimento vocale in tempo reale per le applicazioni che devono trascrivere audio in tempo reale, ad esempio:

Il riconoscimento vocale in tempo reale è disponibile tramite Speech SDK e l'interfaccia della riga di comando di Voce.

Trascrizione rapida (anteprima)

L'API di Trascrizione rapida viene usata per trascrivere i file audio e ottenere risultati in modo sincrono e molto più veloce rispetto all'audio in tempo reale. Usare Trascrizione rapida negli scenari in cui è necessario trascrivere una registrazione audio il più rapidamente possibile con una latenza prevedibile, ad esempio:

  • Trascrizione rapida di audio o video, sottotitoli e modifica.
  • Traduzione video

Nota

L’API di Trascrizione rapida è disponibile solo tramite l’API REST di Sintesi vocale, versione 15-05-2024-anteprima e versioni successive.

Per iniziare a usare Trascrizione rapida, vedere Usare l'API di Trascrizione rapida (anteprima).

API di trascrizione Batch

La trascrizione batch viene usata per trascrivere una grande quantità di dati audio nella risorsa di archiviazione. È possibile puntare a file audio con un URI di firma di accesso condiviso (SAS) e ricevere in modo asincrono i risultati della trascrizione. Usare la trascrizione batch per le applicazioni che devono trascrivere l'audio in blocco, ad esempio:

  • Trascrizioni, didascalie o sottotitoli per l'audio preregistrato
  • Analisi post-chiamata del centro contatti
  • Diarizzazione

La trascrizione in batch è disponibile tramite:

Riconoscimento vocale personalizzato

Con Riconoscimento vocale personalizzato è possibile valutare e migliorare l'accuratezza del riconoscimento vocale per le applicazioni e i prodotti in uso. È possibile usare un modello conversione voce/testo personalizzato per il riconoscimento vocale in tempo reale, la traduzione vocale e la trascrizione in batch.

Suggerimento

Per usare Riconoscimento vocale personalizzato con l'API di trascrizione batch non è necessario un endpoint di distribuzione ospitata. È possibile risparmiare risorse se il modello di conversione voce/testo personalizzato viene usato solo per la trascrizione batch. Per altre informazioni, vedere Prezzi di Voce di Azure AI.

Il riconoscimento vocale usa un modello linguistico universale come modello di base sottoposto a training con dati di proprietà di Microsoft e riflette la lingua parlata comunemente usata. Il modello di base è sottoposto a training preliminare con dialetti e fonetici che rappresentano vari domini comuni. Quando si effettua una richiesta di riconoscimento vocale, per impostazione predefinita viene usato il modello di base più recente per ogni lingua supportata. Il modello di base funziona bene nella maggior parte degli scenari di riconoscimento vocale.

È possibile usare un modello personalizzato per aumentare il modello di base al fine di migliorare il riconoscimento del vocabolario specifico del dominio dell'applicazione fornendo dati di testo per eseguire il training del modello. Questo modello può anche essere usato per migliorare il riconoscimento in base alle specifiche condizioni audio dell'applicazione fornendo dati audio con trascrizioni di riferimento. Per altre informazioni, vedere Riconoscimento vocale personalizzato e API REST Riconoscimento vocale.

Le opzioni di personalizzazione variano in base alla lingua o alle impostazioni locali. Per verificare il supporto, vedere Lingue e voci supportate per il servizio Voce.

Intelligenza artificiale responsabile

Un sistema di intelligenza artificiale include non solo la tecnologia ma anche le persone che ne fanno uso, le persone interessate e l'ambiente di distribuzione. Leggere le note sulla trasparenza per informazioni sull'uso e sulla distribuzione di intelligenza artificiale responsabile nei sistemi.

Passaggi successivi