Che cos'è il riconoscimento vocale personalizzato?

Con il riconoscimento vocale personalizzato, è possibile valutare e migliorare l'accuratezza del riconoscimento vocale per le applicazioni e i prodotti. È possibile usare un modello di riconoscimento vocale personalizzato per la sintesi vocale in tempo reale, la traduzione vocale e la trascrizione batch.

Il riconoscimento vocale usa un modello linguistico universale come modello di base sottoposto a training con dati di proprietà Di Microsoft e riflette la lingua parlata comunemente usata. Il modello di base è sottoposto a training preliminare con dialetti e fonetici che rappresentano vari domini comuni. Quando si effettua una richiesta di riconoscimento vocale, per impostazione predefinita viene usato il modello di base più recente per ogni lingua supportata. Il modello di base funziona bene nella maggior parte degli scenari di riconoscimento vocale.

È possibile usare un modello personalizzato per aumentare il modello di base per migliorare il riconoscimento del vocabolario specifico del dominio specifico dell'applicazione fornendo dati di testo per eseguire il training del modello. Può anche essere usato per migliorare il riconoscimento in base alle specifiche condizioni audio dell'applicazione fornendo dati audio con trascrizioni di riferimento.

È anche possibile eseguire il training di un modello con testo strutturato quando i dati seguono un modello, per specificare pronunce personalizzate e per personalizzare la formattazione del testo di visualizzazione con normalizzazione del testo inversa personalizzata, riscrittura personalizzata e filtro personalizzato per il contenuto volgare.

Come funziona?

Con il riconoscimento vocale personalizzato, è possibile caricare dati personalizzati, testare ed eseguire il training di un modello personalizzato, confrontare l'accuratezza tra i modelli e distribuire un modello in un endpoint personalizzato.

Diagram that highlights the components that make up the custom speech area of the Speech Studio.

Di seguito sono riportate altre informazioni sulla sequenza di passaggi illustrati nel diagramma precedente:

  1. Creare un progetto e scegliere un modello. Usare una risorsa Voce creata nel portale di Azure. Se si esegue il training di un modello personalizzato con dati audio, scegliere un'area di risorse Voce con hardware dedicato per il training dei dati audio. Per altre informazioni, vedere note a piè di pagina nella tabella delle aree .
  2. Caricare i dati di test. Caricare i dati di test per valutare la sintesi vocale offerta per applicazioni, strumenti e prodotti.
  3. Testare la qualità del riconoscimento. Usare Speech Studio per riprodurre l'audio caricato ed esaminare la qualità del riconoscimento vocale dei dati di test.
  4. Testare il modello in modo quantitativo. Valutare e migliorare l'accuratezza del riconoscimento vocale nel modello di testo. Il servizio Voce fornisce una frequenza di errore quantitativo delle parole (WER), che è possibile usare per determinare se sono necessari più training.
  5. Eseguire il training di un modello. Fornire trascrizioni scritte e testo correlato, insieme ai dati audio corrispondenti. Il test di un modello prima e dopo il training è facoltativo, ma consigliato.

    Nota

    Si paga per l'utilizzo del modello di riconoscimento vocale personalizzato e l'hosting degli endpoint. Verranno addebitati anche i costi per il training del modello di riconoscimento vocale personalizzato se il modello di base è stato creato il 1° ottobre 2023 e versioni successive. Non viene addebitato alcun costo per il training se il modello di base è stato creato prima di ottobre 2023. Per altre informazioni, vedere Prezzi di Riconoscimento vocale di Azure e la sezione Addebito per l'adattamento nella guida alla migrazione del riconoscimento vocale al testo 3.2.

  6. Distribuire un modello. Dopo aver soddisfatto i risultati del test, distribuire il modello in un endpoint personalizzato. Ad eccezione della trascrizione batch, è necessario distribuire un endpoint personalizzato per usare un modello di riconoscimento vocale personalizzato.

    Suggerimento

    Non è necessario un endpoint di distribuzione ospitato per usare il riconoscimento vocale personalizzato con l'API di trascrizione batch. È possibile risparmiare risorse se il modello di riconoscimento vocale personalizzato viene usato solo per la trascrizione batch. Per altre informazioni, vedere Prezzi del servizio Voce.

Intelligenza artificiale responsabile

Un sistema di intelligenza artificiale include non solo la tecnologia, ma anche le persone che lo usano, le persone interessate da esso e l'ambiente in cui viene distribuito. Leggere le note sulla trasparenza per informazioni sull'uso e la distribuzione responsabili dell'IA nei sistemi.

Passaggi successivi