Condividi tramite


Che cos'è il riconoscimento vocale?

Il servizio Voce di Azure AI offre funzionalità vocali avanzate per il testo. Questa funzionalità supporta sia la trascrizione in tempo reale che la trascrizione batch, offrendo soluzioni versatili per la conversione di flussi audio in testo.

Funzionalità di base

Il servizio di riconoscimento vocale offre le funzionalità principali seguenti:

Riconoscimento vocale in tempo reale

La sintesi vocale in tempo reale trascrive l'audio perché viene riconosciuto da un microfono o da un file. È ideale per le applicazioni che richiedono la trascrizione immediata, ad esempio:

  • Trascrizioni, didascalie o sottotitoli per riunioni live: trascrizione audio in tempo reale per accessibilità e registrazione.
  • Diarizzazione: identificazione e distinzione tra differenti oratori nell'audio.
  • Valutazione della pronuncia: valutazione e feedback sull'accuratezza della pronuncia.
  • Assistenza per gli agenti di call center: fornitura di trascrizioni in tempo reale per assistere i rappresentanti del servizio clienti.
  • Dettatura: trascrizione di parole pronunciate in testo scritto a scopo di documentazione.
  • Agenti vocali: abilitazione di sistemi interattivi di risposta vocale per trascrivere query e comandi utente.

È possibile accedere al riconoscimento vocale in tempo reale tramite Servizio cognitivo di Azure per la voce SDK, l'interfaccia della riga di comando di Servizio cognitivo di Azure per la voce e l'API REST, consentendo l'integrazione in varie applicazioni e flussi di lavoro. Il riconoscimento vocale in tempo reale è disponibile tramite Servizio cognitivo di Azure per la voce SDK, l'interfaccia della riga di comando di Servizio cognitivo di Azure per la voce e le API REST, ad esempio l'API di trascrizione rapida.

Trascrizione rapida (anteprima)

L'API di Trascrizione rapida viene usata per trascrivere i file audio e ottenere risultati in modo sincrono e più veloce rispetto all'audio in tempo reale. Usare Trascrizione rapida negli scenari in cui è necessario trascrivere una registrazione audio il più rapidamente possibile con una latenza prevedibile, ad esempio:

  • Trascrizione rapida audio o video e sottotitoli: ottenere rapidamente una trascrizione di un intero file video o audio in un'unica operazione.
  • Traduzione video: ottenere immediatamente nuovi sottotitoli per un video se hai audio in lingue differenti.

Nota

L’API di Trascrizione rapida è disponibile solo tramite l’API REST di Sintesi vocale, versione 2024-05-15-preview e versioni successive.

Per iniziare a usare Trascrizione rapida, vedere Usare l'API di Trascrizione rapida (anteprima).

API di trascrizione Batch

La trascrizione batch è progettata per la trascrizione di grandi quantità di audio archiviati nei file. Questo metodo elabora l'audio in modo asincrono ed è adatto per:

  • Trascrizioni, didascalie o sottotitoli per l'audiopre-registrato: conversione del contenuto audio archiviato in testo.
  • Analisi post-chiamata del contact center: analisi delle chiamate registrate per estrarre informazioni dettagliate preziose.
  • Diarizzazione: differenze tra oratori nell'audio registrato.

La trascrizione in batch è disponibile tramite:

Riconoscimento vocale personalizzato

Con Riconoscimento vocale personalizzato è possibile valutare e migliorare l'accuratezza del riconoscimento vocale per le applicazioni e i prodotti in uso. È possibile usare un modello conversione voce/testo personalizzato per il riconoscimento vocale in tempo reale, la traduzione vocale e la trascrizione in batch.

Suggerimento

Per usare Riconoscimento vocale personalizzato con l'API di trascrizione batch non è necessario un endpoint di distribuzione ospitata. È possibile risparmiare risorse se il modello di conversione voce/testo personalizzato viene usato solo per la trascrizione batch. Per altre informazioni, vedere Prezzi di Voce di Azure AI.

Il riconoscimento vocale usa un modello linguistico universale come modello di base sottoposto a training con dati di proprietà di Microsoft e riflette la lingua parlata comunemente usata. Il modello di base è sottoposto a training preliminare con dialetti e fonetici che rappresentano vari domini comuni. Quando si effettua una richiesta di riconoscimento vocale, per impostazione predefinita viene usato il modello di base più recente per ogni lingua supportata. Il modello di base funziona bene nella maggior parte degli scenari di riconoscimento vocale.

Il riconoscimento vocale personalizzato consente di personalizzare il modello di riconoscimento vocale in base alle esigenze specifiche dell'applicazione. Ciò può essere particolarmente utile per:

  • Miglioramento del riconoscimento del vocabolario specifico del dominio: eseguire il training del modello con i dati di testo pertinenti al campo.
  • Miglioramento dell'accuratezza per condizioni audio specifiche: usare dati audio con trascrizioni di riferimento per perfezionare il modello.

Per altre informazioni sul riconoscimento vocale personalizzato, vedere la panoramica di Riconoscimento vocale personalizzato e la documentazione dell'API REST Conversione della voce in testo scritto.

Per informazioni dettagliate sulle opzioni di personalizzazione per lingua e impostazioni locali, vedere la documentazione Supporto per la lingua e vocale per il Servizio cognitivo di Azure per la voce.

Esempi di uso

Ecco alcuni esempi pratici di come usare il Riconoscimento vocale di Intelligenza artificiale di Azure AI:

Caso d'uso Scenario Soluzione
Trascrizioni e sottotitoli delle riunioni live Una piattaforma di eventi virtuali deve fornire sottotitoli in tempo reale per i webinar. Integrare il Riconoscimento vocale in tempo reale in testo usando il Servizio cognitivo di Azure per la voce SDK per trascrivere il contenuto parlato in sottotitoli visualizzati in tempo reale durante l'evento.
Miglioramento del servizio clienti Un call center vuole assistere gli agenti fornendo trascrizioni in tempo reale delle chiamate dei clienti. Usare la sintesi vocale in tempo reale tramite l'interfaccia della riga di comando di Servizio cognitivo di Azure per la voce per trascrivere le chiamate, consentendo agli agenti di comprendere meglio e rispondere alle query dei clienti.
Sottotitotolazione video Una piattaforma di hosting video vuole generare rapidamente un set di sottotitoli per un video. Usare la trascrizione rapida per ottenere rapidamente un set di sottotitoli per l'intero video.
Strumenti didattici Una piattaforma di e-learning mira a fornire trascrizioni per le lezioni video. Applicare la trascrizione batch tramite l'API REST di riconoscimento vocale per elaborare video di lezione pre-registrati, generando trascrizioni di testo per gli studenti.
Documentazione sanitaria Un operatore sanitario deve documentare le consultazioni dei pazienti. Usare il riconoscimento vocale in tempo reale per la dettatura, consentendo ai professionisti del settore sanitario di pronunciare le proprie note e di trascriverli immediatamente. Usare un modello personalizzato per migliorare il riconoscimento di termini medici specifici.
File multimediali e intrattenimento Un'azienda multimediale vuole creare sottotitoli per un grande archivio di video. Usare la trascrizione batch per elaborare i file video in blocco, generando sottotitoli accurati per ogni video.
Ricerca di mercato Una società di ricerca di mercato deve analizzare il feedback dei clienti dalle registrazioni audio. Usare la trascrizione batch per convertire il feedback audio in testo, consentendo un'analisi più semplice e l'estrazione di informazioni dettagliate.

Intelligenza artificiale responsabile

Un sistema di intelligenza artificiale include non solo la tecnologia ma anche le persone che ne fanno uso, le persone interessate e l'ambiente di distribuzione. Leggere le note sulla trasparenza per informazioni sull'uso e sulla distribuzione di intelligenza artificiale responsabile nei sistemi.