Casi d'uso per la conversione da voce a testo

2025-06-25

Importante

Le traduzioni non in inglese sono disponibili solo per praticità. Consultare la EN-US versione di questo documento per la versione vincolante.

Che cos'è la nota sulla trasparenza?

Un sistema IA include non solo la tecnologia, ma anche le persone che la useranno, le persone che ne sono interessate e l'ambiente di distribuzione. La creazione di un sistema adatto allo scopo previsto richiede una comprensione del funzionamento della tecnologia, delle funzionalità e delle limitazioni e del modo in cui ottenere le migliori prestazioni. Le note sulla trasparenza di Microsoft hanno lo scopo di aiutare l'utente a comprendere il funzionamento della tecnologia di intelligenza artificiale, le scelte che i proprietari del sistema possono fare, che influenzeranno le prestazioni e il comportamento del sistema e l'importanza di pensare al sistema nel suo complesso, tra cui tecnologia, persone e ambiente. È possibile usare le note sulla trasparenza durante lo sviluppo o la distribuzione del proprio sistema oppure condividerle con le persone che useranno il sistema o saranno interessate da esso.

Le note sulla trasparenza di Microsoft fanno parte di un impegno di più ampio respiro di Microsoft per mettere in pratica i principi di IA. Per altre informazioni, vedere i principi di IA Microsoft.

Nozioni di base sul riconoscimento vocale

Il riconoscimento vocale, noto anche come riconoscimento vocale automatico, è una funzionalità del servizio Voce di Azure AI, offerto nell'ambito dei servizi di Azure AI. Il riconoscimento vocale converte l'audio parlato in testo. Il riconoscimento vocale in Azure supporta più di 140 impostazioni locali per l'input. Per l'elenco più recente delle impostazioni locali supportate, vedere Lingua e supporto vocale per il servizio Voce.

Termini chiave

Termine	Definizione
Input audio	File audio o dati audio trasmessi usati come input per la funzionalità di sintesi vocale. L'input audio può contenere non solo la voce, ma anche il silenzio e il rumore non vocale. Il riconoscimento vocale genera testo per le parti vocali dell'input audio.
Espressione	Componente dell'input audio che contiene la voce umana. Un'espressione può essere costituita da una singola parola o più parole, ad esempio una frase.
Trascrizione	Output di testo della funzionalità di riconoscimento vocale. Questo output di testo generato automaticamente sfrutta i modelli di riconoscimento vocale e viene talvolta definito trascrizione automatica o riconoscimento vocale automatizzato. La trascrizione in questo contesto è completamente automatizzata e quindi diversa dalla trascrizione umana, ovvero il testo generato dalle trascrizioni umane.
Modello di riconoscimento vocale	Rappresentazione numerica generata automaticamente da machine learning di un'espressione usata per dedurre una trascrizione da un input audio. I modelli vocali vengono sottoposti a training sui dati vocali che includono vari stili di riconoscimento vocale, lingue, accenti, dialetti e intonazioni e su varianti acustiche generate usando diversi tipi di dispositivi di registrazione. Un modello di riconoscimento vocale rappresenta numericamente funzionalità acustiche e linguistiche, usate per stimare il testo da associare all'espressione.
API in tempo reale	API che accetta le richieste con input audio e restituisce una risposta in tempo reale con trascrizione all'interno della stessa connessione di rete.
API Rilevamento lingua	Tipo di API in tempo reale che rileva la lingua parlata in un input audio. Una lingua viene dedotta in base al suono vocale nell'input audio.
API Traduzione vocale	Un altro tipo di API in tempo reale che genera trascrizioni di un determinato input audio li converte in una lingua specificata dall'utente. Si tratta di un servizio a catena di servizi Voce e Traduzione testuale.
API Batch	Servizio utilizzato per inviare l'input audio da trascrivere in un secondo momento. Specificare il percorso dei file audio e altri parametri, ad esempio la lingua del riconoscimento. Il servizio carica l'input audio in modo asincrono e lo trascrive. Al termine della trascrizione, i file di testo vengono caricati nuovamente in un percorso specificato.
Diarizzazione	La diarizzazione risponde alla domanda "Chi ha parlato e quando". Differenzia gli altoparlanti in un input audio in base alle loro caratteristiche vocali. Sia le API in tempo reale che le API batch supportano la diarizzazione e sono in grado di differenziare le voci degli altoparlanti nelle registrazioni monocanale. La diarizzazione viene combinata con la funzionalità di riconoscimento vocale per fornire output di trascrizione contenenti una voce relatore per ogni segmento trascritto. L'output di trascrizione viene contrassegnato come GUEST1, GUEST2, GUEST3 e così via in base al numero di altoparlanti nella conversazione audio.
Frequenza degli errori di Word (WER)	Il tasso di errore delle parole (WER) è lo standard del settore per misurare l'accuratezza del parlato con il testo. WeR conta il numero di parole non corrette identificate durante il riconoscimento. Quindi si effettua la divisione per il numero totale di parole fornite nella trascrizione corretta (spesso creata dall'etichettatura umana).
Frequenza degli errori del token (TER)	La frequenza di errore dei token (TER) è una misura della correttezza del riconoscimento finale delle parole, della maiuscola, della punteggiatura e così via, rispetto ai token forniti nella trascrizione corretta (spesso creata dall'etichettatura umana).
Latenza di runtime	Nel riconoscimento vocale, la latenza è il tempo tra l'ingresso audio del parlato e l'uscita del risultato della trascrizione.
Frequenza degli errori di diarizzazione delle parole	La frequenza degli errori di diarizzazione delle parole conta il numero di errori relativi alle parole assegnate al relatore sbagliato rispetto al riferimento a cui attenersi. Una velocità WDER inferiore indica una qualità migliore.

Capacità

Comportamento del sistema

Seguono i modi principali per utilizzare il nostro servizio di riconoscimento vocale.

API Riconoscimento vocale in tempo reale

Si tratta di una chiamata API comune tramite Speech SDK o l'API REST per inviare un input audio e ricevere una trascrizione di testo in tempo reale. Il sistema di riconoscimento vocale usa un modello di riconoscimento vocale per riconoscere ciò che viene parlato in un audio di input. Durante la sintesi vocale in tempo reale, il sistema accetta un flusso audio come input e determina continuamente la sequenza più probabile di parole che hanno prodotto l'audio osservato finora. Il training del modello viene eseguito su una grande quantità di audio diversificato in scenari di utilizzo tipici e su un'ampia gamma di altoparlanti. Ad esempio, questa funzionalità viene spesso usata per le query abilitate per la voce o la dettatura all'interno del servizio o dell'applicazione di un'organizzazione.

API di trascrizione batch

La trascrizione batch è un altro tipo di chiamata API. Viene in genere usato per inviare input audio prerecordati e per ricevere testo trascritto in modo asincrono, ovvero in un secondo momento. Per usare questa API, è possibile specificare i percorsi per più file audio. La tecnologia di riconoscimento vocale legge l'input audio dal file e genera file di testo di trascrizione restituiti al percorso di archiviazione specificato. Questa funzionalità viene usata per supportare processi di trascrizione più grandi in cui non è necessario fornire agli utenti finali il contenuto di trascrizione in tempo reale. Un esempio è la trascrizione delle registrazioni del call center per ottenere informazioni dettagliate sulle prestazioni dell'agente di call center e clienti.

Quando si usa la trascrizione batch, è possibile scegliere di usare il modello Whisper anziché il modello di riconoscimento vocale predefinito di Intelligenza artificiale di Azure. Per determinare se il modello Whisper è appropriato per il caso d'uso, è possibile confrontare il modo in cui l'output tra questi modelli differisce nel batch. Provare in Speech Studio e quindi eseguire valutazioni più approfondite usando le funzionalità di test tramite riconoscimento vocale personalizzato. Si noti che il modello Whisper è disponibile anche tramite Azure OpenAI.

API traduzione vocale

Questa API converte l'input audio in testo e quindi lo converte in un'altra lingua. L'output della trascrizione tradotta può essere restituito in formato testo oppure è possibile scegliere di sintetizzare il testo in voce udibile usando il testo per la sintesi vocale. Per altre informazioni, vedere Che cos'è Azure AI Translator?

Funzionalità secondarie e opzioni

Le API precedenti possono facoltativamente usare le funzionalità secondarie seguenti:

Personalizzazione del modello: Riconoscimento vocale di Azure consente agli sviluppatori di personalizzare il riconoscimento vocale in modelli di testo per migliorare l'accuratezza del riconoscimento per uno scenario specifico. Esistono due modi per personalizzare la sintesi vocale in testo:
- In fase di runtime tramite l'uso della funzionalità elenco frasi
- In anticipo grazie all'uso del riconoscimento vocale personalizzato
Rilevamento lingua: a differenza di una chiamata API predefinita, in cui è necessario specificare in anticipo una lingua o impostazioni locali per un input audio, con il rilevamento della lingua, è possibile specificare più impostazioni locali e consentire al servizio di rilevare la lingua da usare per riconoscere una parte specifica dell'audio.
Diarizzazione: questa funzionalità è disabilitata per impostazione predefinita. Se si sceglie di abilitare questa funzionalità, il servizio distingue le espressioni degli altoparlanti diversi. Il testo di trascrizione risultante contiene una proprietà "speaker" che indica GUEST1, GUEST2, GUEST3 e così via, che indica quale voce sta parlando in un file audio.

Casi d'uso

Il riconoscimento vocale può offrire diversi modi per consentire agli utenti di interagire con applicazioni e dispositivi. Invece di digitare parole su una tastiera o usando le mani per le interazioni touchscreen, la tecnologia di riconoscimento vocale consente agli utenti di gestire applicazioni e dispositivi per voce e tramite dettatura.

Assistenti intelligenti: le aziende che sviluppano assistenti intelligenti su elettrodomestici, automobili e case possono usare il parlato per il testo per abilitare query di ricerca interfaccia naturale o attivare determinate funzionalità tramite voce. È denominato _command-and-_control.
Chat bot: le aziende possono creare applicazioni di chat bot, in cui gli utenti possono usare query o comandi abilitati per la voce per interagire con i bot.
Digitazione vocale: le app possono consentire agli utenti di usare la voce per dettare testo in formato lungo. La digitazione vocale può essere usata per immettere testo per messaggi, messaggi di posta elettronica e documenti.
Comandi vocali: gli utenti possono attivare determinate azioni tramite voce (comando e controllo). Due esempi comuni sono l'immissione di testo della query con la voce e la selezione di un elemento del menu tramite comandi vocali.
Traduzione vocale: è possibile usare le funzionalità di traduzione vocale della tecnologia di sintesi vocale per comunicare tramite voce con altri utenti che parlano lingue diverse. La traduzione vocale consente la comunicazione vocale tra più lingue. Vedere l'elenco più recente delle impostazioni locali supportate in Lingua e supporto vocale per il servizio Voce.
Trascrizioni del call center: le aziende registrano spesso conversazioni con i propri utenti in scenari come le chiamate di supporto clienti. Le registrazioni audio possono essere inviate all'API batch per la trascrizione.
Dettatura in linguaggio misto: gli utenti possono usare la tecnologia di riconoscimento vocale per dettare in più lingue. Usando il rilevamento della lingua, un'applicazione di dettatura può rilevare automaticamente le lingue parlate e trascrivere in modo appropriato senza richiedere a un utente di specificare la lingua parlata.
Trascrizione della conversazione in tempo reale: quando gli oratori si trovano tutti nella stessa stanza usando una configurazione a microfono singolo, trascrivere in tempo reale chi (Guest1, Guest2, Guest3 e così via) effettua ogni affermazione.
Trascrizione della conversazione dell'audio preregistrato: dopo la registrazione dell'audio con più interlocutori è possibile usare il nostro servizio per ottenere la trascrizione relativa a quale interlocutore (Guest1, Guest2, Guest3 e così via) formula ogni dichiarazione.

Considerazioni sulla scelta di altri casi d'uso

L'API riconoscimento vocale offre opzioni utili per lo sviluppo di applicazioni abilitate per la voce, ma è molto importante considerare il contesto in cui si integrerà l'API. È necessario assicurarsi di rispettare tutte le leggi e le normative applicabili all'applicazione. Ciò include la comprensione degli obblighi in materia di privacy e comunicazione, tra cui privacy nazionale e regionale, intercettazioni e leggi wiretap applicabili alla giurisdizione. Raccogliere ed elaborare solo l'audio entro le aspettative ragionevoli degli utenti. Ciò include la garanzia di avere tutti i consenso necessari e appropriati dagli utenti per raccogliere, elaborare e archiviare i dati audio.

Molte applicazioni sono progettate per essere utilizzate da un singolo utente specifico per query, comandi o dettatura abilitate alla voce. Tuttavia, il microfono per l'applicazione potrebbe raccogliere suoni o voci da utenti non primari. Per evitare di acquisire involontariamente le voci di utenti non primari, è consigliabile prendere in considerazione le informazioni seguenti:

Considerazioni sul microfono: spesso non è possibile controllare chi potrebbe parlare vicino al dispositivo di input che invia input audio al servizio cloud di conversione da discorso a testo. È consigliabile incoraggiare gli utenti a prestare particolare attenzione quando usano funzionalità e applicazioni abilitate per la voce in un ambiente pubblico o aperto in cui le voci di altre persone potrebbero essere facilmente acquisite.
Usare il riconoscimento vocale solo in esperienze e funzionalità che rientrano nelle aspettative ragionevoli degli utenti: i dati audio che contengono una persona che parla sono informazioni personali. Il riconoscimento vocale non deve essere usato per scopi di sorveglianza audio coperta, in modo da violare i requisiti legali o nelle applicazioni e nei dispositivi in spazi pubblici o posizioni in cui gli utenti potrebbero avere una ragionevole aspettativa di privacy. Usare il servizio Voce solo per raccogliere ed elaborare l'audio in modi che rientrano nelle aspettative ragionevoli degli utenti. Ciò include la garanzia di disporre di tutti i consenso necessari e appropriati da parte degli utenti per raccogliere, elaborare e archiviare i dati audio.
Servizio Voce di Intelligenza artificiale di Azure e integrazione del modello Whisper: il modello Whisper migliora il servizio Voce di Intelligenza artificiale di Azure con funzionalità avanzate come il riconoscimento multilingue e la leggibilità. Il servizio Voce arricchisce anche le prestazioni del modello Whisper consentendo trascrizioni in batch su larga scala e diarizzazione del relatore. L'uso del modello di riconoscimento vocale predefinito o del modello Whisper dipende dal caso d'uso specifico. È consigliabile sfruttare i vantaggi del batch per provare e personalizzare le esperienze vocali in Speech Studio per valutare entrambe le opzioni per trovare la soluzione più adatta alle esigenze aziendali.
Trascrizione della conversazione su eventi prerecordati: il sistema migliorerà se tutti gli altoparlanti si trovano nello stesso ambiente acustico (ad esempio, la conversazione avviene in una stanza in cui le persone parlano in un microfono comune).
Trascrizione della conversazione: sebbene non vi sia alcuna limitazione sul numero di relatori nella conversazione, il sistema offre prestazioni migliori quando il numero di relatori è inferiore a 30.
Considerazioni legali e normative: le organizzazioni devono valutare potenziali obblighi legali e normativi specifici quando si usano servizi e soluzioni di intelligenza artificiale, che potrebbero non essere appropriati per l'uso in ogni settore o scenario. Inoltre, i servizi o le soluzioni di intelligenza artificiale non sono progettati per e non possono essere usati in modi vietati in termini di servizio e codici di comportamento pertinenti.

Usi non supportati

Trascrizione della conversazione con riconoscimento del parlante: il servizio Voce non è progettato per fornire la diarizzazione con il riconoscimento del parlante e non può essere usato per identificare i singoli utenti. In altre parole, i relatori verranno presentati come Guest1, Guest2, Guest3 e così via, nella trascrizione. Questi verranno assegnati in modo casuale e potrebbero non essere usati per identificare singoli relatori nella conversazione. Per ogni trascrizione della conversazione, l'assegnazione di Guest1, Guest2, Guest3 e così via sarà casuale.

Per evitare un potenziale uso improprio del servizio Voce a scopo di identificazione, l'utente è responsabile di garantire l'uso del servizio, inclusa la funzionalità di diarizzazione, solo per gli usi supportati e di disporre di una base giuridica appropriata e di eventuali consensi necessari per tutti gli usi del servizio.

Limitazioni

Riconoscimento vocale individua il parlato in un input audio e quindi genera output di trascrizione. Questa operazione richiede una configurazione corretta per le lingue previste usate negli stili di input audio e parlato. Le impostazioni non ottimali potrebbero causare una minore accuratezza.

Limitazioni tecniche, fattori operativi e intervalli

Lingua dell'accuratezza

Lo standard di settore per misurare l'accuratezza del riconoscimento vocale è la percentuale di errori delle parole (WER). Per comprendere il calcolo dettagliato WER, vedere Testare l'accuratezza di un modello di riconoscimento vocale personalizzato.

Accuratezza della trascrizione e limitazioni di sistema

Il riconoscimento vocale utilizza un modello di apprendimento automatico unificato per trascrivere ciò che viene detto in un'ampia gamma di contesti e ambiti tematici, tra cui comandi vocali, dettatura e conversazioni. Non è necessario prendere in considerazione l'uso di modelli diversi per gli scenari di applicazione o funzionalità.

Tuttavia, è necessario specificare una lingua o impostazioni locali per ogni input audio. La lingua o le impostazioni locali devono corrispondere alla lingua effettiva parlata in una voce di input. Per altre informazioni, vedere l'elenco delle impostazioni locali supportate.

Molti fattori possono portare a una minore accuratezza nella trascrizione:

Qualità acustica: Le applicazioni e i dispositivi abilitati per il riconoscimento vocale possono usare un'ampia gamma di tipi di microfono e specifiche. I modelli di riconoscimento vocale unificati sono stati creati in base a vari scenari di dispositivi audio vocali, ad esempio telefoni, telefoni cellulari e dispositivi voce. Tuttavia, la qualità della voce potrebbe essere degradata dal modo in cui un utente parla in un microfono, anche se usa un microfono di alta qualità. Ad esempio, se un altoparlante si trova lontano dal microfono, la qualità dell'input sarebbe troppo bassa. Un altoparlante troppo vicino al microfono potrebbe anche causare un deterioramento della qualità audio. Entrambi i casi possono influire negativamente sull'accuratezza della sintesi vocale.
Rumore non vocale: Se un audio di input contiene un determinato livello di rumore, l'accuratezza è influenzata. Il rumore può provenire dai dispositivi audio usati per effettuare una registrazione o l'input audio stesso potrebbe contenere rumore, ad esempio rumore di fondo o rumore ambientale.
Riconoscimento vocale sovrapposto: Potrebbero esserci più altoparlanti nell'intervallo di un dispositivo di input audio e potrebbero parlare contemporaneamente. Inoltre, altri relatori potrebbero parlare in background mentre l'utente principale sta parlando.
Vocabolari: Il modello di sintesi vocale in testo è stato addestrato su un'ampia gamma di parole in molti ambiti. Tuttavia, gli utenti potrebbero pronunciare termini e gergo specifici dell'organizzazione che non si trovano in un vocabolario standard. Se nell'audio viene visualizzata una parola che non esiste in un modello, il risultato è un errore nella trascrizione.
Accenti: Anche all'interno di una stessa lingua locale, come l'inglese parlato negli Stati Uniti (en-US), molte persone hanno accenti diversi. Accenti molto specifici possono anche causare un errore nella trascrizione.
Impostazioni locali non corrispondenti: Gli utenti potrebbero non parlare le lingue previste. Se hai specificato l'inglese - Stati Uniti (en-US) per un input audio, ma qualcuno parlasse in svedese, ad esempio, l'accuratezza risulterebbe ridotta.
Errori di inserimento: a volte, i modelli di riconoscimento vocale in testo possono produrre errori di inserimento in presenza di rumore o di voce in sottofondo morbida. Ciò è limitato quando si usa il servizio Voce, ma è leggermente più frequente quando si usa il modello Whisper, come indicato nella scheda del modello OpenAI.

A causa di queste variazioni acustiche e linguistiche, è consigliabile prevedere un certo livello di imprecisione nel testo di output quando si progetta un'applicazione.

Prestazioni del sistema

Le prestazioni del sistema vengono misurate da questi fattori chiave (dal punto di vista dell'utente):

Frequenza degli errori di Word (WER)
Frequenza degli errori dei token (TER)
Latenza di runtime

Un modello viene considerato migliore solo quando mostra miglioramenti significativi (ad esempio un miglioramento relativo del WER di 5%) in tutti gli scenari (come la trascrizione del parlato di conversazione, la trascrizione dei call center, la dettatura e l'assistente vocale) mantenendo l'allineamento con gli obiettivi di utilizzo delle risorse e la latenza di risposta.

Per la diarizzazione, viene misurata la qualità usando la frequenza degli errori di diarizzazione delle parole. Minore è la frequenza degli errori di diarizzazione delle parole, migliore sarà la qualità della diarizzazione.

Procedure consigliate per migliorare le prestazioni del sistema

Come descritto in precedenza, le condizioni acustiche come il rumore di fondo, la voce laterale, la distanza dal microfono e gli stili e le caratteristiche vocali possono influire negativamente sull'accuratezza di ciò che viene riconosciuto.

Per esperienze vocali migliori, prendere in considerazione i principi di progettazione di applicazioni o servizi seguenti:

Progettare interfacce utente in modo che corrispondano alle impostazioni locali di input: Le impostazioni locali non corrispondenti riducono l'accuratezza. Speech SDK supporta il rilevamento automatico della lingua, ma rileva solo una delle quattro impostazioni locali specificate in fase di esecuzione. È comunque necessario conoscere le impostazioni locali in cui gli utenti parleranno. L'interfaccia utente deve indicare chiaramente le lingue in cui gli utenti possono parlare tramite un elenco a discesa che elenca le lingue supportate. Per altre informazioni, vedere le impostazioni locali supportate.
Consenti agli utenti di riprovare: La mancata riconoscimento potrebbe verificarsi a causa di un problema temporaneo, ad esempio un parlato poco chiaro o rapido o una lunga pausa. Se l'applicazione prevede trascrizioni specifiche, come comandi di azione predefiniti come "Sì" e "No" e non sono stati riconosciuti, gli utenti dovrebbero essere in grado di riprovare. Un metodo tipico consiste nel dire agli utenti: "Mi dispiace, non l'ho capito. Riprovare."
Confermare prima di eseguire un'azione tramite voce: Come per le interfacce utente basate su tastiera, basate su clic o basate su tocco, se un input audio può attivare un'azione, agli utenti deve essere data l'opportunità di confermare l'azione, in particolare visualizzando o riproducendo ciò che è stato riconosciuto o trascritto. Un esempio tipico è l'invio di un SMS tramite voce. Un'app ripete ciò che è stato riconosciuto e chiede conferma: "Hai detto, 'Grazie'. Inviarlo o modificarlo?"
Aggiungere vocabolari personalizzati: Il modello di riconoscimento vocale generale fornito dal parlato al testo copre un vocabolario ampio. Tuttavia, il gergo specifico dello scenario e le entità denominate ,ad esempio nomi di persone e nomi di prodotto, potrebbero essere sottorappresenti. Le parole e le frasi che possono essere pronunciate possono variare in modo significativo a seconda dello scenario. Se è possibile prevedere quali parole e frasi verranno pronunciate (ad esempio, quando un utente seleziona un elemento da un elenco), è possibile usare la grammatica dell'elenco di formulazioni. Per altre informazioni, vedere "Miglioramento dell'accuratezza del riconoscimento" in Introduzione alla sintesi vocale.
Usare la voce personalizzata: Se l'accuratezza del riconoscimento vocale negli scenari dell'applicazione rimane bassa, è consigliabile personalizzare il modello per le variazioni acustiche e linguistiche. È possibile creare modelli personalizzati eseguendo il training usando dati audio vocali o dati di testo personalizzati. Per informazioni dettagliate, vedere Riconoscimento vocale personalizzato.

Valutazione della conversione da voce a testo

Un modello di riconoscimento vocale viene valutato tramite test. L'obiettivo del test è verificare che il modello funzioni correttamente in ognuno degli scenari chiave e nelle condizioni audio prevalenti e che stiamo raggiungendo i nostri obiettivi di equità tra i fattori demografici.

Metodi di valutazione

Per la valutazione del modello, vengono usati set di dati di test. Sia un test di regressione che un test delle prestazioni del modello vengono eseguiti prima di ogni distribuzione del modello. Le metriche chiave per i test di regressione sono WER, TER, WDER (se la diarizzazione è abilitata quando si esegue la sintesi vocale) e la latenza al 90° percentile.

Valutazione dei risultati

Microsoft si impegna a distribuire tutti gli aggiornamenti del modello senza regressione, ovvero il modello aggiornato dovrebbe migliorare solo il modello di produzione corrente. Ogni candidato viene confrontato direttamente con il modello di produzione corrente. Per prendere in considerazione un modello per la distribuzione, è necessario ottenere un miglioramento relativo del WER di almeno 5% rispetto al modello di produzione attuale.

I modelli di riconoscimento vocale vengono addestrati e ottimizzati usando audio vocale che presenta variazioni, tra cui:

Microfoni e specifiche del dispositivo
Ambiente vocale
Scenari del servizio Voce
Lingue e accenti dei parlanti
Età e sesso dei relatori
Background etnica degli oratori

Per la diarizzazione, vengono usate varianti di dati aggiuntive:

Intervallo di tempo in cui ogni relatore parla
Numero di altoparlanti
Discorso emotivo che modifica l'intonazione e il tono

Il sistema risultante di riconoscimento vocale trascrive le parole pronunciate dall'utente in testo, che può essere utilizzato da un sistema di dialogo con comprensione del linguaggio naturale o per analisi come riassunti o analisi del sentimento.

Considerazioni sull'equità

Microsoft si impegna a potenziare ogni persona del pianeta per ottenere di più. Una parte essenziale di questo obiettivo è lavorare per creare tecnologie e prodotti equi e inclusivi. L'equità è un argomento sociotecnico multidimensionale e influisce su molti aspetti diversi dello sviluppo del prodotto. Altre informazioni sull'approccio Microsoft all'equità.

Una dimensione che è necessario considerare è quanto sia efficace il sistema per diversi gruppi di persone. La ricerca ha dimostrato che senza sforzo consapevole incentrato sul miglioramento delle prestazioni per tutti i gruppi, è spesso possibile che le prestazioni di un sistema di IA variano in base a diversi gruppi in base a fattori quali razza, etnia, regione, sesso e età.

Ogni versione del modello di riconoscimento vocale viene testata e valutata in base a vari set di test per assicurarsi che il modello possa eseguire senza un grande gap in ognuno dei criteri di valutazione. I risultati di equità più granulari saranno presto disponibili.

Valutazione e integrazione del riconoscimento vocale per il tuo uso

Le prestazioni del parlato in testo variano a seconda degli usi reali e delle condizioni implementate. Per garantire prestazioni ottimali nello scenario, è necessario eseguire valutazioni personalizzate delle soluzioni implementate usando la sintesi vocale.

Un set di dati vocale di test deve essere costituito da input vocali effettivi raccolti nelle applicazioni nell'ambiente di produzione. È consigliabile campionare in modo casuale i dati per riflettere le variazioni utente reali in un determinato periodo di tempo. Inoltre, il set di dati di test deve essere aggiornato periodicamente per riflettere le modifiche apportate alle variazioni.

Linee guida per l'integrazione e l'uso responsabile del riconoscimento vocale

Poiché Microsoft lavora per aiutare i clienti a sviluppare e distribuire soluzioni in modo responsabile usando la sintesi vocale, stiamo adottando un approccio di principio per sostenere l'agenzia personale e la dignità considerando l'equità dei sistemi di intelligenza artificiale, affidabilità e sicurezza, privacy e sicurezza, inclusività, trasparenza e responsabilità umana. Queste considerazioni riflettono il nostro impegno nello sviluppo dell'IA responsabile.

Quando si è pronti per distribuire prodotti o funzionalità basati su intelligenza artificiale, le attività seguenti consentono di configurare correttamente:

Comprendere le operazioni che può eseguire: valutare completamente le funzionalità di riconoscimento vocale per comprendere le funzionalità e le limitazioni. Comprendere come verrà eseguita nello scenario e nel contesto specifico testandolo accuratamente con condizioni e dati reali.
Rispettare il diritto di un individuo alla privacy: raccogliere solo dati e informazioni da persone per scopi legittimi e giustificabili. Usare solo i dati e le informazioni per cui si ha il consenso all'utilizzo per questo scopo.
Revisione legale: ottenere consigli legali appropriati per esaminare la soluzione, in particolare se lo si userà nelle applicazioni sensibili o ad alto rischio. Comprendere entro quali restrizioni potrebbe essere necessario lavorare e la propria responsabilità nel risolvere eventuali problemi che potrebbero verificarsi in futuro. Non fornire alcuna consulenza legale o materiale sussidiario.
Human-in-the-loop: mantenere una persona nel processo e includere una supervisione umana come area del criterio di coerenza da esplorare. Ciò significa garantire una costante supervisione umana del prodotto o della funzionalità basata sull'IA e mantenere il ruolo degli esseri umani nel processo decisionale. Assicurarsi di avere un intervento umano in tempo reale nella soluzione per evitare danni. In questo modo è possibile gestire le situazioni in cui il modello di intelligenza artificiale non viene eseguito in base alle esigenze.
Sicurezza: assicurarsi che la soluzione sia sicura e disponga di controlli adeguati per mantenere l'integrità del contenuto e impedire l'accesso non autorizzato.
Creare fiducia con gli stakeholder interessati: comunicare i vantaggi previsti e i potenziali rischi per gli stakeholder interessati. Aiutare gli utenti a capire perché i dati sono necessari e come l'uso dei dati porterà loro dei vantaggi. Descrivere la gestione dei dati in modo comprensibile.
Ciclo di feedback dei clienti: fornire un canale di feedback che consente a utenti e utenti di segnalare problemi con il servizio dopo la distribuzione. Dopo aver distribuito un prodotto o una funzionalità basata su intelligenza artificiale, richiede un monitoraggio e un miglioramento continui. Essere pronti a implementare eventuali commenti e suggerimenti per il miglioramento. Stabilire canali per raccogliere domande e preoccupazioni da stakeholder interessati (persone che potrebbero essere direttamente o indirettamente interessate dal sistema, inclusi dipendenti, visitatori e pubblico generale).
Feedback: cercare feedback da un campionamento diversificato della community durante il processo di sviluppo e valutazione (ad esempio, da gruppi storicamente emarginati, persone con disabilità e lavoratori del servizio). Vedere: Giuria della community.
Studio degli utenti: qualsiasi consenso o raccomandazione sulla divulgazione deve essere inquadrato in uno studio degli utenti. Valutare la prima esperienza e l'esperienza di utilizzo continuo con un campione rappresentativo della community per verificare che le scelte di progettazione portino a una divulgazione efficace. Condurre ricerche sugli utenti con 10-20 membri della community (stakeholder interessati) per valutare la comprensione delle informazioni e determinare se vengono soddisfatte le loro aspettative.

Consigli per preservare la privacy

Un approccio efficace alla privacy dà potere agli individui fornendo informazioni, offrendo controlli e protezioni per preservare la loro privacy.

Consenso per elaborare e archiviare l'input audio: assicurarsi di disporre di tutte le autorizzazioni necessarie per gli utenti finali prima di usare le funzionalità vocali abilitate per il testo nelle applicazioni o nei dispositivi. Assicurarsi inoltre di disporre dell'autorizzazione per Microsoft per elaborare questi dati come responsabile del trattamento dei servizi cloud di terze parti. Si noti che l'API in tempo reale non archivia separatamente i dati di input audio e di output della trascrizione. Tuttavia, è possibile progettare l'applicazione o il dispositivo per conservare i dati dell'utente finale, ad esempio il testo di trascrizione. È possibile attivare la registrazione dei dati locali tramite Speech SDK (vedere Abilitare la registrazione in Speech SDK).

Passaggi successivi

Dati, privacy e sicurezza per il riconoscimento vocale