Riconoscimento del parlante

Articolo
07/19/2023

Il riconoscimento voce di Servizi di intelligenza artificiale di Azure - Riconoscimento voce offre algoritmi che verificano e identificano gli altoparlanti in base alle caratteristiche vocali univoce. Riconoscimento altoparlante viene usato per rispondere alla domanda "chi sta parlando?". Altre informazioni

La voce ha caratteristiche univoche che possono essere associate a un singolo individuo. Sono disponibili API di verifica dell'altoparlante e API di identificazione altoparlanti per due principali applicazioni di tecnologie di riconoscimento altoparlanti.

Verifica voce

La verifica dell'altoparlante può essere dipendente dal testo o indipendente dal testo. La verifica dipendente dal testo significa che gli altoparlanti devono scegliere la stessa passphrase da usare durante le fasi di registrazione e verifica. La verifica sia del contenuto vocale che della firma vocale facilita uno scenario di verifica a più fattori; La verifica indipendente dal testo significa che gli altoparlanti possono parlare in lingua quotidiana nelle frasi di registrazione e verifica.

Verifica dell'altoparlante dipendente dal testo

Nella fase di registrazione dell'altoparlante la voce dell'altoparlante viene registrata dicendo una passphrase da un set di frasi predefinite. Le funzionalità vocali vengono estratte dalla registrazione audio per formare una firma vocale univoca mentre viene riconosciuta la passphrase scelta. Insieme, la firma vocale e la passphrase verranno usate per verificare l'altoparlante.

Nella fase di verifica l'ID associato all'utente da verificare viene inviato all'API di verifica dell'altoparlante. Il servizio di verifica dell'altoparlante estrae le funzionalità vocali e la passphrase dalla registrazione vocale di input. Confronta quindi le funzionalità vocali e la passphrase rispetto al profilo di registrazione dell'altoparlante corrispondente.

La risposta restituisce "Accept" o "Reject" con un punteggio di somiglianza compreso tra 0 e 1. La risposta "Accetta" o "Rifiuta" è un risultato che combina sia il risultato della verifica dell'altoparlante che il risultato del riconoscimento vocale, mentre il punteggio di somiglianza misura solo la somiglianza della voce. Viene restituito "Accetta" quando il risultato del riconoscimento vocale corrisponde alla frase di registrazione e il punteggio di somiglianza della voce è maggiore o uguale a 0,5. Tuttavia, il risultato deve essere determinato in base allo scenario e ad altri fattori di verifica usati. È consigliabile sperimentare i propri dati e determinare la soglia per eseguire l'override delle risposte "Accetta" o "Rifiuta" in base alle esigenze.

Nella versione corrente dell'API di verifica dell'altoparlante dipendente dal testo vengono fornite 10 frasi in inglese da scegliere dagli altoparlanti.

Lo farò un'offerta che non può rifiutare.
Houston abbiamo avuto un problema.
La mia voce è il mio passaporto mi verifica.
Succo di mela gusto divertente dopo dentipasto.
È possibile accedere senza la password.
È ora possibile attivare il sistema di sicurezza.
La mia voce è più forte delle password.
La mia password non è la tua azienda.
Il mio nome è sconosciuto a te.
Essere voi stessi tutti gli altri è già preso"

È possibile creare le proprie passphrases inviando richieste separate all'API di verifica dell'altoparlante indipendente dal testo e dall'API di riconoscimento vocale. Combinando il risultato della verifica dell'altoparlante e il risultato del riconoscimento vocale, è possibile determinare l'identità dell'altoparlante.

Lo scopo delle API non è di determinare se l'audio proviene da una persona reale, da un'imitazione o da una registrazione di un parlante registrato. La generazione di frasi casuali per l'altoparlante da leggere è considerata efficace per impedire attacchi di riproduzione.

Verifica dell'altoparlante indipendente dal testo

La verifica dell'altoparlante può anche essere indipendente dal testo, il che significa che non ci sono restrizioni su ciò che l'altoparlante dice nell'audio.

Nella fase di registrazione, le funzionalità vocali vengono estratte dall'audio di un altoparlante per formare una firma vocale univoca.

Nella fase di verifica l'audio e l'ID associato all'utente da verificare vengono inviati all'API di verifica dell'altoparlante. Il servizio di verifica dell'altoparlante estrae le funzionalità vocali dalla registrazione vocale di input. Confronta quindi le funzionalità vocali rispetto alla firma vocale nel profilo di registrazione dell'altoparlante corrispondente.

La risposta restituisce "Accept" o "Reject" con un punteggio di somiglianza compreso tra 0 e 1. La risposta "Accetta" viene restituita quando il punteggio di somiglianza è maggiore o uguale a 0,5. Tuttavia, il risultato deve essere determinato in base allo scenario e ad altri fattori di verifica usati. È consigliabile sperimentare i propri dati e determinare la soglia per eseguire l'override della risposta "Accetta" o "Rifiuta" in base alle esigenze.

Lo scopo delle API non è di determinare se l'audio proviene da una persona reale, da un'imitazione o da una registrazione di un parlante registrato.

Identificazione voce

L'identificazione del parlante è l'attività di determinare l'identità di una voce sconosciuta tra un set di relatori candidati. L'API Identificazione altoparlante restituisce un elenco di "corrispondenze migliori" in base ai punteggi di somiglianza rispetto a un elenco specificato di ID. L'API Identificazione altoparlante è indipendente dal testo perché non confronta ciò che è stato detto nella registrazione e nel riconoscimento.

Identificazione dell'altoparlante indipendente dal testo

La registrazione per l'identificazione voce non dipende dal testo. Ciò significa che non ci sono limitazioni relative a quello che l'utente dice nell'audio. Non è richiesta alcuna passphrase. Nella fase di registrazione viene registrata la voce del parlante e vengono estratte le caratteristiche vocali per formare una firma vocale univoca.

Nella fase di identificazione il servizio di identificazione voce estrae caratteristiche vocali dalla registrazione vocale di input. Confronta quindi le funzionalità rispetto alle firme vocali nei dati di registrazione di un elenco specificato di relatori (fino a 50 relatori candidati in ogni richiesta). La risposta includeva un ID identificato e cinque ID classificati di primo livello con punteggi di somiglianza compresi tra 0 e 1. L'ID identificato viene determinato in base al punteggio di somiglianza dell'altoparlante corrispondente migliore. Se nessuno dei relatori candidati restituisce un punteggio di somiglianza maggiore o uguale a 0,5, la risposta restituisce una stringa di zero per rappresentare "nessuna corrispondenza viene trovata". Tuttavia, il risultato deve essere determinato in base allo scenario e ad altri fattori che vengono usati. È consigliabile sperimentare i dati e determinare la soglia per eseguire l'override del valore predefinito "corrispondenza o nessuna corrispondenza" in base alle esigenze.