Che cos’è il riconoscimento del parlante?

Articolo
04/24/2024

Il riconoscimento del parlante può aiutare a determinare chi sta parlando in un clip audio. Il servizio è in grado di verificare e identificare i parlanti in base alle loro caratteristiche vocali univoche, tramite la biometria vocale.

Si forniscono dati di training audio di un singolo parlante, che creano un profilo di registrazione in base alle caratteristiche univoche della voce del parlante. È quindi possibile eseguire confrontare gli esempi audio vocali con questo profilo per verificare che il parlante sia la stessa persona (verifica voce). È inoltre possibile eseguire il controllo incrociato degli esempi audio vocali rispetto a un gruppo di profili voce registrati per verificare se corrispondono a un profilo del gruppo (identificazione voce).

Importante

Microsoft limita l'accesso al riconoscimento del parlante. È possibile richiedere l'accesso tramite la verifica dell'accesso limitato al riconoscimento del parlante dei Servizi di Azure AI. Per altre informazioni, vedere Accesso limitato per il riconoscimento del parlante.

Verifica voce

La verifica voce semplifica il processo di verifica di un'identità del parlante registrata con passphrase o con un input vocale in formato libero. Ad esempio, è possibile usarla per la verifica dell'identità del cliente nei call center o per l’accesso contactless alle strutture.

Come funziona la verifica voce?

Il diagramma di flusso seguente offre uno schema del funzionamento:

Flowchart that shows how speaker verification works.

La verifica voce può essere dipendente dal testo o indipendente dal testo. La verifica è dipendente dal testo quando l'utente deve scegliere la stessa passphrase da usare durante le fasi di registrazione e verifica. La verifica è indipendente dal testo quando l'utente può parlare nella lingua di tutti i giorni nelle fasi di registrazione e verifica.

Per la verifica dipendente dal testo, la voce del parlante viene registrata quando pronuncia una passphrase di un set di frasi predefinite. Le funzionalità vocali vengono estratte dalla registrazione audio per creare una firma vocale univoca, e viene riconosciuta anche la passphrase scelta. Insieme, la firma vocale e la passphrase vengono usate per verificare il parlante.

La verifica indipendente dal testo non ha restrizioni su ciò che dice il parlante durante la registrazione, oltre alla frase di attivazione iniziale quando è abilitata la registrazione attiva. Non sono previste restrizioni per l'esempio audio da verificare, perché estrae solo le caratteristiche vocali per assegnare un punteggio in base alla somiglianza.

Lo scopo delle API non è di determinare se l'audio proviene da una persona reale, da un'imitazione o da una registrazione di un parlante registrato.

Identificazione voce

L'identificazione voce consente di determinare l'identità di un parlante sconosciuto all'interno di un gruppo di utenti registrati. L'identificazione voce consente di attribuire il parlato a singoli interlocutori e di sbloccare il valore degli scenari con più parlanti, ad esempio:

Supporto di soluzioni per la produttività delle riunioni remote.
Creazione della personalizzazione dei dispositivi multiutente.

Come funziona l‘identificazione voce?

La registrazione per l'identificazione voce è indipendente dal testo. Non ci sono restrizioni su ciò che il parlante dice nell'audio, oltre alla frase di attivazione iniziale quando è abilitata la registrazione attiva. Analogamente a quanto accade nella verifica voce, la voce del parlante viene registrata nella fase di registrazione e le caratteristiche vocali vengono estratte per creare una firma vocale univoca. Nella fase di identificazione, l'esempio vocale di input viene confrontato con un elenco specifico di voci registrate (fino a 50 in ogni richiesta).

Sicurezza e privacy dei dati

I dati di registrazione vocale vengono archiviati in un sistema protetto, inclusi l'audio del parlato per la registrazione e le caratteristiche della firma vocale. L'audio del parlato per la registrazione viene usato solo quando viene aggiornato l'algoritmo e le caratteristiche devono essere estratte di nuovo. Il servizio non conserva la registrazione vocale o le caratteristiche vocali estratte inviate durante la fase di riconoscimento.

È possibile controllare per quanto tempo devono essere conservati i dati. È possibile creare, aggiornare ed eliminare i dati di registrazione per i singoli parlanti tramite chiamate API. Quando la sottoscrizione viene eliminata, vengono eliminati anche tutti i dati di registrazione dei parlanti associati.

Come per tutte le risorse dei Servizi di Azure AI, gli sviluppatori che usano la funzionalità di riconoscimento del parlante devono essere consapevoli dei criteri Microsoft sui dati dei clienti. È necessario assicurarsi di aver ricevuto le autorizzazioni appropriate da parte degli utenti. Per maggiori dettagli, vedere Dati e privacy per il riconoscimento del parlante. Per altre informazioni, vedere la pagina Servizi di Azure AI nel Centro protezione di Microsoft.

Domande e soluzioni comuni

Domanda	Soluzione
In quali situazioni è più probabile usare il riconoscimento del parlante?	Alcuni buoni esempi possono essere la verifica dei clienti del call center, il check-in dei pazienti basato su voce, la trascrizione delle riunioni e la personalizzazione dei dispositivi multiutente.
Qual è la differenza tra identificazione e verifica?	L'identificazione è il processo di individuazione del membro di un gruppo di parlanti che sta parlando. La verifica è l'atto di confermare che un parlante corrisponde a una voce nota registrata.
Quali sono le lingue supportate?	Vedere Supporto delle lingue nel riconoscimento del parlante.
Quali aree di Azure sono supportate?	Vedere Supporto delle aree nel riconoscimento del parlante.
Quali sono i formati audio supportati?	Mono 16 bit, 16 kHz PCM-encoded WAV.
È possibile registrare più volte un parlante?	Sì, per la verifica dipendente dal testo, è possibile registrare un parlante fino a 50 volte. Per la verifica indipendente dal testo o l'identificazione voce, è possibile registrare fino a un massimo di 300 secondi di audio.
Quali dati vengono archiviati in Azure?	L'audio di registrazione è archiviato nel servizio finché il profilo vocale non viene eliminato. Gli esempi audio di riconoscimento non vengono conservati o archiviati.

Intelligenza artificiale responsabile

Un sistema di intelligenza artificiale include non solo la tecnologia ma anche le persone che ne fanno uso, le persone interessate e l'ambiente di distribuzione. Leggere le note sulla trasparenza per informazioni sull'uso e sulla distribuzione di intelligenza artificiale responsabile nei sistemi.

Passaggi successivi

Guida di avvio rapido sul riconoscimento del parlante