Che cos'è il riconoscimento del parlante?

Il riconoscimento del parlante può aiutare a determinare chi sta parlando in un clip audio. Il servizio può verificare e identificare gli altoparlanti in base alle loro caratteristiche vocali univoche, usando la biometria vocale.

Si forniscono dati di training audio per un singolo altoparlante, che crea un profilo di registrazione in base alle caratteristiche uniche della voce dell'altoparlante. È quindi possibile eseguire il controllo incrociato degli esempi di voci audio su questo profilo per verificare che l'altoparlante sia la stessa persona (verifica dell'altoparlante). È anche possibile eseguire il controllo incrociato degli esempi di voce audio rispetto a un gruppo di profili voce registrati per verificare se corrisponde a un profilo nel gruppo (identificazione voce).

Importante

Microsoft limita l'accesso al riconoscimento del parlante. È possibile richiedere l'accesso tramite la verifica dell'accesso limitato al riconoscimento del parlante dei servizi di intelligenza artificiale di Azure. Per altre informazioni, vedere Accesso limitato per il riconoscimento del parlante.

Verifica voce

La verifica del parlante semplifica il processo di verifica di un'identità del parlante registrata con passphrase o input vocale in formato libero. Ad esempio, è possibile usarlo per la verifica dell'identità del cliente nei call center o nell'accesso alla struttura contactless.

Come funziona la verifica dell'altoparlante?

Il diagramma di flusso seguente offre un oggetto visivo del funzionamento:

Flowchart that shows how speaker verification works.

La verifica dell'altoparlante può essere dipendente dal testo o indipendente dal testo. La verifica dipendente dal testo significa che gli altoparlanti devono scegliere la stessa passphrase da usare sia durante le fasi di registrazione che di verifica. La verifica indipendente dal testo significa che gli altoparlanti possono parlare nella lingua di tutti i giorni nelle frasi di registrazione e verifica.

Per la verifica dipendente dal testo, la voce dell'altoparlante viene registrata pronunciando una passphrase da un set di frasi predefinite. Le funzionalità vocali vengono estratte dalla registrazione audio per formare una firma vocale univoca e viene riconosciuta anche la passphrase scelta. Insieme, la firma vocale e la passphrase vengono usate per verificare l'altoparlante.

La verifica indipendente dal testo non ha restrizioni su ciò che dice il parlante durante la registrazione, oltre alla frase di attivazione iniziale quando è abilitata la registrazione attiva. Non sono previste restrizioni per l'esempio audio da verificare, perché estrae solo le funzionalità vocali per assegnare punteggi alla somiglianza.

Le API non sono destinate a determinare se l'audio proviene da una persona live o da un'imitazione o registrazione di un altoparlante registrato.

Identificazione voce

L'identificazione voce consente di determinare l'identità di un parlante sconosciuto all'interno di un gruppo di utenti registrati. L'identificazione voce consente di attribuire il riconoscimento vocale a singoli altoparlanti e sbloccare il valore dagli scenari con più altoparlanti, ad esempio:

  • Supporto di soluzioni per la produttività delle riunioni remote.
  • Creazione della personalizzazione dei dispositivi multiutente.

Come funziona l'identificazione del parlante?

La registrazione per l'identificazione del parlante è indipendente dal testo. Non ci sono restrizioni su ciò che l'altoparlante dice nell'audio, oltre alla frase di attivazione iniziale quando è abilitata la registrazione attiva. Analogamente alla verifica dell'altoparlante, la voce dell'altoparlante viene registrata nella fase di registrazione e le funzionalità vocali vengono estratte per formare una firma vocale univoca. Nella fase di identificazione, l'esempio di voce di input viene confrontato con un elenco specificato di voci registrate (fino a 50 in ogni richiesta).

Sicurezza e privacy dei dati

I dati di registrazione voce vengono archiviati in un sistema protetto, inclusi l'audio vocale per la registrazione e le funzionalità di firma vocale. L'audio vocale per la registrazione viene usato solo quando l'algoritmo viene aggiornato e le funzionalità devono essere estratte di nuovo. Il servizio non mantiene la registrazione vocale o le funzionalità vocali estratte inviate al servizio durante la fase di riconoscimento.

È possibile controllare per quanto tempo devono essere conservati i dati. È possibile creare, aggiornare ed eliminare i dati di registrazione per singoli relatori tramite chiamate API. Quando la sottoscrizione viene eliminata, vengono eliminati anche tutti i dati di registrazione voce associati alla sottoscrizione.

Come per tutte le risorse dei servizi di intelligenza artificiale di Azure, gli sviluppatori che usano la funzionalità di riconoscimento del parlante devono essere consapevoli dei criteri Microsoft sui dati dei clienti. È necessario assicurarsi di aver ricevuto le autorizzazioni appropriate dagli utenti. Per altre informazioni, vedere Dati e privacy per il riconoscimento del parlante. Per altre informazioni, vedere la pagina dei servizi di intelligenza artificiale di Azure nel Centro protezione Microsoft.

Domande e soluzioni comuni

Domanda Soluzione
Quali situazioni sono più probabile usare il riconoscimento del parlante? Esempi validi includono la verifica dei clienti del call center, il check-in dei pazienti basato su voce, la trascrizione delle riunioni e la personalizzazione dei dispositivi multiutente.
Qual è la differenza tra identificazione e verifica? L'identificazione è il processo di rilevamento del membro di un gruppo di parlanti. La verifica è l'atto di confermare che un parlante corrisponde a una voce nota registrata.
Quali sono le lingue supportate? Vedere Supporto della lingua di riconoscimento del parlante.
Quali aree di Azure sono supportate? Vedere Supporto dell'area di riconoscimento del parlante.
Quali sono i formati audio supportati? Mono a 16 bit, 16 kHz CON CODIFICA PCM.
È possibile registrare più volte un altoparlante? Sì, per la verifica dipendente dal testo, è possibile registrare un altoparlante fino a 50 volte. Per la verifica indipendente dal testo o l'identificazione dell'altoparlante, è possibile registrarsi con un massimo di 300 secondi di audio.
Quali dati vengono archiviati in Azure? L'audio di registrazione viene archiviato nel servizio finché il profilo vocale non viene eliminato. Gli esempi audio di riconoscimento non vengono conservati o archiviati.

Intelligenza artificiale responsabile

Un sistema di intelligenza artificiale include non solo la tecnologia, ma anche le persone che lo usano, le persone interessate da esso e l'ambiente in cui viene distribuito. Leggere le note sulla trasparenza per informazioni sull'uso e la distribuzione responsabili dell'IA nei sistemi.

Passaggi successivi