Che cos'è il riconoscimento del parlante?

2025-06-05

Importante

Riconoscimento del parlante in Voce di Azure AI verrà ritirato il 30 settembre 2025. Le applicazioni non potranno usare il riconoscimento del parlante dopo tale data.

Questa modifica non influisce su altre funzionalità di Riconoscimento vocale di Intelligenza artificiale di Azure, ad esempio la sintesi vocale (inclusa nessuna modifica alla diarizzazione del parlante), il testo e la traduzione vocale.

Il riconoscimento del parlante consente di determinare chi sta parlando in un clip audio. Il servizio può verificare e identificare gli altoparlanti in base alle loro caratteristiche vocali univoche, usando la biometria vocale.

Dopo aver fornito i dati di training audio di un singolo parlante, viene creato un profilo di registrazione in base alle caratteristiche univoche della voce del parlante. È quindi possibile eseguire un controllo incrociato di campioni vocali audio rispetto a questo profilo per verificare che il parlante sia la stessa persona (verifica voce). È anche possibile eseguire il controllo incrociato di campioni vocali audio rispetto a un gruppo di profili voce registrati per verificare se corrispondono a un profilo del gruppo (identificazione voce).

Verifica voce

La verifica voce semplifica il processo di verifica dell'identità di un parlante registrato con passphrase o input vocale in formato libero. Ad esempio, è possibile usarla per la verifica dell'identità del cliente nei call center o per l'accesso contactless a una struttura.

Come funziona la verifica voce?

Il diagramma di flusso seguente ne illustra il funzionamento:

Diagramma di flusso che mostra il funzionamento della verifica voce.

La verifica voce può essere dipendente o indipendente dal testo. La verifica è dipendente dal testo quando i parlanti devono scegliere la stessa passphrase da usare sia durante la fase di registrazione che in quella di verifica. La verifica è indipendente dal testo quando i parlanti possono esprimersi nel linguaggio quotidiano nelle fasi di registrazione e di verifica.

Per la verifica dipendente dal testo, la voce del parlante viene registrata quando pronuncia una passphrase di un set di frasi predefinite. Le caratteristiche vocali vengono estratte dalla registrazione audio per creare una firma vocale univoca, e viene anche riconosciuta la passphrase scelta. La combinazione di firma vocale e passphrase viene usata per la verifica del parlante.

La verifica indipendente dal testo consente al parlante di esprimersi liberamente durante la registrazione, eccetto che per la frase di attivazione iniziale quando viene abilitata la registrazione attiva. Non sono previste limitazioni al campione audio da verificare, perché le caratteristiche vocali vengono estratte solo per assegnare un punteggio in base alla somiglianza.

Lo scopo delle API non è di determinare se l'audio proviene da una persona reale, da un'imitazione o da una registrazione di un parlante registrato.

Identificazione voce

L'identificazione voce consente di determinare l'identità di un parlante sconosciuto all'interno di un gruppo di utenti registrati. L'identificazione voce consente di attribuire il parlato a singoli parlanti e di sfruttare al meglio gli scenari con più parlanti, ad esempio:

Supporto di soluzioni per la produttività delle riunioni da remoto.
Creazione della personalizzazione per dispositivi multiutente.

Come funziona l'identificazione voce?

La registrazione per l'identificazione voce è indipendente dal testo. Il parlante può esprimersi liberamente durante la registrazione, eccetto che per la frase di attivazione iniziale quando viene abilitata la registrazione attiva. Analogamente a quanto accade nella verifica voce, la voce del parlante viene registrata nella fase di registrazione e vengono estratte le caratteristiche vocali che consentono di creare una firma vocale univoca. Nella fase di identificazione il campione vocale di input viene confrontato con un elenco specificato di voci registrate (fino a 50 in ogni richiesta).

Sicurezza e privacy dei dati

I dati della registrazione del parlante vengono archiviati in un sistema protetto, inclusi l'audio del parlato per la registrazione e le caratteristiche della firma vocale. L'audio del parlato per la registrazione viene usato solo quando viene aggiornato l'algoritmo e le caratteristiche devono essere estratte di nuovo. Il servizio non conserva la registrazione vocale o le caratteristiche vocali estratte inviate durante la fase di riconoscimento.

È possibile controllare per quanto tempo devono essere conservati i dati. È possibile creare, aggiornare ed eliminare i dati di registrazione per i singoli parlanti tramite chiamate API. Quando la risorsa Voce viene eliminata, vengono eliminati anche tutti i dati di registrazione voce associati alla risorsa Voce.

Come per tutte le risorse di Azure AI Foundry, gli sviluppatori che usano la funzionalità di riconoscimento del parlante devono essere consapevoli dei criteri Microsoft sui dati dei clienti. È necessario assicurarsi di aver ricevuto le autorizzazioni appropriate da parte degli utenti. Per maggiori dettagli, vedere Dati e privacy per il riconoscimento del parlante. Per altre informazioni, vedere la pagina Servizi di Azure AI nel Centro protezione di Microsoft.

Domande e soluzioni comuni

Domanda	Soluzione
In quali situazioni è più probabile usare il riconoscimento del parlante?	Alcuni validi esempi possono essere la verifica del cliente nei call center, l'accettazione dei pazienti basata sulla voce, la trascrizione delle riunioni e la personalizzazione di dispositivi multiutente.
Qual è la differenza tra identificazione e verifica?	L'identificazione è il processo che consente di rilevare chi sta parlando in un gruppo di parlanti. La verifica consente invece di confermare che un parlante corrisponde a una voce nota registrata.
Quali sono le lingue supportate?	Vedere Supporto delle lingue nel riconoscimento del parlante.
Quali aree di Azure sono supportate?	Vedere Supporto delle aree nel riconoscimento del parlante.
Quali sono i formati audio supportati?	WAV mono a 16 bit, 16 kHz con codifica PCM.
È possibile registrare più volte un parlante?	Sì, per la verifica dipendente dal testo è possibile registrare un parlante fino a 50 volte. Per la verifica indipendente dal testo o l'identificazione voce è possibile registrare fino a un massimo di 300 secondi di audio.
Quali dati vengono archiviati in Azure?	L'audio della registrazione rimane archiviato nel servizio finché il profilo vocale non viene eliminato. I campioni audio usati per il riconoscimento non vengono conservati o archiviati.

Intelligenza artificiale responsabile

Un sistema di intelligenza artificiale include non solo la tecnologia ma anche le persone che ne fanno uso, le persone interessate e l'ambiente di distribuzione. Leggere le note sulla trasparenza per informazioni sull'uso e sulla distribuzione di intelligenza artificiale responsabile nei sistemi.

Condividi tramite