Speaker Recognition

Artikel
03/06/2024

De sprekerherkenning van Azure AI Services - Speech Service biedt algoritmen waarmee sprekers worden geverifieerd en geïdentificeerd op basis van hun unieke spraakkenmerken. Sprekerherkenning wordt gebruikt om de vraag "wie spreekt?" te beantwoorden. Meer informatie.

Spraak heeft unieke kenmerken die aan een persoon kunnen worden gekoppeld. We bieden Speaker Verification-API's en Speaker Identification-API's voor twee belangrijke toepassingen van Speaker Recognition-technologieën.

Sprekercontrole

Sprekercontrole kan tekstafhankelijk of tekstonafhankelijk zijn. Tekstafhankelijke verificatie betekent dat sprekers dezelfde wachtwoordzin moeten kiezen om te gebruiken tijdens zowel de inschrijvings- als de verificatiefase. De verificatie van zowel spraakinhoud als spraakhandtekening vergemakkelijkt een scenario voor meervoudige verificatie; Tekstonafhankelijke verificatie betekent dat sprekers in alledaagse taal kunnen spreken in de inschrijvings- en verificatiezinnen.

Verificatie van tekstafhankelijke spreker

In de registratiefase van de spreker wordt de stem van de spreker opgenomen door een wachtwoordzin uit te spreken uit een set vooraf gedefinieerde zinnen. Spraakfuncties worden geëxtraheerd uit de audio-opname om een unieke spraakhandtekening te vormen terwijl de gekozen wachtwoordzin wordt herkend. Samen worden de spraakhandtekening en de wachtwoordzin gebruikt om de spreker te verifiëren.

In de verificatiefase wordt de id die is gekoppeld aan de persoon die moet worden geverifieerd, verzonden naar de sprekerverificatie-API. De sprekerverificatieservice extraheert spraakfuncties en de wachtwoordzin uit de spraakopname van de invoer. Vervolgens worden de spraakfuncties en de wachtwoordzin vergeleken met het inschrijvingsprofiel van de bijbehorende spreker.

Het antwoord retourneert 'Accepteren' of 'Weigeren' met een gelijkenisscore tussen 0 en 1. Het antwoord 'Accepteren' of 'Weigeren' is een resultaat dat zowel het resultaat van sprekerverificatie als het resultaat van spraakherkenning combineert, terwijl de gelijkenisscore alleen de gelijkenis van de stem meet. We retourneren 'Accepteren' wanneer het spraakherkenningsresultaat overeenkomt met de inschrijvingszin en de score voor spraakvergelijkenis groter of gelijk is aan 0,5. Het resultaat moet echter worden bepaald op basis van het scenario en andere verificatiefactoren die worden gebruikt. We raden u aan om te experimenteren met uw eigen gegevens en de drempelwaarde te bepalen voor het overschrijven van 'Accepteren' of 'Weigeren' antwoorden, indien van toepassing.

In de huidige versie van de tekstafhankelijke sprekerverificatie-API bieden we 10 Engelse woordgroepen waaruit de sprekers kunnen kiezen.

Ik ga hem een aanbod doen dat hij niet kan weigeren.
Houston, we hebben een probleem gehad.
Mijn stem is mijn paspoort verifieer me.
Appelsap smaakt grappig na tandpasta.
U kunt binnen zonder uw wachtwoord.
U kunt het beveiligingssysteem nu activeren.
Mijn stem is sterker dan wachtwoorden.
Mijn wachtwoord is niet jouw zaak.
Mijn naam is onbekend voor je.
Wees jezelf, iedereen is al meegenomen"

U kunt uw eigen wachtwoordzinnen maken door afzonderlijke aanvragen te verzenden naar de tekstonafhankelijke sprekerverificatie-API en spraak-naar-tekst-API. Door het resultaat van de sprekercontrole en het resultaat van spraakherkenning te combineren, kunt u de identiteit van de spreker bepalen.

De API's zijn niet bedoeld om te bepalen of de audio afkomstig is van een live persoon, een imitatie of een opname van een geregistreerde spreker. Het genereren van willekeurige woordgroepen die de spreker kan lezen, wordt als effectief beschouwd om herhalingsaanvallen te voorkomen.

Verificatie van onafhankelijke tekstluidspreker

Sprekercontrole kan ook tekstonafhankelijk zijn, wat betekent dat er geen beperkingen zijn voor wat de spreker in de audio zegt.

In de inschrijvingsfase worden spraakfuncties geëxtraheerd uit de audio van een spreker om een unieke spraakhandtekening te vormen.

In de verificatiefase worden de audio en de id die is gekoppeld aan de persoon die moet worden geverifieerd, verzonden naar de sprekerverificatie-API. De sprekerverificatieservice haalt spraakfuncties uit de spraakopname van de invoer. Vervolgens worden de spraakfuncties vergeleken met de spraakhandtekening in het inschrijvingsprofiel van de bijbehorende spreker.

Het antwoord retourneert 'Accepteren' of 'Weigeren' met een gelijkenisscore tussen 0 en 1. Het antwoord Accepteren wordt geretourneerd wanneer de overeenkomstscore groter of gelijk is aan 0,5. Het resultaat moet echter worden bepaald op basis van het scenario en andere verificatiefactoren die worden gebruikt. U wordt aangeraden te experimenteren met uw eigen gegevens en de drempelwaarde te bepalen om het antwoord 'Accepteren' of 'Weigeren' naar behoren te overschrijven.

De API's zijn niet bedoeld om te bepalen of de audio afkomstig is van een live persoon, een imitatie of een opname van een geregistreerde spreker.

Sprekeridentificatie

Sprekeridentificatie is de taak om de identiteit van een onbekende stem onder een set kandidaatsprekers te bepalen. De Speaker Identification-API retourneert een lijst met 'beste overeenkomsten' op basis van de overeenkomstenscores ten opzichte van een opgegeven lijst met id's. De Speaker Identification-API is tekstonafhankelijk omdat deze niet vergelijkt wat er tijdens de inschrijving en herkenning is gezegd.

Text Independent Speaker Identification

Registratie voor sprekeridentificatie is tekstonafhankelijk, wat betekent dat er geen beperkingen zijn voor hetgeen de spreker in de audio zegt. Er is geen wachtwoordzin vereist. In de inschrijvingsfase wordt de stem van de spreker opgenomen en worden spraakfuncties geëxtraheerd om een unieke spraakhandtekening te vormen.

In de identificatiefase haalt de sprekeridentificatieservice spraakfuncties uit de spraakopname van de invoer. Vervolgens worden de functies vergeleken met de spraakhandtekeningen in de inschrijvingsgegevens van een opgegeven lijst met sprekers (maximaal 50 kandidaatsprekers in elke aanvraag). Het antwoord bevatte één geïdentificeerde id en vijf hoogst gerangschikte id's met overeenkomsten tussen 0 en 1. De geïdentificeerde id wordt bepaald op basis van de gelijkenisscore van de best overeenkomende spreker. Als geen van de kandidaatsprekers een gelijkenisscore van groter of gelijk aan 0,5 retourneert, retourneert het antwoord een tekenreeks van nul om aan te geven dat er geen overeenkomst is gevonden. Het resultaat moet echter worden bepaald op basis van uw scenario en andere factoren die worden gebruikt. We raden u aan te experimenteren met uw gegevens en de drempelwaarde te bepalen om de standaardwaarde 'overeenkomst of geen overeenkomst' te overschrijven.