Vad är talarigenkänning?

Artikel
01/23/2024

Talarigenkänning kan hjälpa dig att avgöra vem som talar i ett ljudklipp. Tjänsten kan verifiera och identifiera talare med hjälp av deras unika röstegenskaper med hjälp av röstbiometri.

Du tillhandahåller ljudträningsdata för en enda talare, vilket skapar en registreringsprofil baserat på de unika egenskaperna hos talarens röst. Du kan sedan korskolla ljudröstexempel mot den här profilen för att kontrollera att talaren är samma person (talarverifiering). Du kan också korskolla ljudröstexempel mot en grupp registrerade talarprofiler för att se om det matchar någon profil i gruppen (talaridentifiering).

Viktigt!

Microsoft begränsar åtkomsten till talarigenkänning. Du kan ansöka om åtkomst via granskning av begränsad åtkomst för talarigenkänning i Azure AI-tjänster. Mer information finns i Begränsad åtkomst för talarigenkänning.

Talarverifiering

Talarverifiering effektiviserar processen med att verifiera en registrerad talaridentitet med antingen lösenfraser eller röstinmatning i fritt format. Du kan till exempel använda den för kundidentitetsverifiering i callcenter eller åtkomst till kontaktlösa anläggningar.

Hur fungerar talarverifiering?

Följande flödesschema ger en visuell bild av hur detta fungerar:

Flowchart that shows how speaker verification works.

Talarverifiering kan vara antingen textberoende eller textoberoende. Textberoende verifiering innebär att talare måste välja samma lösenfras som ska användas under både registrerings- och verifieringsfaserna. Textoberoende verifiering innebär att talare kan tala i vardagsspråk i registrerings- och verifieringsfraserna.

För textberoende verifiering registreras talarens röst genom att säga en lösenfras från en uppsättning fördefinierade fraser. Röstfunktioner extraheras från ljudinspelningen för att bilda en unik röstsignatur, och den valda lösenfrasen känns också igen. Tillsammans används röstsignaturen och lösenfrasen för att verifiera talaren.

Textoberoende verifiering har inga begränsningar för vad talaren säger under registreringen, förutom den första aktiveringsfrasen när aktiv registrering är aktiverad. Det har inga begränsningar för ljudexemplet som ska verifieras, eftersom det bara extraherar röstfunktioner för att få likheter.

API:erna är inte avsedda att avgöra om ljudet kommer från en liveperson eller från en imitation eller inspelning av en registrerad talare.

Talaridentifiering

Talaridentifiering hjälper dig att fastställa en okänd talares identitet inom en grupp registrerade talare. Med talaridentifiering kan du tillskriva tal till enskilda talare och låsa upp värde från scenarier med flera talare, till exempel:

Stödlösningar för fjärrmötesproduktivitet.
Skapa enhetsanpassning för flera användare.

Hur fungerar talaridentifiering?

Registrering för talaridentifiering är textoberoende. Det finns inga begränsningar för vad talaren säger i ljudet, förutom den första aktiveringsfrasen när aktiv registrering är aktiverad. På samma sätt som talarverifiering spelas talarens röst in i registreringsfasen och röstfunktionerna extraheras för att bilda en unik röstsignatur. I identifieringsfasen jämförs röstexemplet för indata med en angiven lista över registrerade röster (upp till 50 i varje begäran).

Datasäkerhet och sekretess

Talarregistreringsdata lagras i ett skyddat system, inklusive talljudet för registrering och röstsignaturfunktionerna. Talljudet för registrering används endast när algoritmen uppgraderas och funktionerna måste extraheras igen. Tjänsten behåller inte talinspelningen eller de extraherade röstfunktioner som skickas till tjänsten under igenkänningsfasen.

Du styr hur länge data ska behållas. Du kan skapa, uppdatera och ta bort registreringsdata för enskilda talare via API-anrop. När prenumerationen tas bort tas även alla talarregistreringsdata som är associerade med prenumerationen bort.

Precis som med alla Azure AI-tjänstresurser måste utvecklare som använder funktionen för talarigenkänning känna till Microsofts principer för kunddata. Du bör se till att du har fått rätt behörigheter från användarna. Mer information finns i Data och sekretess för talarigenkänning. Mer information finns på sidan Azure AI-tjänster i Microsoft Trust Center.

Vanliga frågor och lösningar

Fråga	Lösning
Vilka situationer är det mest troligt att jag använder talarigenkänning?	Exempel på detta är kundtjänstens kundverifiering, röstbaserad patientkontroll, mötestranskription och enhetsanpassning för flera användare.
Vad är skillnaden mellan identifiering och verifiering?	Identifiering är processen för att identifiera vilken medlem från en grupp talare som talar. Verifiering är att bekräfta att en talare matchar en känd, registrerad röst.
Vilka språk stöds?	Se Språkstöd för talarigenkänning.
Vilka Azure-regioner stöds?	Se Stöd för talarigenkänningsregion.
Vilka ljudformat stöds?	Mono 16-bitars, 16 kHz PCM-kodad WAV.
Kan du registrera en talare flera gånger?	Ja, för textberoende verifiering kan du registrera en talare upp till 50 gånger. För textoberoende verifiering eller talaridentifiering kan du registrera med upp till 300 sekunders ljud.
Vilka data lagras i Azure?	Registreringsljud lagras i tjänsten tills röstprofilen har tagits bort. Ljudexempel för igenkänning behålls inte eller lagras inte.

Ansvarig AI

Ett AI-system innehåller inte bara tekniken, utan även de personer som använder den, de personer som påverkas av den och miljön där den distribueras. Läs transparensanteckningarna om du vill veta mer om ansvarsfull AI-användning och distribution i dina system.

Nästa steg

Snabbstart för talarigenkänning