Användningsfall för talarigenkänning

2025-06-24

Viktigt!

Översättningar som inte är engelska tillhandahålls endast för enkelhetens skull. Se versionen EN-US av det här dokumentet för bindningsversionen.

Vad är en transparensanteckning?

Ett AI-system omfattar inte bara tekniken, utan även de personer som ska använda den, de personer som påverkas av den och miljön där den distribueras. Att skapa ett system som är lämpligt för sitt avsedda syfte kräver en förståelse för hur tekniken fungerar, dess funktioner och begränsningar och hur du uppnår bästa prestanda.

Microsoft tillhandahåller Transparensanteckningar som hjälper dig att förstå hur vår AI-teknik fungerar. De inkluderar de val systemägare kan göra som påverkar systemets prestanda och beteende, och vikten av att tänka på hela systemet, inklusive teknik, människor och miljö. Du kan använda Transparensanteckningar när du utvecklar eller distribuerar ditt eget system eller delar dem med de personer som kommer att använda eller påverkas av systemet.

Transparensanteckningar är en del av ett bredare arbete på Microsoft för att omsätta våra AI-principer i praktiken. Mer information finns i Microsofts AI-principer.

Introduktion till talarigenkänning

Talarigenkänning är en AI-funktion som kan identifiera en person som talar i ett ljudklipp. Den mänskliga rösten har unika egenskaper som kan associeras med en individ. Talarigenkänning kan identifiera talare genom att jämföra de unika röstegenskaperna för inkommande tal med registrerade röstsignaturer. Mer information finns i Talarigenkänning.

Grunderna i talarigenkänning

Funktioner för talarigenkänning tillhandahålls via två API:er:

Med talarverifiering kan du fastställa scenarier som "Talar anna?". Den verifierar en individs identitet genom att jämföra röstegenskaperna i deras tal med den registrerade röstsignaturen för den påstådda identiteten.
Med talaridentifiering kan du fastställa scenarier som "Vem talar, Anna, Isha eller Jing?". Den tillskriver tal till enskilda talare i en grupp registrerade personer.

Term	Definition
Röstsignatur	Kallas även mall eller röstavtryck. Det är en numerisk vektor som representerar en individs röstegenskaper, extraherad från ljudinspelningar av en person som talar. De ursprungliga ljudinspelningarna kan inte tolkas eller rekonstrueras baserat på en röstsignatur. Röstsignaturkvalitet är en avgörande faktor för hur exakta dina resultat är.
Registrering	Registrering är processen att skapa röstsignaturer från ljudfilerna för enskilda personers tal, så att de kan identifieras vid ett senare tillfälle. När en person registreras i ett igenkänningssystem associeras den personens mall också med en primär identifierare¹ som ska användas för att avgöra vilken röstsignatur som ska jämföras med talindata för igenkänning.
Erkännande	Under Igenkänning jämförs ljud från en person som talar mot en eller flera röstsignaturer. Processen kallas verifiering om ljudet jämförs med en specifik röstsignatur. Det kallas identifiering om ljudet jämförs med mer än en röstsignatur för att identifiera talaren.
Textberoende talarverifiering	Kallas även aktiv verifiering. Talaren väljer en specifik lösenfras (uppsättning ord) som ska talas under både registrerings- och verifieringsfaserna. Under verifieringen identifierar systemet lösenfrasens text och jämför den med registreringslösenfrasen. Resultatet baseras på både röstsignaturmatchning och lösenfrasmatchning.
Lösenordsignatur	I registreringsljudet för textberoende API:er identifieras den valda lösenfrasen för text. Sedan lagras både röstsignaturen och lösenfrasens text. Den unika lösenfrasen, till exempel "Min röst är mitt pass verifiera mig", kallas en lösenfrassignatur. Lösenfrasens signatur jämförs också med texten för talljudinmatning under igenkänningen.
Textoberoende talarverifiering	Kallas även passiv verifiering. Talare behöver inte tala fördefinierade ord, i stället kan talare använda valfri fras. Röstsignaturen används under verifieringen, men talinnehållet beaktas inte. Under igenkänningen behöver talare inte nödvändigtvis använda samma fras som de gjorde under registreringen. Längre ljudinspelningar rekommenderas under registreringen för att uppnå tillförlitliga prestanda.
Aktiveringsfras	Det är en fördefinierad fras som talaren måste läsa i början av registreringen när du använder textoberoende API:er när aktiv registrering är aktiverad. Även om talare kan använda alla fraser under igenkänningsprocessen i textoberoende talarverifiering eller identifiering, med aktiv registrering aktiverad, kräver Microsoft att talaren läser den här aktiveringsfrasen först. Efter aktiveringssteget kan talaren fortsätta registreringen med hjälp av valfria fraser.

¹ Utvecklare kan associera GUID (globalt unika identifierare) som genereras av Microsoft med en enskild persons primära identifierare för att stödja verifiering av den personen. Talarigenkänning lagrar inte primära identifierare, till exempel kund-ID:t, med röstsignaturer. I stället associerar Microsoft röstsignaturer med slumpmässiga GUID:er.

Begränsad åtkomst till talarigenkänning

Talarigenkänning är en tjänst för begränsad åtkomst och registrering krävs för åtkomst till vissa funktioner. Mer information om Microsofts policy för begränsad åtkomst finns i aka.ms/limitedaccesscogservices. Vissa funktioner är endast tillgängliga för Microsofts hanterade kunder och partner, och endast för vissa användningsfall som valts vid tidpunkten för registreringen.

Godkända användningsfall

Följande användningsfall är godkända för kunder:

Verifiering av kundidentitet: Kundtjänst eller interaktiva röstsvarssystem kan använda talarverifiering för att verifiera en kunds identitet när en uppringare försöker komma åt kundens information eller vidta åtgärder med avseende på kundens konto.
Multifaktorautentisering: Verifiera identiteten genom att matcha röstegenskaper mot registrerad röstsignatur som en faktor för att förbättra säkerheten.
Anpassning av smarta enheter: Röstaktiverade interaktionsenheter, till exempel smarta fordon eller smarta högtalare, kan använda talarigenkänning för att tillhandahålla personligt innehåll. Du kan till exempel spela upp olika typer av filmer eller musik som svar på röstkommandon i ett hushåll med hjälp av api:et för textoberoende talarverifiering.
Talaridentifiering för möten: Identifiera enskilda talare från en mötestranskription eller i bildtexter.
[Endast offentlig sektor] Talaridentifiering eller verifiering för att: (a) hjälpa brottsbekämpande eller domstolstjänstemän vid åtal eller försvar av ett allvarligt brott eller att identifiera en saknad person, i alla fall endast i den utsträckning som specifikt godkänts av ett domstolsbeslut utfärdat i en jurisdiktion som upprätthåller ett rättvist och oberoende rättsväsende, och förutsatt att den person som försökte identifieras eller verifieras inte är underordnad; ELLER (b) bistå tjänstemän i vederbörligen bemyndigade internationella organisationer vid lagföring av brott mot internationell straffrätt, internationell människorättslagstiftning eller internationell humanitär rätt, förutsatt att den person som försökte identifieras eller verifieras inte är undermåligt.

Överväganden vid användning av talarigenkänning

Undvik att använda för att identifiera flera talare i en talinmatning: Talarigenkänning kan inte identifiera fler än en person i en enda talinmatning. Talarigenkänning är avsett att ta in en persons talinmatning och jämföra den med en eller flera röstsignaturer.
Undvik att använda som en enda faktor vid autentisering där säkerhet är viktigt: Talarigenkänning är inte utformat för att särskilja en syntetiserad röst eller inspelningar av en röst från en levande mänsklig talare. Överväg noggrant scenarier med risk för förfalskning. Talarigenkänning ska inte användas som den enda faktorn för att autentisera en användare i program där säkerhet är målet, till exempel åtkomst till ekonomisk information eller fysisk säkerhet.
Registrera användare aktivt: Röstsignaturer innehåller talarens biometriska röstavtrycksegenskaper. För att förhindra missbruk av talarigenkänning tillhandahåller Microsoft en aktiv registreringsfunktion för användare av textoberoende API:er via ett aktiveringssteg. Aktiveringssteget anger talarnas aktiva deltagande i skapandet av deras röstsignaturer och är avsett att hjälpa till att undvika scenariot där talare registreras utan deras medvetenhet. Observera att det här aktiveringssteget inte lindrar kundens juridiska skyldigheter för att säkerställa att det har fått alla nödvändiga behörigheter och medgivanden från sina användare för bearbetning, kvarhållning och avsedd användning av talarsignaturer som skapats.
Begränsa antalet kandidater för talaridentifiering: API för talaridentifiering kan bara ta upp till 50 kandidater att jämföra talindata med i ett API-anrop.
Juridiska och regelmässiga överväganden: Organisationer måste utvärdera potentiella specifika juridiska och regelmässiga skyldigheter när de använder AI-tjänster och lösningar, vilket kanske inte är lämpligt för användning i alla branscher eller scenarion. Dessutom är AI-tjänster eller lösningar inte utformade för och får inte användas på sätt som är förbjudna i tillämpliga användningsvillkor och relevanta uppförandekoder.

Dela via