Speaker Recognition

Az Azure AI Services – Speech Service beszélőfelismerés olyan algoritmusokat biztosít, amelyek egyedi hangjellemzőik alapján ellenőrzik és azonosítják a beszélőket. A Speaker Recognition a "ki beszél?" kérdés megválaszolására szolgál. További információk.

A hang egyedi jellemzőkkel rendelkezik, amelyek egy adott személyhez társíthatók. A Speaker Recognition technológiák két fő alkalmazásához biztosítjuk a Speaker Verification API-kat és a Speaker Identification API-kat.

Beszélő-ellenőrzés

A beszélő ellenőrzése lehet szövegfüggő vagy szövegfüggetlen. A szövegfüggő ellenőrzés azt jelenti, hogy a beszélőknek ugyanazt a jelszót kell választaniuk, amelyet a regisztrációs és ellenőrzési fázisokban is használniuk kell. A beszédtartalom és a hangaláírás ellenőrzése többtényezős ellenőrzési forgatókönyvet tesz lehetővé; A szövegfüggetlen ellenőrzés azt jelenti, hogy a beszélők mindennapi nyelven beszélnek a regisztrációs és ellenőrző kifejezésekben.

Szövegfüggő beszélő ellenőrzése

A beszélőregisztrációs fázisban a rendszer rögzíti a beszélő hangját egy előre definiált kifejezéskészletből származó jelszóval. A hangfunkciókat a rendszer kinyeri a hangfelvételből, hogy egyedi hangaláírást hozzon létre, miközben a kiválasztott jelszó felismerhető. A hangaláírás és a jelszó együttesen a beszélő ellenőrzésére szolgál.

Az ellenőrzési fázisban a rendszer elküldi az ellenőrizni kívánt személyhez társított azonosítót a beszélő-ellenőrzési API-nak. A beszélő-ellenőrző szolgáltatás kinyeri a hangfunkciókat és a jelszót a bemeneti beszédrögzítésből. Ezután összehasonlítja a hangfunkciókat és a jelszót a megfelelő beszélő regisztrációs profiljával.

A válasz "Elfogadás" vagy "Elutasítás" értéket ad vissza 0 és 1 közötti hasonlósági pontszámmal. Az "Elfogadás" vagy az "Elutasítás" válasz a beszélő-ellenőrzési és a beszédfelismerési eredményt kombináló eredmény, míg a hasonlósági pontszám csak a hang hasonlóságát méri. "Elfogadás" értéket adunk vissza, ha a beszédfelismerés eredménye megegyezik a regisztrációs kifejezéssel, és a hang hasonlósági pontszáma nagyobb vagy egyenlő 0,5-gyel. Az eredményt azonban a forgatókönyv és a használt egyéb ellenőrzési tényezők alapján kell meghatározni. Javasoljuk, hogy kísérletezzen a saját adataival, és határozza meg a küszöbértéket, hogy szükség szerint felülbírálja az "Elfogadás" vagy az "Elutasítás" válaszokat.

A szövegfüggő beszélő-ellenőrzési API jelenlegi verziójában 10 angol nyelvű kifejezést adunk meg a beszélőknek.

  • Olyan ajánlatot fogok tenni neki, amit nem tagadhat meg.
  • Houstonban volt egy probléma.
  • A hangom az útlevelem.
  • Az almalé íze vicces a fogkrém után.
  • Jelszó nélkül is be tud jutni.
  • Most már aktiválhatja a biztonsági rendszert.
  • A hangom erősebb, mint a jelszavak.
  • A jelszavam nem az Ön feladata.
  • A nevem ismeretlen.
  • Legyen önmaga, mindenki más már el van kapcsolva"

Létrehozhat saját jelszót, ha külön kéréseket küld a szövegfüggetlen beszélő-ellenőrzési API-nak és a beszédfelismerési API-nak. A beszélő-ellenőrzési eredmény és a beszédfelismerés eredményének kombinálásával meghatározhatja a beszélő identitását.

Az API-k nem arra szolgálnak, hogy megállapítsák, hogy a hang élő személytől származik-e, vagy egy regisztrált hangszóró utánzatából vagy felvételéből származik. A visszajátszási támadások megelőzése érdekében hatékonynak tekinthető, ha véletlenszerű kifejezéseket hoz létre a beszélő számára az olvasáshoz.

Szövegfüggetlen beszélő ellenőrzése

A beszélő-ellenőrzés szövegfüggetlen is lehet, ami azt jelenti, hogy nincs korlátozás arra, hogy a beszélő mit mond a hangban.

A regisztrációs fázisban a hangfunkciók kinyerése a beszélő hangjából egyedi hangaláírást hoz létre.

Az ellenőrzési fázisban a rendszer elküldi az ellenőrizni kívánt személyhez tartozó hangot és azonosítót a beszélő-ellenőrzési API-nak. A beszélő-ellenőrző szolgáltatás kinyeri a hangfunkciókat a bemeneti beszédrögzítésből. Ezután összehasonlítja a hangfunkciókat a megfelelő beszélő regisztrációs profiljában lévő hangaláírással.

A válasz "Elfogadás" vagy "Elutasítás" értéket ad vissza 0 és 1 közötti hasonlósági pontszámmal. Az "Elfogadás" válasz akkor lesz visszaadva, ha a hasonlósági pontszám nagyobb vagy egyenlő 0,5-ös értékkel. Az eredményt azonban a forgatókönyv és a használt egyéb ellenőrzési tényezők alapján kell meghatározni. Javasoljuk, hogy kísérletezzen a saját adataival, és határozza meg a küszöbértéket, hogy szükség szerint felülbírálja az "Elfogadás" vagy az "Elutasítás" választ.

Az API-k nem arra szolgálnak, hogy megállapítsák, hogy a hang élő személytől származik-e, vagy egy regisztrált hangszóró utánzatából vagy felvételéből származik.

Beszélőazonosítás

A beszélőazonosítás feladata egy ismeretlen hang identitásának meghatározása a jelölt beszélők körében. A Speaker Identification API a "legjobb találatok" listáját adja vissza az azonosítók megadott listájához viszonyított hasonlósági pontszámok alapján. A Speaker Identification API szövegfüggetlen, mivel nem hasonlítja össze a regisztráció és a felismerés során elhangzottakat.

Szövegfüggetlen beszélőazonosítás

A beszélőazonosításba történő regisztráció szövegfüggetlen, ami azt jelenti, hogy nincsenek korlátozások arra vonatkozóan, mit mond a beszélő a hanganyagban. Nincs szükség jelszóra. A regisztrációs fázisban a rendszer rögzíti a beszélő hangját, és kinyeri a hangfunkciókat, hogy egyedi hangaláírást hozzon létre.

Az azonosítási fázisban a beszélőazonosítási szolgáltatás kinyeri a hangfunkciókat a bemeneti beszédrögzítésből. Ezután összehasonlítja a funkciókat a megadott beszélőlista regisztrációs adataiban szereplő hangaláírásokkal (kérésenként legfeljebb 50 jelölt előadó). A válasz tartalmazott egy azonosított azonosítót és öt rangsorolt azonosítót, amelyek hasonlósági pontszáma 0 és 1 között volt. Az azonosított azonosító a legjobban megfelelt beszélő hasonlósági pontszáma alapján van meghatározva. Ha a jelölt előadók egyike sem ad vissza 0,5-nél nagyobb vagy egyenlő hasonlósági pontszámot, a válasz egy nulla sztringet ad vissza, amely azt jelzi, hogy "nem található egyezés". Az eredményt azonban a forgatókönyv és a használt egyéb tényezők alapján kell meghatározni. Javasoljuk, hogy kísérletezzen az adataival, és határozza meg a küszöbértéket, hogy szükség szerint felülbírálja az alapértelmezett "egyezést vagy nincs egyezést".

Az API-k nem arra szolgálnak, hogy megállapítsák, hogy a hang élő személytől származik-e, vagy egy regisztrált hangszóró utánzatából vagy felvételéből származik.

Lásd még: