Mi az a beszélőfelismerés?

A beszélőfelismerés segíthet meghatározni, hogy ki beszél egy hangklipben. A szolgáltatás a hang biometriával ellenőrizheti és azonosíthatja a hangszórókat egyedi hangtulajdonságuk alapján.

Egyetlen hangszóróhoz biztosít hangbetanítási adatokat, amelyek a beszélő hangjának egyedi jellemzői alapján létrehoznak egy regisztrációs profilt. Ezután keresztellenőrzéssel ellenőrizheti a hanghangmintákat ezen a profilon annak ellenőrzéséhez, hogy a beszélő ugyanaz a személy-e (beszélő-ellenőrzés). A hanghangmintákat a regisztrált beszélőprofilok egy csoportján is ellenőrizheti, hogy az megfelel-e a csoport bármely profiljának (beszélőazonosítás).

Fontos

A Microsoft korlátozza a beszélőfelismeréshez való hozzáférést. A hozzáférésre az Azure AI-szolgáltatások beszélőfelismerési korlátozott hozzáférés-felülvizsgálatával jelentkezhet. További információ: Korlátozott hozzáférés a beszélőfelismeréshez.

Beszélő azonosítása

A beszélő-ellenőrzés leegyszerűsíti a regisztrált beszélőidentitások hitelesítő adatokkal vagy szabad formátumú hangbemenettel történő ellenőrzésének folyamatát. Használhatja például az ügyfélidentitás-ellenőrzéshez a call centerekben vagy az érintésmentes létesítményben.

Hogyan működik a beszélő-ellenőrzés?

Az alábbi folyamatábra vizualizációt nyújt ennek működéséről:

Flowchart that shows how speaker verification works.

A beszélő ellenőrzése lehet szövegfüggő vagy szövegfüggetlen. A szövegfüggő ellenőrzés azt jelenti, hogy a beszélőknek ugyanazt a jelszót kell választaniuk, amelyet a regisztrációs és ellenőrzési fázisokban is használni kell. A szövegfüggetlen ellenőrzés azt jelenti, hogy a beszélők mindennapi nyelven beszélnek a regisztrációs és ellenőrzési kifejezésekben.

A szövegfüggő ellenőrzéshez a beszélő hangját egy előre definiált kifejezéskészletből származó jelszóval regisztrálja a rendszer. A hangfunkciók a hangrögzítésből kinyerve egyedi hangaláírást alkotnak, és a választott jelszó is felismerhető. A hangaláírás és a jelszó együttesen a beszélő ellenőrzésére szolgál.

A szövegfüggetlen ellenőrzés nem korlátozza, hogy a beszélő mit mond a regisztráció során, a kezdeti aktiválási kifejezésen kívül, amikor az aktív regisztráció engedélyezve van. Nincs korlátozás az ellenőrizendő hangmintára, mert csak a hangfunkciókat nyeri ki a hasonlóság pontszáma érdekében.

Az API-k nem arra szolgálnak, hogy megállapítsák, hogy a hang élő személytől származik-e, vagy egy regisztrált beszélő utánzásából vagy felvételéből származik.

Beszélőazonosítás

A beszélőazonosítás segít meghatározni egy ismeretlen beszélő identitását a regisztrált beszélők egy csoportján belül. A beszélőazonosítás lehetővé teszi, hogy a beszédet az egyes beszélőkhöz rendelje, és feloldja a több hangszóróval rendelkező forgatókönyvek értékét, például:

  • Támogató megoldások a távoli értekezletek termelékenységéhez.
  • Többfelhasználós eszköz személyre szabása.

Hogyan működik a beszélőazonosítás?

A beszélőazonosítás regisztrációja szövegfüggetlen. Az aktív regisztráció engedélyezésekor a kezdeti aktiválási kifejezésen kívül nincs korlátozás arra, hogy az előadó mit mond a hangban. Az előadói ellenőrzéshez hasonlóan a rendszer a regisztrációs fázisban rögzíti a beszélő hangját, és a hangfunkciók kinyerése egyedi hangaláírást hoz létre. Az azonosítási fázisban a bemeneti hangmintát összehasonlítjuk a regisztrált hangok megadott listájával (minden kérelemben legfeljebb 50).

Adatbiztonság és adatvédelem

A beszélőregisztrációs adatokat egy biztonságos rendszerben tárolja a rendszer, beleértve a regisztrációhoz használt beszédhangot és a hangaláírási funkciókat. A regisztrációhoz használt beszédhangot csak az algoritmus frissítésekor használják, és a funkciókat újra ki kell nyerni. A szolgáltatás nem őrzi meg a beszédrögzítést vagy a szolgáltatásnak a felismerés során küldött kinyert hangfunkciókat.

Ön határozza meg, hogy mennyi ideig őrizze meg az adatokat. Az egyes előadók regisztrációs adatait API-hívásokon keresztül hozhatja létre, frissítheti és törölheti. Az előfizetés törlésekor az előfizetéshez társított összes beszélőregisztrációs adat is törlődik.

Az Azure AI-szolgáltatások összes erőforrásához hasonlóan a beszélőfelismerési funkciót használó fejlesztőknek is tisztában kell lenniük a Microsoft ügyféladatokra vonatkozó szabályzataival. Győződjön meg arról, hogy megkapta a megfelelő engedélyeket a felhasználóktól. További részleteket az Adatok és az adatvédelem a beszélőfelismeréshez című témakörben talál. További információkért tekintse meg az Azure AI-szolgáltatások oldalát a Microsoft Adatvédelmi központban.

Gyakori kérdések és megoldások

Kérdés Megoldás
Milyen helyzetekben használom a legnagyobb valószínűséggel a beszélőfelismerést? Jó példa lehet például a call center ügyfél-ellenőrzése, a hangalapú páciensek bejelentkezése, az értekezlet átírása és a többfelhasználós eszközök személyre szabása.
Mi a különbség az azonosítás és az ellenőrzés között? Az azonosítás az a folyamat, amely azt észleli, hogy egy előadócsoport melyik tagja beszél. Az ellenőrzés annak ellenőrzésére szolgál, hogy egy beszélő egy ismert, regisztrált hangnak felel-e meg .
Milyen nyelvek támogatottak? Lásd: Beszélőfelismerési nyelv támogatása.
Mely Azure-régiók támogatottak? Lásd: Beszélőfelismerési régió támogatása.
Melyek a támogatott hangformátumok? Mono 16 bites, 16 kHz PCM-kódolású WAV.
Regisztrálhat egy beszélőt többször is? Igen, a szövegfüggő ellenőrzéshez akár 50-szer is regisztrálhat beszélőt. A szövegfüggetlen ellenőrzéshez vagy a beszélő azonosításához akár 300 másodpercnyi hanggal is regisztrálhat.
Milyen adatokat tárol az Azure? A regisztrációs hang a szolgáltatásban lesz tárolva, amíg a hangprofil nem törlődik. A felismerési hangmintákat a rendszer nem őrzi meg és nem tárolja.

Felelős AI

Az AI-rendszerek nem csak a technológiát, hanem az azt használó személyeket, az érintett személyeket és az üzembe helyezett környezetet is magukban foglalják. Az átláthatósági megjegyzésekből megtudhatja, hogyan használhatja a mesterséges intelligenciát és üzembe helyezést a rendszerekben.

Következő lépések