Co je rozpoznávání mluvčího?

Rozpoznávání mluvčího může pomoct určit, kdo mluví ve zvukovém klipu. Služba může ověřovat a identifikovat mluvčí podle jejich jedinečných hlasových vlastností pomocí hlasové biometrie.

Poskytnete data o zvukovém trénování pro jednoho mluvčího, která vytvoří registrační profil založený na jedinečných vlastnostech hlasu mluvčího. Potom můžete křížově zkontrolovat vzorky zvuku s tímto profilem a ověřit, že mluvčí je stejná osoba (ověření mluvčího). Můžete také křížově zkontrolovat ukázky zvuku se skupinou zaregistrovaných profilů mluvčího a zjistit, jestli odpovídají jakémukoli profilu ve skupině (identifikace mluvčího).

Důležité

Microsoft omezuje přístup k rozpoznávání mluvčího. O přístup můžete požádat prostřednictvím kontroly omezeného přístupu k rozpoznávání mluvčího ve službě Azure Cognitive Services. Další informace najdete v tématu Omezený přístup k rozpoznávání mluvčího.

Ověření mluvčího

Ověření mluvčího zjednodušuje proces ověření identity zaregistrovaného mluvčího pomocí přístupových hesel nebo hlasového vstupu ve volném tvaru. Můžete ho například použít k ověření identity zákazníka v call centrech nebo v bezkontaktním přístupu k zařízením.

Jak funguje ověřování mluvčího?

Následující vývojový diagram poskytuje vizuál, jak to funguje:

Vývojový diagram, který ukazuje, jak funguje ověřování mluvčího.

Ověření mluvčího může být závislé na textu nebo nezávislé na textu. Ověření závislé na textu znamená, že mluvčí musí zvolit stejné heslo, které se má používat během fáze registrace i ověření. Ověření nezávislé na textu znamená, že mluvčí můžou při registraci a ověřovacích frázích mluvit v běžném jazyce.

Pro ověření v závislosti na textu se hlas mluvčího zaregistruje vyslovením hesla ze sady předdefinovaných frází. Hlasové funkce se ze zvukového záznamu extrahují, aby vytvořily jedinečný hlasový podpis, a také se rozpozná zvolené heslo. K ověření mluvčího se společně používá hlasový podpis a heslo.

Ověření nezávislé na textu nemá kromě počáteční aktivační fráze, když je aktivní registrace povolená, žádná omezení toho, co mluvčí během registrace řekne. Nemá žádná omezení pro ukázku zvuku, která se má ověřit, protože extrahuje pouze hlasové funkce, aby bylo možné zjistit podobnost.

Účelem rozhraní API není určit, jestli je zvuk od živé osoby nebo z imitace nebo záznamu zaregistrovaného mluvčího.

Identifikace mluvčího

Identifikace mluvčího vám pomůže určit identitu neznámého mluvčího ve skupině registrovaných mluvčích. Identifikace mluvčího umožňuje přiřazovat řeč jednotlivým mluvčím a odemykat hodnotu ve scénářích s více mluvčími, jako jsou:

  • Podpora řešení pro produktivitu vzdálených schůzek.
  • Vytváření přizpůsobení zařízení pro více uživatelů

Jak funguje identifikace mluvčího?

Registrace pro identifikaci mluvčího je nezávislá na textu. Kromě počáteční aktivační fráze, když je aktivní registrace povolená, neexistují žádná omezení toho, co mluvčí ve zvuku říká. Podobně jako u ověření mluvčího se hlas mluvčího zaznamená ve fázi registrace a hlasové funkce se extrahují, aby vytvořily jedinečný hlasový podpis. Ve fázi identifikace se vstupní hlasový vzorek porovná se zadaným seznamem zaregistrovaných hlasů (až 50 v každé žádosti).

Zabezpečení dat a ochrana osobních údajů

Data registrace mluvčího se ukládají v zabezpečeném systému, včetně hlasového zvuku pro registraci a funkcí hlasového podpisu. Hlasový zvuk pro registraci se používá pouze při upgradu algoritmu a funkce je potřeba znovu extrahovat. Služba nezachová záznam řeči ani extrahované hlasové funkce, které se do služby odesílají během fáze rozpoznávání.

Určujete, jak dlouho se mají data uchovávat. Data registrace pro jednotlivé mluvčí můžete vytvářet, aktualizovat a odstraňovat prostřednictvím volání rozhraní API. Po odstranění předplatného se odstraní také všechna data registrace mluvčího přidružená k předplatnému.

Stejně jako u všech prostředků služeb Cognitive Services musí vývojáři, kteří používají funkci rozpoznávání mluvčího, znát Microsoft zásady týkající se zákaznických dat. Měli byste se ujistit, že jste od uživatelů obdrželi příslušná oprávnění. Další podrobnosti najdete v tématu Data a ochrana osobních údajů pro rozpoznávání mluvčího. Další informace najdete na stránce Cognitive Services v centru zabezpečení Microsoft.

Časté dotazy a řešení

Otázka Řešení
V jakých situacích nejpravděpodobněji použiju rozpoznávání mluvčího? Mezi vhodné příklady patří ověření zákazníků v call centru, hlasové ohlasy pacientů, přepis schůzek a přizpůsobení zařízení s více uživateli.
Jaký je rozdíl mezi identifikací a ověřením? Identifikace je proces zjištění, který člen ze skupiny mluvčích mluví. Ověření je potvrzení, že mluvčí odpovídá známému zaregistrovanému hlasu .
Jaké jazyky jsou podporované? Viz Podpora jazyka rozpoznávání mluvčího.
Které oblasti Azure se podporují? Viz Podpora oblastí rozpoznávání mluvčího.
Jaké jsou podporované zvukové formáty? Mono 16 bitů, 16 kHz s PCM kódováním WAV.
Můžete zaregistrovat jednoho mluvčího vícekrát? Ano, pro ověření závislé na textu můžete zaregistrovat mluvčího až 50krát. Pro ověření nezávislé na textu nebo identifikaci mluvčího se můžete zaregistrovat s až 300 sekundami zvuku.
Jaká data jsou uložená v Azure? Zvuk registrace se ve službě uloží, dokud se hlasový profil nesmadí. Rozpoznávání zvukových ukázek se neuchovávají ani neukládají.

Další kroky