Rozpoznávání mluvčího

Služba Azure AI Services – Rozpoznávání mluvčího služby Speech poskytuje algoritmy, které ověřují a identifikují mluvčí na základě jejich jedinečných hlasových charakteristik. Rozpoznávání mluvčího se používá k zodpovězení otázky "kdo mluví?". Další informace.

Hlas má jedinečné vlastnosti, které se dají spojit s jednotlivcem. Poskytujeme rozhraní API pro ověření mluvčího a rozhraní API pro identifikaci mluvčího pro dvě hlavní aplikace technologií rozpoznávání mluvčího.

Ověření mluvčího

Ověření mluvčího může být závislé na textu nebo nezávislé na textu. Ověření závislé na textu znamená, že mluvčí musí zvolit stejné heslo, které se má použít ve fázi registrace i ověřování. Ověření hlasového obsahu i hlasového podpisu usnadňuje scénář vícefaktorového ověřování; Ověření nezávislé na textu znamená, že mluvčí můžou mluvit běžným jazykem v registračních a ověřovacích frázích.

Ověření mluvčího závislého na textu

Ve fázi registrace mluvčího se hlas mluvčího zaznamená vyslovením přístupové fráze ze sady předdefinovaných frází. Hlasové funkce se extrahují ze zvukového záznamu, aby vytvořily jedinečný hlasový podpis, zatímco se zvolené heslo rozpozná. K ověření mluvčího se společně použije hlasový podpis a přístupové heslo.

Ve fázi ověřování se ID přidružené k osobě, která má být ověřena, odešle do rozhraní API pro ověření mluvčího. Služba ověření mluvčího extrahuje hlasové funkce a přístupové heslo ze vstupního záznamu řeči. Potom porovná hlasové funkce a přístupové heslo s registračním profilem odpovídajícího mluvčího.

Odpověď vrátí "Přijmout" nebo "Odmítnout" se skóre podobnosti v rozsahu od 0 do 1. Odpověď Přijmout nebo Odmítnout je výsledek kombinující výsledek ověření mluvčího a výsledek rozpoznávání řeči, zatímco skóre podobnosti měří pouze podobnost hlasu. "Přijmout" vrátíme, pokud výsledek rozpoznávání řeči odpovídá frázi registrace a skóre podobnosti hlasu je větší nebo rovno 0,5. Výsledek by ale měl být určen na základě scénáře a dalších používaných ověřovacích faktorů. Doporučujeme experimentovat s vlastními daty a určit prahovou hodnotu, která podle potřeby přepíše odpovědi Přijmout nebo Odmítnout.

V aktuální verzi rozhraní API pro ověření mluvčího závislého na textu poskytujeme 10 anglických frází, ze které si mohou mluvčí vybrat.

  • Udělám mu nabídku, kterou nemůže odmítnout.
  • Houston, měli jsme problém.
  • Můj hlas je můj pas.
  • Jablečný džus chutná legrační po zubní pastě.
  • Můžete se do služby dostat bez hesla.
  • Teď můžete aktivovat systém zabezpečení.
  • Můj hlas je silnější než hesla.
  • Moje heslo není vaše věc.
  • Moje jméno je pro vás neznámé.
  • Be yourself everyone else is already taken"

Vlastní přístupová hesla můžete vytvořit odesláním samostatných požadavků do rozhraní API pro ověření mluvčího nezávislého na textu a rozhraní API pro převod řeči na text. Kombinací výsledku ověření mluvčího a výsledku rozpoznávání řeči můžete určit identitu mluvčího.

Účelem rozhraní API není určit, jestli zvuk pochází z živé osoby, z napodobení nebo záznamu registrovaného mluvčího. Generování náhodných frází, které má mluvčí přečíst, se považuje za efektivní, aby se zabránilo opakovaným útokům.

Ověření mluvčího nezávisle na textu

Ověření mluvčího může být také nezávislé na textu, což znamená, že neexistují žádná omezení toho, co mluvčí ve zvuku říká.

Ve fázi registrace se hlasové funkce extrahují ze zvuku mluvčího, aby vytvořily jedinečný hlasový podpis.

Ve fázi ověřování se zvuk a ID přidružené k osobě, která má být ověřena, odešlou do rozhraní API pro ověření mluvčího. Služba ověření mluvčího extrahuje hlasové funkce ze vstupního záznamu řeči. Potom porovná hlasové funkce s hlasovým podpisem v registračním profilu odpovídajícího mluvčího.

Odpověď vrátí "Přijmout" nebo "Odmítnout" se skóre podobnosti v rozsahu od 0 do 1. Odpověď Přijmout se vrátí, pokud je skóre podobnosti větší nebo rovno 0,5. Výsledek by ale měl být určen na základě scénáře a dalších používaných ověřovacích faktorů. Doporučujeme experimentovat s vlastními daty a určit prahovou hodnotu, abyste podle potřeby přepsali odpověď Přijmout nebo Odmítnout.

Účelem rozhraní API není určit, jestli zvuk pochází z živé osoby, z napodobení nebo záznamu registrovaného mluvčího.

Identifikace mluvčího

Identifikace mluvčího je úkolem určení identity neznámého hlasu mezi sadou kandidátských mluvčích. Rozhraní API pro identifikaci mluvčího vrátí seznam nejlepších shod na základě skóre podobnosti oproti zadanému seznamu ID. Rozhraní API pro identifikaci mluvčího je nezávislé na textu, protože nesrovnává, co bylo řečeno při registraci a rozpoznávání.

Identifikace mluvčího nezávislá na textu

Registrace identifikace mluvčího je na textu nezávislá, což znamená, že neexistují žádná omezení, co může mluvčí říct. Není vyžadováno žádné heslo. Ve fázi registrace se zaznamená hlas mluvčího a hlasové funkce se extrahují, aby vytvořily jedinečný hlasový podpis.

Ve fázi identifikace služba identifikace mluvčího extrahuje hlasové funkce ze vstupního záznamu řeči. Potom porovná funkce s hlasovými podpisy v datech registrace zadaného seznamu mluvčích (až 50 kandidátských mluvčích v každé žádosti). Odpověď obsahovala jedno identifikované ID a pět ID s nejvyšším hodnocením se skóre podobnosti v rozsahu od 0 do 1. Identifikované ID se určuje na základě skóre podobnosti nejlépe spárovaného mluvčího. Pokud žádný z kandidátských mluvčích nevrátí skóre podobnosti větší nebo rovno 0,5, vrátí odpověď řetězec nuly, který představuje "nebyla nalezena žádná shoda". Výsledek by však měl být určen na základě vašeho scénáře a dalších faktorů, které se používají. Doporučujeme experimentovat s daty a určit prahovou hodnotu, abyste podle potřeby přepsali výchozí hodnotu "shoda nebo žádná shoda".

Účelem rozhraní API není určit, jestli zvuk pochází z živé osoby, z napodobení nebo záznamu registrovaného mluvčího.

Viz také