Rozpoznawanie osoby mówiącej

Artykuł
03/06/2024

Usługi Azure AI Services — rozpoznawanie osoby mówiącej usługi Mowa udostępniają algorytmy weryfikujące i identyfikujące osoby mówiące o ich unikatowych cechach głosowych. Rozpoznawanie osoby mówiącej służy do odpowiadania na pytanie "kto mówi?". Dowiedz się więcej.

Głos ma unikatowe cechy, które mogą być skojarzone z osobą. Udostępniamy interfejsy API weryfikacji osoby mówiącej i interfejsy API identyfikacji osoby mówiącej dla dwóch głównych aplikacji technologii rozpoznawania osoby mówiącej.

Weryfikacja osoby mówiącej

Weryfikacja osoby mówiącej może być zależna od tekstu lub niezależnego od tekstu. Weryfikacja zależna od tekstu oznacza, że osoby mówiące muszą wybrać to samo hasło do użycia zarówno w fazach rejestracji, jak i weryfikacji. Weryfikacja zawartości mowy i podpisu głosowego ułatwia scenariusz weryfikacji wieloskładnikowej; Weryfikacja niezależna od tekstu oznacza, że osoby mówiące mogą mówić w codziennym języku w frazach rejestracji i weryfikacji.

Weryfikacja osoby mówiącej zależna od tekstu

W fazie rejestracji osoby mówiącej głos osoby mówiącej jest rejestrowany przez powiedzenie hasła z zestawu wstępnie zdefiniowanych fraz. Funkcje głosowe są wyodrębniane z nagrania audio w celu utworzenia unikatowego podpisu głosowego, gdy wybrane hasło jest rozpoznawane. Razem podpis głosowy i hasło będą używane do weryfikowania osoby mówiącej.

W fazie weryfikacji identyfikator skojarzony z osobą do zweryfikowania jest wysyłany do interfejsu API weryfikacji osoby mówiącej. Usługa weryfikacji osoby mówiącej wyodrębnia funkcje głosowe i hasło z nagrania mowy wejściowej. Następnie porównuje funkcje głosowe i hasło z profilem rejestracji odpowiedniego osoby mówiącej.

Odpowiedź zwraca wartość "Accept" lub "Reject" z wynikiem podobieństwa od 0 do 1. Odpowiedź "Akceptuj" lub "Odrzuć" jest wynikiem połączenia zarówno wyniku weryfikacji osoby mówiącej, jak i wyniku rozpoznawania mowy, a wynik podobieństwa mierzy tylko podobieństwo głosu. Zwracamy wartość "Accept", gdy wynik rozpoznawania mowy jest zgodny z frazą rejestracji, a wynik podobieństwa głosu jest większy lub równy 0,5. Jednak wynik powinien być określany na podstawie scenariusza i innych czynników weryfikacji, które są używane. Zalecamy eksperymentowanie na własnych danych i określenie progu, aby zastąpić odpowiedzi "Akceptuj" lub "Odrzuć" odpowiednio.

W bieżącej wersji interfejsu API weryfikacji osoby mówiącej zależnej od tekstu udostępniamy 10 fraz w języku angielskim dla osób mówiących do wyboru.

Mam zamiar złożyć mu ofertę, której nie może odmówić.
Houston mieliśmy problem.
Mój głos to mój paszport zweryfikować mnie.
Sok jabłkowy smakuje śmiesznie po pastie do zębów.
Możesz dostać się bez hasła.
Teraz można aktywować system zabezpieczeń.
Mój głos jest silniejszy niż hasła.
Moje hasło nie jest Twoją firmą.
Moje imię nie jest dla Ciebie znane.
Bądź sobą wszyscy inni są już podjęte"

Możesz utworzyć własne hasła, wysyłając oddzielne żądania do interfejsu API weryfikacji osoby mówiącej niezależnej od tekstu i interfejsu API zamiany mowy na tekst. Łącząc wynik weryfikacji osoby mówiącej i wynik rozpoznawania mowy, można określić tożsamość osoby mówiącej.

Interfejsy API nie są przeznaczone do określenia, czy dźwięk pochodzi od osoby na żywo, czy imitacji, czy nagrania zarejestrowanego osoby mówiącej. Generowanie losowych fraz dla osoby mówiącej do odczytu jest uznawane za skuteczne, aby zapobiec atakom powtarzania.

Weryfikacja osoby mówiącej niezależnej od tekstu

Weryfikacja osoby mówiącej może być również niezależna od tekstu, co oznacza, że nie ma żadnych ograniczeń dotyczących tego, co mówi głośnik w dźwięku.

W fazie rejestracji funkcje głosowe są wyodrębniane z dźwięku osoby mówiącej w celu utworzenia unikatowego podpisu głosowego.

W fazie weryfikacji dźwięk i identyfikator skojarzony z osobą, która ma zostać zweryfikowana, są wysyłane do interfejsu API weryfikacji osoby mówiącej. Usługa weryfikacji osoby mówiącej wyodrębnia funkcje głosowe z nagrania mowy wejściowej. Następnie porównuje funkcje głosowe z podpisem głosowym w profilu rejestracji odpowiedniego osoby mówiącej.

Odpowiedź zwraca wartość "Accept" lub "Reject" z wynikiem podobieństwa od 0 do 1. Odpowiedź "Akceptuj" jest zwracana, gdy wynik podobieństwa jest większy lub równy 0,5. Jednak wynik powinien być określany na podstawie scenariusza i innych czynników weryfikacji, które są używane. Zalecamy eksperymentowanie na własnych danych i określenie progu, aby zastąpić odpowiednio odpowiedź "Akceptuj" lub "Odrzuć".

Interfejsy API nie są przeznaczone do określenia, czy dźwięk pochodzi od osoby na żywo, czy imitacji, czy nagrania zarejestrowanego osoby mówiącej.

Identyfikacja osoby mówiącej

Identyfikacja osoby mówiącej to zadanie określania tożsamości nieznanego głosu wśród zestawu kandydatów mówiących. Interfejs API identyfikacji osoby mówiącej zwraca listę "najlepszych dopasowań" na podstawie wyników podobieństwa względem podanej listy identyfikatorów. Interfejs API identyfikacji osoby mówiącej jest niezależny od tekstu, ponieważ nie porównuje tego, co zostało powiedziane podczas rejestracji i rozpoznawania.

Identyfikacja osoby mówiącej niezależnej od tekstu

Rejestracja w celu identyfikacji osoby mówiącej jest niezależna od tekstu, co oznacza, że nie ma żadnych ograniczeń w zakresie słów wypowiadanych przez osobę mówiącą na nagraniu dźwiękowym. Hasło nie jest wymagane. W fazie rejestracji głos osoby mówiącej jest rejestrowany, a funkcje głosowe są wyodrębniane w celu utworzenia unikatowego podpisu głosowego.

W fazie identyfikacji usługa identyfikacji osoby mówiącej wyodrębnia funkcje głosowe z nagrania mowy wejściowej. Następnie porównuje funkcje z podpisami głosowymi w danych rejestracji określonej listy osób mówiących (do 50 kandydatów w każdym żądaniu). Odpowiedź zawierała jeden zidentyfikowany identyfikator i pięć identyfikatorów najwyżej sklasyfikowanych z wynikami podobieństwa od 0 do 1. Zidentyfikowany identyfikator jest określany na podstawie wyniku podobieństwa najlepiej dopasowanego osoby mówiącej. Jeśli żaden z kandydatów prelegentów nie zwraca wyniku podobieństwa o wartości większej lub równej 0,5, odpowiedź zwraca ciąg zero reprezentujący "nie znaleziono dopasowania". Jednak wynik powinien być określany na podstawie scenariusza i innych czynników, które są używane. Zalecamy eksperymentowanie z danymi i określenie progu w celu zastąpienia domyślnego ustawienia "dopasowanie lub brak dopasowania" zgodnie z potrzebami.