Co to jest rozpoznawanie słów kluczowych?

2025-03-10

Rozpoznawanie słów kluczowych wykrywa wyraz lub krótką frazę w strumieniu dźwięku. Ta technika jest również nazywana wykryciem słowa kluczowego.

Najczęstszym przypadkiem użycia rozpoznawania słów kluczowych jest aktywacja głosowa wirtualnych asystentów. Na przykład "Hej Cortana" jest słowem kluczowym asystenta Cortany. Po rozpoznaniu słowa kluczowego wykonywana jest akcja specyficzna dla scenariusza. W przypadku scenariuszy asystenta wirtualnego typową akcją wynikową jest rozpoznawanie mowy dźwięku zgodnego ze słowem kluczowym.

Ogólnie rzecz biorąc, asystenci wirtualni zawsze nasłuchują. Rozpoznawanie słów kluczowych działa jako granica prywatności dla użytkownika. Wymaganie słowa kluczowego działa jako brama, która uniemożliwia niepowiązane audio użytkownika z przekraczaniem urządzenia lokalnego do chmury.

Aby zrównoważyć dokładność, opóźnienie i złożoność obliczeniową, rozpoznawanie słów kluczowych jest implementowane jako system wieloestowy. Dla wszystkich etapów poza pierwszym, dźwięk jest przetwarzany tylko wtedy, gdy etap przed nim rozpoznaje słowo kluczowe zainteresowania.

Bieżący system został zaprojektowany z wieloma etapami obejmującymi krawędzie i chmurę:

Diagram przedstawiający wiele etapów rozpoznawania słów kluczowych na brzegu i w chmurze.

Dokładność rozpoznawania słów kluczowych jest mierzona za pomocą następujących metryk:

Prawidłowa szybkość akceptowania: mierzy zdolność systemu do rozpoznawania słowa kluczowego mówionego przez użytkownika. Prawidłowa szybkość akceptowania jest również nazywana prawdziwie dodatnią szybkością.
Współczynnik akceptacji fałszu: mierzy zdolność systemu do filtrowania dźwięku, który nie jest słowem kluczowym mówionym przez użytkownika. Współczynnik akceptowania fałszu jest również znany jako współczynnik wyników fałszywie dodatnich.

Celem jest zmaksymalizowanie prawidłowej szybkości akceptowania przy jednoczesnym zminimalizowaniu współczynnika akceptacji fałszu. Bieżący system jest przeznaczony do wykrywania słowa kluczowego lub frazy poprzedzonej krótką ilością ciszy. Wykrywanie słowa kluczowego w środku zdania lub wypowiedzi nie jest obsługiwane.

Niestandardowe słowo kluczowe dla modeli urządzeń

Za pomocą portalu niestandardowego słowa kluczowego w usłudze Speech Studio można wygenerować modele rozpoznawania słów kluczowych, które są wykonywane na krawędzi, określając dowolne słowo lub krótką frazę. Możesz dodatkowo spersonalizować model słów kluczowych, wybierając odpowiednią wymowę.

Cennik

Nie ma kosztów użycia słowa kluczowego niestandardowego do generowania modeli, w tym modeli podstawowych i zaawansowanych. Nie ma również kosztów uruchamiania modeli na urządzeniu z zestawem SPEECH SDK w przypadku użycia z innymi funkcjami usługi Mowa, takimi jak zamiana mowy na tekst.

Typy modeli

Możesz użyć niestandardowego słowa kluczowego, aby wygenerować dwa typy modeli na urządzeniach dla dowolnego słowa kluczowego.

Typ modelu	opis
Basic	Najlepiej nadaje się do celów demonstracyjnych lub szybkich prototypów. Modele są generowane za pomocą wspólnego modelu podstawowego i mogą potrwać do 15 minut. Modele mogą nie mieć optymalnych właściwości dokładności.
Zaawansowany	Najlepiej nadaje się do celów integracji produktów. Modele są generowane przy użyciu adaptacji wspólnego modelu podstawowego przy użyciu symulowanych danych treningowych w celu zwiększenia właściwości dokładności. Przygotowanie modeli może potrwać do 48 godzin.

Uwaga

Listę regionów obsługujących typ modelu Zaawansowane można wyświetlić w dokumentacji obsługi regionów rozpoznawania słów kluczowych.

Żaden typ modelu nie wymaga przekazania danych treningowych. Niestandardowe słowo kluczowe w pełni obsługuje generowanie danych i trenowanie modelu.

Wymowy

Podczas tworzenia nowego modelu słowo kluczowe niestandardowe automatycznie generuje możliwe wymowy podanego słowa kluczowego. Możesz słuchać każdej wymowy i wybierać wszystkie odmiany, które ściśle reprezentują sposób, w jaki użytkownicy będą mówić słowo kluczowe. Nie należy wybierać wszystkich innych wymow.

Ważne jest, aby celowo poznać wymowę wybraną w celu zapewnienia najlepszej charakterystyki dokładności. Jeśli na przykład wybierzesz więcej wymowy niż potrzebujesz, możesz uzyskać wyższe fałszywe stawki akceptacji. Jeśli wybierzesz zbyt mało wymowy, gdzie nie wszystkie oczekiwane odmiany są objęte, możesz uzyskać niższe poprawne stawki akceptacji.

Testowanie modeli

Gdy niestandardowe słowo kluczowe generuje modele na urządzeniach, modele można testować bezpośrednio w portalu. Możesz użyć portalu, aby bezpośrednio mówić do przeglądarki i uzyskać wyniki rozpoznawania słów kluczowych.

Weryfikacja słowa kluczowego

Weryfikacja słowa kluczowego to usługa w chmurze, która zmniejsza wpływ fałszywych akceptacji z modeli na urządzeniach z niezawodnymi modelami działającymi na platformie Azure. Dostrajanie lub trenowanie nie jest wymagane, aby weryfikacja słowa kluczowego działała ze słowem kluczowym. Aktualizacje modelu przyrostowego są stale wdrażane w usłudze w celu zwiększenia dokładności i opóźnień oraz są niewidoczne dla aplikacji klienckich.

Cennik

Weryfikacja słowa kluczowego jest zawsze używana w połączeniu z zamianą mowy na tekst. Nie ma kosztów używania weryfikacji słowa kluczowego poza kosztem zamiany mowy na tekst.

Weryfikacja słowa kluczowego i zamiana mowy na tekst

Gdy jest używana weryfikacja słowa kluczowego, zawsze jest ona w połączeniu z zamianą mowy na tekst. Obie usługi działają równolegle, co oznacza, że dźwięk jest wysyłany do obu usług w celu jednoczesnego przetwarzania.

Diagram przedstawiający równoległe przetwarzanie weryfikacji słowa kluczowego i zamiany mowy na tekst.

Uruchamianie weryfikacji słowa kluczowego i zamiany mowy na tekst równolegle daje następujące korzyści:

Brak innych opóźnień w wyniku zamiany mowy na tekst: Wykonywanie równoległe oznacza, że weryfikacja słowa kluczowego nie dodaje żadnych opóźnień. Klient odbiera mowę do wyników tekstowych tak szybko. Jeśli weryfikacja słowa kluczowego określa, że słowo kluczowe nie było obecne w dźwięku, przetwarzanie mowy na tekst zostanie zakończone. Ta akcja chroni przed niepotrzebnym przetwarzaniem mowy na tekst. Przetwarzanie modelu sieci i chmury zwiększa opóźnienie aktywacji głosowej postrzeganej przez użytkownika. Aby uzyskać więcej informacji, zobacz Zalecenia i wytyczne.
Wymuszony prefiks słowa kluczowego w wyniku zamiany mowy na tekst: przetwarzanie mowy na tekst gwarantuje, że wyniki wysyłane do klienta są poprzedzone słowem kluczowym. To zachowanie umożliwia zwiększenie dokładności w zamiany mowy na wyniki zamiany tekstu na mowę, która jest zgodna ze słowem kluczowym.
Zwiększony limit czasu mowy na tekst: ze względu na oczekiwaną obecność słowa kluczowego na początku dźwięku, zamiana mowy na tekst umożliwia dłuższą przerwę do pięciu sekund po słowie kluczowym przed określeniem końca mowy i przerywa przetwarzanie mowy na tekst. To zachowanie gwarantuje, że środowisko użytkownika jest poprawnie obsługiwane dla poleceń przygotowanych (>< wstrzymania><słowa kluczowego>) i poleceń łańcuchowych (< kluczowe).>

Odpowiedź na weryfikację słowa kluczowego i zagadnienia dotyczące opóźnień

W przypadku każdego żądania do usługi weryfikacja słowa kluczowego zwraca jedną z dwóch odpowiedzi: zaakceptowaną lub odrzuconą. Opóźnienie przetwarzania różni się w zależności od długości słowa kluczowego i długości segmentu audio, który powinien zawierać słowo kluczowe. Opóźnienie przetwarzania nie obejmuje kosztów sieci między klientem a usługami rozpoznawania mowy.

Odpowiedź na weryfikację słowa kluczowego	opis
Zaakceptowano	Wskazuje, że usługa uważa, że słowo kluczowe było obecne w strumieniu audio podanym w ramach żądania.
Odrzucona	Wskazuje, że usługa uważa, że słowo kluczowe nie było obecne w strumieniu audio podanym w ramach żądania.

Odrzucone przypadki często dają większe opóźnienia, ponieważ usługa przetwarza więcej dźwięku niż zaakceptowane przypadki. Domyślnie weryfikacja słowa kluczowego przetwarza maksymalnie dwie sekundy dźwięku w celu wyszukania słowa kluczowego. Jeśli słowo kluczowe nie zostanie znalezione w ciągu dwóch sekund, usługa przekroczyła limit czasu i zasygnalizowała odrzuconą odpowiedź na klienta.

Używanie weryfikacji słowa kluczowego z modelami na urządzeniach z niestandardowego słowa kluczowego

Zestaw SPEECH SDK umożliwia bezproblemowe korzystanie z modeli na urządzeniach generowanych przy użyciu niestandardowego słowa kluczowego z weryfikacją słowa kluczowego i zamianą mowy na tekst. W sposób niewidoczny obsługuje:

Audio gating to keyword verification and speech recognition based the result of an on-device model (Audio gating to keyword verification and speech recognition based the result of an on-device model).
Komunikacja słowa kluczowego z weryfikacją słowa kluczowego.
Komunikowanie kolejnych metadanych z chmurą w celu organizowania kompleksowego scenariusza.

Nie trzeba jawnie określać żadnych parametrów konfiguracji. Wszystkie niezbędne informacje są automatycznie wyodrębniane z modelu urządzenia wygenerowanego przez niestandardowe słowo kluczowe.

Integracja i scenariusze zestawu SPEECH SDK

Zestaw SPEECH SDK umożliwia łatwe korzystanie z spersonalizowanych modeli rozpoznawania słów kluczowych na urządzeniu generowanych przy użyciu niestandardowego słowa kluczowego i weryfikacji słowa kluczowego. Aby upewnić się, że wymagania dotyczące produktu mogą być spełnione, zestaw SDK obsługuje następujące dwa scenariusze:

Scenariusz rozpoznawania słów kluczowych w trybie offline najlepiej nadaje się dla produktów bez łączności sieciowej, które używają dostosowanego modelu słowa kluczowego na urządzeniu z niestandardowego słowa kluczowego.

Udostępnij za pośrednictwem

Co to jest rozpoznawanie słów kluczowych?

Niestandardowe słowo kluczowe dla modeli urządzeń

Cennik

Typy modeli

Wymowy

Testowanie modeli

Weryfikacja słowa kluczowego

Cennik

Weryfikacja słowa kluczowego i zamiana mowy na tekst

Odpowiedź na weryfikację słowa kluczowego i zagadnienia dotyczące opóźnień

Używanie weryfikacji słowa kluczowego z modelami na urządzeniach z niestandardowego słowa kluczowego

Integracja i scenariusze zestawu SPEECH SDK

Powiązana zawartość

Opinia

Dodatkowe zasoby