Sterowanie funkcją rozpoznawania mowy

Ukończone

W funkcji rozpoznawania mowy, tak samo jak syntezy mowy, dokonano wielu modyfikacji od momentu jej powstania. Może się ona okazać przydatnym, chociaż jeszcze ciągle niedoskonałym narzędziem do tworzenia dostępnego środowiska.

W kilku następnych lekcjach dowiesz się, że:

  • Ogólna funkcja rozpoznawania mowy systemu Windows jest ukierunkowana na dyktowanie. Jest ona przydatna, ale działa wolno podczas wprowadzania obliczeń.
  • Konkretne wystąpienie systemu rozpoznawania głosu może interpretować naturalnie brzmiące dane wejściowe.
  • Sterowanie głosem jest zabawne i pomocne.
  • Kontekst jest niezbędny podczas rozpoznawania mowy. Niektóre słowa brzmią podobnie i można je rozpoznać tylko na podstawie kontekstu.
  • Do działania funkcji rozpoznawania głosu konieczne jest uzyskanie pewnych uprawnień.

Rozpoznawanie mowy

Upewnij się, że masz zestaw słuchawkowy z mikrofonem i głośnikami podłączonymi do komputera deweloperskiego. Testowanie rozpoznawania mowy jest trudne bez próbek mowy do rozpoznania.

Domyślne narzędzie do rozpoznawania mowy w systemie Windows

Zobaczmy, jak narzędzie do rozpoznawania mowy w systemie Windows współpracuje z naszym kalkulatorem bez wprowadzania jakichkolwiek zmian w kodzie.

  1. Na pasku wyszukiwania systemu Windows wpisz „rozpoznawanie mowy”. W wyświetlonym oknie wybierz pozycję Uruchom rozpoznawanie mowy. Powinna zostać wyświetlona mała grafika, która pokazuje, kiedy system rozpoznawania mowy jest włączony lub wyłączony. Wybierz ikonę mikrofonu, aby wyświetlić tekst Nasłuchiwanie.

Windows is listening.

  1. Uruchom kalkulator, upewnij się, że jest na nim ustawiony fokus, i spróbuj wypowiedzieć obliczenia. Zauważ, że liczby muszą być wypowiadane pojedynczo. Liczby 741 nie można wypowiedzieć jako „seven hundred and forty-one” (siedemset czterdzieści jeden), ale trzeba powiedzieć „seven” (siedem), pauza, „four” (cztery), pauza, „one” (jeden). Aby obliczyć wynik, należy powiedzieć „times two” (razy dwa), a następnie „equals” (równa się).

  2. Spróbuj powiedzieć liczbę dziesiętną: "3.14". Zwróć uwagę na to, że cyfry należy wypowiadać powoli, a słowo „point” (przecinek) prawidłowo ustawi miejsce dziesiętne.

  3. System rozpoznawania rozpoznaje ustawione wcześniej wpisy AutomationProperites.Name. Możesz powiedzieć „Sine” (sinus), aby wyzwolić przycisk Sin, „to the power of” (do potęgi), aby wyzwolić przycisk ^ i tak dalej.

  4. Spróbuj zapisać liczby w pamięci kalkulatora (ta opcja jest dostępna, gdy ekran zawiera tylko liczbę). Spróbuj włączyć lub wyłączyć przełączniki, wymawiając tekst nagłówka.

  5. Aby wprowadzić stałe, najpierw powiedz „Show constants” (Pokaż stałe). Następnie, aby wybrać dowolną stałą i dodać ją do obliczenia, powiedz „double-click” (kliknij dwukrotnie) przed słowami, które jednoznacznie identyfikują stałą. Na przykład spróbuj powiedzieć „double-click feet to meters” (kliknij dwukrotnie stopy na metry). Wartość stałej (0,3048) powinna zostać dodana do obliczenia. Czasami w celu poprawnego rozpoznania trzeba wymawiać poszczególne elementy kilka razy.

Uwaga

Jeśli aparat rozpoznawania mowy nie może jednoznacznie określić, o jaki przycisk chodzi osobie mówiącej, ale istnieje bliskie dopasowanie dwóch lub większej liczby przycisków, te przyciski są wyróżniane z przypisanymi do nich numerami i istnieje możliwość wypowiedzenia jednej z tych liczb ze słowem „OK” na końcu.

Zalety i wady standardowej funkcji rozpoznawania mowy najlepiej rozpoznać przez wypróbowanie jej działania. W przypadku niektórych aplikacji może to być wystarczające. Jednak w przypadku kalkulatora można wypowiedzieć bez żadnych pauz całe wyrażenie, takie jak „ile wynosi czterysta pięćdziesiąt cztery podzielić na arcus cosinus liczby zero przecinek sześć sześć”. Oczywiście słowa tego wyrażenia nie pasują do poszczególnych przycisków, więc nie można oczekiwać, że domyślna funkcja rozpoznawania systemu Windows je obsłuży. Jeśli mamy ulepszyć to środowisko, będziemy musieli wymyślić coś pomysłowego.