Wprowadzanie danych przy użyciu głosu

Voice input

Głos jest jedną z kluczowych form danych wejściowych w HoloLens. Umożliwia bezpośrednie polecenie hologramu bez konieczności używania gestów dłoni. Wprowadzanie głosu może być naturalnym sposobem komunikowania intencji. Głos jest szczególnie dobry w przechodzeniu przez złożone interfejsy, ponieważ umożliwia użytkownikom wycinanie zagnieżdżonych menu za pomocą jednego polecenia.

Wprowadzanie głosu jest obsługiwane przez ten sam aparat, który obsługuje mowę we wszystkich aplikacjach Universal Windows Apps. W HoloLens rozpoznawanie mowy będzie zawsze działać w języku wyświetlania Windows skonfigurowanym na urządzeniu Ustawienia.


Głos i spojrzenie

W przypadku korzystania z poleceń głosowych, głowy lub spojrzenia wzrokowego jest typowym mechanizmem określania wartości docelowej, niezależnie od tego, czy za pomocą kursora do wybrania lub skierowania polecenia do aplikacji, na którą patrzysz. Może nawet nie być wymagane, aby pokazać jakikolwiek kursor spojrzenia ("zobacz go, powiedz"). Niektóre polecenia głosowe w ogóle nie wymagają celu, na przykład "przejdź do startu" lub "Hej Cortana".


Obsługa urządzeń

Funkcja HoloLens (1. generacja) HoloLens 2 Immersyjne zestawy nagłowne
Wprowadzanie danych przy użyciu głosu ✔️ ✔️ ✔️ (z mikrofonem)

Polecenie "select"

HoloLens (1. generacja)

Nawet bez dodawania obsługi głosowej do aplikacji użytkownicy mogą aktywować hologramy po prostu, mówiąc systemowe polecenie głosowe "select". Działa to tak samo jak naciśnięcie powietrza na HoloLens, naciśnięcie przycisku zaznaczania na HoloLens kliknięcie lub naciśnięcie wyzwalacza na kontrolerze ruchu Windows Mixed Reality. Usłyszysz dźwięk i zobaczysz etykietkę narzędzia z komunikatem "select" (wybierz). Opcja "Select" jest włączana przez algorytm wykrywania słów kluczowych o niskiej mocy, co oznacza, że można to powiedzieć w dowolnym momencie z minimalnym wpływem na żywotność baterii. Możesz nawet powiedzieć "select" z rękami u boku.



HoloLens 2

Aby użyć polecenia głosowego "select" w HoloLens 2, należy najpierw wyświetlić kursor wzroku, aby użyć go jako wskaźnika. Polecenie, aby go wywołać, jest łatwe do zapamiętania — po prostu powiedz "wybierz".

Aby zamknąć tryb, użyj ponownie rąk, naciskając powietrze, zbliżając się do przycisku palcami lub używając gestu systemowego.

Obraz: Powiedz "select", aby użyć polecenia głosowego do wyboru

A user can say



Hej, Cortana

Możesz powiedzieć "Hej Cortana", aby w dowolnym momencie podnieść Cortana. Nie musisz czekać, aż pojawi się, aby nadal zadać jej pytanie lub dać jej instrukcję. Na przykład spróbuj powiedzieć "Hej Cortana, jaka jest pogoda?" jako jedno zdanie. Aby uzyskać więcej informacji na temat Cortana i tego, co możesz zrobić, zapytaj ją! Powiedz "Hej Cortana, co mogę powiedzieć?" i ona podciągnie listę działających i sugerowanych poleceń. Jeśli jesteś już w aplikacji Cortana, wybierz ikonę ? na pasku bocznym, aby ściągnąć to samo menu.

polecenia specyficzne dla HoloLens

  • "Co mogę powiedzieć?"
  • "Przejdź do menu Start" — zamiast kwitnąć , aby przejść do menu Start
  • "Uruchom <aplikację>"
  • "Przenieś <aplikację> tutaj"
  • "Wykonaj zdjęcie"
  • "Rozpocznij nagrywanie"
  • "Zatrzymaj nagrywanie"
  • "Pokaż promienie ręczne"
  • "Ukryj ray dłoni"
  • "Zwiększ jasność"
  • "Zmniejsz jasność"
  • "Zwiększ wolumin"
  • "Zmniejsz wolumin"
  • "Wycisz" lub "Cofnij wyciszenie"
  • "Zamykanie urządzenia"
  • "Uruchom ponownie urządzenie"
  • "Przejdź do snu"
  • "O której godzinie?"
  • "Ile baterii mam w lewo?"


"Zobacz to, powiedz to"

HoloLens ma model "see it, say it" dla danych wejściowych głosowych, gdzie etykiety na przyciskach informują użytkowników, jakie polecenia głosowe mogą powiedzieć, jak również. Na przykład podczas przeglądania okna aplikacji w HoloLens (1. generacja) użytkownik może powiedzieć polecenie "Dostosuj", aby dostosować położenie aplikacji na świecie.

Obraz: Użytkownik może powiedzieć polecenie "Dostosuj", które widzi na pasku aplikacji, aby dostosować położenie aplikacji

space
When looking at an app window or hologram, a user can say the


Gdy aplikacje są zgodne z tą regułą, użytkownicy mogą łatwo zrozumieć, co należy powiedzieć, aby kontrolować system. Podczas patrzenia na przycisk w HoloLens (1. generacji), zobaczysz etykietkę narzędzia "mieszkającą głosem", która pojawia się po sekundzie, jeśli przycisk jest włączony głosem i wyświetla polecenie, aby mówić do "naciśnij". Aby wyświetlić etykietki narzędzi głosowych w HoloLens 2, pokaż kursor głosowy, mówiąc "select" lub "What can I say" (Zobacz obraz).

Obraz: Polecenia "See it, say it" (Zobacz, powiedzmy) są wyświetlane poniżej przycisków

See it, say it commands appear below the buttons



Polecenia głosowe umożliwiające szybkie manipulowanie hologramem

Istnieje wiele poleceń głosowych, które można powiedzieć podczas patrzenia na hologram, aby szybko wykonywać zadania manipulowania. Te polecenia głosowe działają w oknach aplikacji i obiektach 3D umieszczonych na świecie.

Polecenia manipulowania hologramem

  • Zmierz się ze mną
  • Większe | Zwiększenia
  • Mniejsze

W HoloLens 2 można również utworzyć bardziej naturalne interakcje w połączeniu z spojrzeniem wzrokowym, które niejawnie udostępnia kontekstowe informacje o tym, co się do nich odwołujesz. Możesz na przykład przyjrzeć się hologramowi i powiedzieć "put this", a następnie przyjrzeć się miejscu, w którym chcesz go umieścić i powiedzieć "over here". Możesz też przyjrzeć się części holograficznej na złożonej maszynie i powiedzieć: "Daj mi więcej informacji na ten temat".

Odnajdywanie poleceń głosowych

Niektóre polecenia, takie jak polecenia umożliwiające szybką manipulację powyżej, mogą być ukryte. Aby dowiedzieć się, jakich poleceń można użyć, spójrz na obiekt i powiedz: "Co mogę powiedzieć?". Zostanie wyświetlona lista możliwych poleceń. Możesz również użyć kursora wzroku głowy, aby rozejrzeć się i wyświetlić etykietki narzędzi głosowych dla każdego przycisku przed tobą.

Jeśli chcesz mieć pełną listę, po prostu powiedz "Pokaż wszystkie polecenia" w dowolnym momencie.

Dyktowania

Zamiast wpisywać naciśnięcia powietrza, dyktowanie głosowe może być bardziej wydajne, aby wprowadzić tekst do aplikacji. Może to znacznie przyspieszyć wprowadzanie danych wejściowych przy mniejszym nakładzie pracy użytkownika.

Voice dictation starts by selecting the microphone button
Dyktowanie głosowe rozpoczyna się od wybrania przycisku mikrofonu na klawiaturze

Za każdym razem, gdy klawiatura holografii jest aktywna, możesz przełączyć się na tryb dyktowania zamiast wpisywać. Wybierz mikrofon po stronie pola wprowadzania tekstu, aby rozpocząć pracę.

Dodawanie poleceń głosowych do aplikacji

Rozważ dodanie poleceń głosowych do dowolnego środowiska, które tworzysz. Voice to zaawansowany sposób kontrolowania systemu i aplikacji. Ponieważ użytkownicy mówią z różnymi rodzajami dialektów i akcentów, właściwy wybór słów kluczowych mowy zapewni, że polecenia użytkowników są interpretowane jednoznacznie.

Najlepsze rozwiązania

Poniżej przedstawiono niektóre rozwiązania, które pomogą w bezproblemowym rozpoznawaniu mowy.

  • Użyj zwięzłych poleceń — jeśli to możliwe, wybierz słowa kluczowe dwóch lub większej liczby sylab. Jednosygowe słowa mają tendencję do używania różnych dźwięków vowel, gdy mówione przez osoby o różnych akcentach. Przykład: "Odtwórz wideo" jest lepszy niż "Odtwórz aktualnie wybrane wideo"
  • Użyj prostego słownictwa — przykład: "Pokaż notatkę" jest lepszy niż "Pokaż tabliczkę"
  • Upewnij się, że polecenia są niedestrukcyjne — upewnij się, że wszystkie akcje polecenia mowy są niedestrukcyjne i można je łatwo cofnąć w przypadku, gdy inna osoba mówiąca w pobliżu użytkownika przypadkowo wyzwoli polecenie.
  • Unikaj podobnych poleceń dźwiękowych — unikaj rejestrowania wielu poleceń mowy, które brzmią podobnie. Przykład: "Pokaż więcej" i "Pokaż sklep" może być podobny do dźwięku.
  • Wyrejestruj aplikację, gdy nie jest używana — jeśli aplikacja nie jest w stanie, w którym określone polecenie mowy jest prawidłowe, rozważ wyrejestrowanie jej, aby inne polecenia nie zostały zdezorientowane dla tego polecenia.
  • Przetestuj z różnymi akcentami — przetestuj aplikację przy użyciu różnych akcentów.
  • Zachowaj spójność poleceń głosowych — jeśli "Wstecz" przechodzi do poprzedniej strony, zachowaj to zachowanie w aplikacjach.
  • Unikaj używania poleceń systemowych — następujące polecenia głosowe są zarezerwowane dla systemu, więc unikaj ich używania w aplikacjach:
    • "Hej Cortana"
    • "Wybierz"
    • "Przejdź do początku"

Zalety wprowadzania głosu

Wprowadzanie głosu to naturalny sposób komunikowania naszych intencji. Funkcja voice jest szczególnie dobra w przechodzeniu interfejsu, ponieważ może pomóc użytkownikom w przecięciu wielu kroków interfejsu. Użytkownik może powiedzieć "wróć" podczas przeglądania strony internetowej, zamiast przechodzić w górę i nacisnąć przycisk Wstecz w aplikacji. Ten mały czas oszczędzania ma potężny wpływ emocjonalny na postrzeganie środowiska użytkownika i daje im niewielką ilość supermocarstwa. Korzystanie z głosu jest również wygodną metodą wprowadzania, gdy mamy pełne ręce lub są wielozdaniowe. Na urządzeniach, na których wpisywanie na klawiaturze jest trudne, dyktowanie głosowe może być efektywnym alternatywnym sposobem wprowadzania tekstu. Wreszcie, w niektórych przypadkach, gdy zakres dokładności spojrzenia i gestu jest ograniczony, głos może pomóc uściślać intencję użytkownika.

Jak korzystanie z głosu może przynieść korzyści użytkownikowi

  • Skraca czas — powinien sprawić, że cel końcowy będzie bardziej wydajny.
  • Minimalizuje nakład pracy — powinno to sprawić, że zadania będą bardziej płynne i bez wysiłku.
  • Zmniejsza obciążenie poznawcze — jest intuicyjne, łatwe do nauki i zapamiętywanie.
  • Jest to akceptowalne społecznie - powinno pasować do norm społecznych zachowań.
  • To rutynowe - głos może łatwo stać się zwykłym zachowaniem.

Wyzwania związane z wprowadzaniem głosu

Chociaż wprowadzanie głosu jest doskonałe w przypadku wielu różnych aplikacji, stoi również w obliczu kilku wyzwań. Zrozumienie zarówno zalet, jak i wyzwań związanych z danymi wejściowymi głosowymi umożliwia deweloperom aplikacji podejmowanie mądrzejszych wyborów dotyczących sposobu i sposobu korzystania z danych głosowych oraz tworzenie doskonałego środowiska dla użytkowników.

Wprowadzanie głosu dla ciągłej kontroli danych wejściowych Precyzyjna kontrola jest jedną z nich. Na przykład użytkownik może chcieć zmienić swój wolumin w aplikacji muzycznej. Może powiedzieć "głośniej", ale nie jest jasne, o ile głośniej system ma zrobić głośność. Użytkownik może powiedzieć: "Zrób to trochę głośniej", ale "trochę" jest trudne do oszacowania. Przenoszenie lub skalowanie hologramów z głosem jest podobnie trudne.

Niezawodność wykrywania danych wejściowych głosowych Podczas gdy systemy wprowadzania głosu stają się lepsze i lepsze, czasami mogą niepoprawnie słyszeć i interpretować polecenie głosowe. Kluczem jest rozwiązanie problemu w aplikacji. Prześlij opinię użytkownikom, gdy system nasłuchuje i co system rozumie, wyjaśnia potencjalne problemy z rozpoznawaniem mowy użytkowników.

Wprowadzanie głosu w przestrzeniach udostępnionych Głos może nie być akceptowalny społecznie w przestrzeniach, które udostępniasz innym. Oto kilka przykładów:

  • Użytkownik może nie chcieć przeszkadzać innym (na przykład w cichej bibliotece lub w biurze udostępnionym)
  • Użytkownicy mogą czuć się niezręcznie widziani rozmawiając z sobą publicznie,
  • Użytkownik może czuć się niewygodnie dyktując osobistą lub poufną wiadomość (w tym hasła), podczas gdy inni nasłuchują

Wprowadzanie głosu unikatowych lub nieznanych wyrazów Problemy z wprowadzaniem głosu pojawiają się również wtedy, gdy użytkownicy dyktują wyrazy, które mogą być nieznane systemowi, takie jak pseudonimy, niektóre wyrazy slangu lub skróty.

Edukacja poleceń głosowych Podczas gdy ostatecznym celem jest naturalnie rozmawiać z systemem, często aplikacje nadal polegają na określonych wstępnie zdefiniowanych poleceń głosowych. Wyzwanie związane ze znaczącym zestawem poleceń głosowych polega na tym, jak nauczyć ich bez przeciążenia użytkownika i jak pomóc użytkownikowi w ich utrzymaniu.



Stany opinii głosowej

Gdy funkcja Voice jest prawidłowo stosowana, użytkownik rozumie, co może powiedzieć, i uzyskać wyraźną opinię o tym, że system prawidłowo je usłyszał. Te dwa sygnały sprawiają, że użytkownik czuje się pewnie przy użyciu funkcji Voice jako podstawowych danych wejściowych. Poniżej przedstawiono diagram pokazujący, co dzieje się z kursorem, gdy dane wejściowe głosu są rozpoznawane i jak komunikują się z użytkownikiem.

1. Regular cursor state
1. Zwykły stan kursora

2. Communicates voice feedback and then disappears
2. Komunikuje się z opiniami głosowymi, a następnie znika

*3. Regular cursor state
3. Wraca do zwykłego stanu kursora




Najważniejsze rzeczy, które użytkownicy powinni wiedzieć o "mowy" w rzeczywistości mieszanej

  • Powiedz "Wybierz" podczas określania wartości docelowej przycisku (możesz użyć go w dowolnym miejscu, aby wybrać przycisk).
  • Możesz powiedzieć nazwę etykiety przycisku paska aplikacji w niektórych aplikacjach, aby wykonać akcję. Na przykład podczas przeglądania aplikacji użytkownik może powiedzieć polecenie "Usuń", aby usunąć aplikację ze świata (pozwala to zaoszczędzić czas na wybranie jej za pomocą ręki).
  • Możesz zacząć Cortana słuchać, mówiąc :"Hej Cortana". Możesz zadać jej pytania ("Hej Cortana, jak wysoka jest wieża Eiffla"), powiedz jej, aby otworzyła aplikację ("Hej Cortana, otwórz Netflix") lub powiedz jej, aby podnieść menu Start ("Hej Cortana, zabrać mnie do domu") i nie tylko.

Typowe pytania i obawy użytkowników dotyczące głosu

  • What can I say? (Co mogę powiedzieć?)
  • Jak mogę wiedzieć, że system usłyszał mnie poprawnie?
    • System ciągle otrzymuje moje polecenia głosowe źle.
    • Nie reaguje, gdy daję mu polecenie głosowe.
  • Reaguje na niewłaściwy sposób, gdy daję mu polecenie głosowe.
  • Jak mogę kierować mój głos do określonego polecenia aplikacji lub aplikacji?
  • Czy mogę używać głosu do polecenia elementów ramki holograficznej na HoloLens?

Komunikacja

W przypadku aplikacji, które chcą korzystać z dostosowanych opcji przetwarzania danych wejściowych audio udostępnianych przez HoloLens, ważne jest, aby zrozumieć różne kategorie strumieni audio, które aplikacja może wykorzystać. Windows 10 obsługuje kilka różnych kategorii strumieni i HoloLens wykorzystuje trzy z nich, aby umożliwić niestandardowe przetwarzanie w celu zoptymalizowania jakości dźwięku mikrofonu dostosowanego do mowy, komunikacji i innych, które mogą być używane do przechwytywania dźwięku otoczenia (czyli "kamery").

  • Kategoria strumienia AudioCategory_Communications jest dostosowywana do scenariuszy jakości wywołań i narracji oraz zapewnia klientowi 16-kHz 24-bitowy strumień dźwięku mono głosu użytkownika
  • Kategoria strumienia AudioCategory_Speech jest dostosowywana dla aparatu mowy HoloLens (Windows) i zapewnia mu 16-kHz 24-bitowy strumień mono głosu użytkownika. W razie potrzeby ta kategoria może być używana przez aparaty mowy innych firm.
  • Kategoria strumienia AudioCategory_Other jest dostosowywana do nagrywania dźwięku otoczenia i zapewnia klientowi 48-kHz 24-bitowy strumień audio stereo.

Wszystkie te operacje przetwarzania audio są przyspieszane sprzętem, co oznacza, że funkcje zużywają dużo mniej mocy niż w przypadku wykonania tego samego przetwarzania na procesorze HoloLens. Unikaj uruchamiania innych danych wejściowych audio na procesorze, aby zmaksymalizować żywotność baterii systemu i korzystać z wbudowanego, odciążonego przetwarzania danych wejściowych audio.

Języki

HoloLens 2 obsługuje wiele języków. Należy pamiętać, że polecenia mowy będą zawsze uruchamiane w języku wyświetlania systemu, nawet jeśli zainstalowano wiele klawiatur lub jeśli aplikacje próbują utworzyć rozpoznawanie mowy w innym języku.

Rozwiązywanie problemów

Jeśli masz jakiekolwiek problemy z używaniem opcji "select" i "Hej Cortana", spróbuj przenieść się do spokojniejszej przestrzeni, odwrócić się od źródła szumu lub mówiąc głośniej. W tej chwili wszystkie rozpoznawanie mowy w HoloLens jest dostrojone i zoptymalizowane specjalnie dla osób mówiących natywne Stany Zjednoczone angielski.

W przypadku wersji Windows Mixed Reality Developer Edition 2017 logika zarządzania punktami końcowymi audio będzie działać prawidłowo (na zawsze) po wylogowaniu się i powrocie do komputera po początkowym połączeniu HMD. Przed pierwszym wylogowaniem/w przypadku po przejściu przez OOBE WMR użytkownik może doświadczyć różnych problemów z funkcjonalnością dźwięku, począwszy od braku dźwięku do braku przełączania dźwięku w zależności od tego, jak system został skonfigurowany przed nawiązaniem połączenia HMD po raz pierwszy.



Wprowadzanie głosu w zestawie narzędzi MRTK (Mixed Reality Toolkit) dla aparatu Unity

Za pomocą zestawu narzędzi MRTK można łatwo przypisywać polecenia głosowe na dowolnych obiektach. Użyj profilu danych wejściowych mowy zestawu narzędzi MRTK, aby zdefiniować słowa kluczowe. Przypisując skrypt usługi SpeechInputHandler , można ustawić dowolny obiekt w odpowiedzi na słowa kluczowe zdefiniowane w profilu wprowadzania mowy. Funkcja SpeechInputHandler udostępnia również etykietę potwierdzenia mowy, aby zwiększyć pewność użytkownika.


Zobacz też