Wprowadzanie danych przy użyciu głosu

Artykuł
07/12/2023

Voice jest jedną z kluczowych form danych wejściowych na urządzeniu HoloLens. Umożliwia bezpośrednie polecenie hologramu bez konieczności używania gestów ręcznych. Wprowadzanie głosu może być naturalnym sposobem komunikowania się z intencją. Głos jest szczególnie dobry w przechodzeniu przez złożone interfejsy, ponieważ umożliwia użytkownikom wycinanie zagnieżdżonych menu za pomocą jednego polecenia.

Dane wejściowe głosowe są obsługiwane przez ten sam aparat , który obsługuje mowę we wszystkich aplikacjach uniwersalnych systemu Windows. Na urządzeniu HoloLens rozpoznawanie mowy będzie zawsze działać w języku wyświetlania systemu Windows skonfigurowanym w ustawieniach urządzenia.

Głos i spojrzenie

Gdy używasz poleceń głosowych, głowy lub spojrzenia wzrokowego jest typowym mechanizmem określania wartości docelowej, niezależnie od tego, czy z kursorem do "zaznaczenia" lub skierowania polecenia do aplikacji, na którą patrzysz. Może nawet nie być wymagane, aby pokazać jakikolwiek kursor wzroku ("zobacz, powiedz to"). Niektóre polecenia głosowe nie wymagają w ogóle miejsca docelowego, na przykład "przejdź do uruchomienia" lub "Hej Cortana".

Obsługa urządzeń

Funkcja	HoloLens (1. generacja)	HoloLens 2	Immersyjne zestawy słuchawkowe
Wprowadzanie danych przy użyciu głosu	✔️	✔️	✔️ (z mikrofonem)

Polecenie "select"

HoloLens (1. generacja)

Nawet bez dodawania obsługi głosowej do aplikacji użytkownicy mogą aktywować hologramy po prostu, mówiąc systemowe polecenie głosowe "select". Zachowuje się tak samo jak naciśnięcie powietrza na urządzeniu HoloLens, naciśnięcie przycisku wyboru na kliknięcie urządzenia HoloLens lub naciśnięcie wyzwalacza na kontrolerze ruchu Windows Mixed Reality. Usłyszysz dźwięk i zobaczysz etykietkę narzędzia z etykietką "select" wyświetlaną jako potwierdzenie. Opcja "Select" jest włączona przez algorytm wykrywania słów kluczowych o niskiej mocy, co oznacza, że można to powiedzieć w dowolnym momencie z minimalnym wpływem na żywotność baterii. Możesz nawet powiedzieć "select" z rękami u boku.

HoloLens 2

Aby użyć polecenia głosowego "select" w HoloLens 2, najpierw musisz wyświetlić kursor wzroku, aby użyć go jako wskaźnika. Polecenie, aby go wyświetlić, jest łatwe do zapamiętania — po prostu powiedz "select".

Aby zamknąć tryb, użyj rąk ponownie, naciskając powietrze, zbliżając się do przycisku palcami lub używając gestu systemowego.

Obraz: Powiedz "select", aby użyć polecenia głosowego do wyboru

Użytkownik może powiedzieć

Hej, Cortana

Możesz powiedzieć "Hej Cortana", aby w dowolnym momencie podnieść Cortanę. Nie musisz czekać, aż pojawi się ona, aby nadal zadawała swoje pytanie lub udzielała jej instrukcji. Na przykład spróbuj powiedzieć "Hej Cortana, jaka jest pogoda?" jako jedno zdanie. Aby uzyskać więcej informacji na temat Cortany i tego, co możesz zrobić, zapytaj ją! Powiedz "Hej Cortana, co mogę powiedzieć?", a ona podciągnie listę działających i sugerowanych poleceń. Jeśli jesteś już w aplikacji Cortana, wybierz ikonę ? na pasku bocznym, aby ściągnąć to samo menu.

Polecenia specyficzne dla urządzenia HoloLens

"Co mogę powiedzieć?"
"Przejdź do startu" — zamiast kwitnąć , aby przejść do menu Start
"Uruchom <aplikację>"
"Przenieś <aplikację> tutaj"
"Zrobić zdjęcie"
"Rozpocznij nagrywanie"
"Zatrzymaj nagrywanie"
"Pokaż promienie ręczne"
"Ukryj promienie dłoni"
"Zwiększ jasność"
"Zmniejsz jasność"
"Zwiększ wolumin"
"Zmniejsz wolumin"
"Wycisz" lub "Cofnij wyciszenie"
"Zamknij urządzenie"
"Uruchom ponownie urządzenie"
"Przejdź do snu"
"Jaki jest czas?"
"Ile baterii mam w lewo?"

"Zobacz to, powiedz to"

Urządzenie HoloLens ma model "see it, say it" dla danych wejściowych głosowych, gdzie etykiety na przyciskach informują użytkowników o tym, jakie polecenia głosowe mogą również powiedzieć. Na przykład podczas przeglądania okna aplikacji w urządzeniu HoloLens (1. generacji) użytkownik może powiedzieć polecenie "Dostosuj", aby dostosować położenie aplikacji na świecie.

Obraz: Użytkownik może powiedzieć polecenie "Dostosuj", które widzi na pasku aplikacji, aby dostosować położenie aplikacji

Podczas przeglądania okna aplikacji lub hologramu użytkownik może powiedzieć polecenie

Gdy aplikacje są zgodne z tą regułą, użytkownicy mogą łatwo zrozumieć, co należy powiedzieć, aby kontrolować system. Patrząc na przycisk w holoLens (1. gen), zobaczysz etykietkę narzędzia "voice dwell", która pojawia się po sekundzie, jeśli przycisk jest włączony głosem i wyświetla polecenie, aby mówić do "naciśnij". Aby wyświetlić etykietki narzędzi głosowych w HoloLens 2, pokaż kursor głosu, mówiąc "select" lub "What can I say" (Zobacz obraz).

Obraz: polecenia "Zobacz, powiedzmy" są wyświetlane poniżej przycisków

Zobacz to, powiedzmy, że polecenia są wyświetlane poniżej przycisków

Polecenia głosowe umożliwiające szybkie manipulowanie hologramem

Istnieje wiele poleceń głosowych, które można powiedzieć podczas patrzenia na hologram, aby szybko wykonywać zadania manipulowania. Te polecenia głosowe działają w oknach aplikacji i obiektach 3D umieszczonych na świecie.

Polecenia manipulowania hologramem

Twarz mnie
Większe | Zwiększenia
Mniejsze

W HoloLens 2 można również tworzyć bardziej naturalne interakcje w połączeniu z spojrzeniem wzrokowym, które niejawnie udostępniają kontekstowe informacje o tym, co odnosisz się do. Możesz na przykład przyjrzeć się hologramowi i powiedzieć "umieścić to", a następnie przyjrzeć się miejscu, w którym chcesz go umieścić i powiedzieć " tutaj". Możesz też przyjrzeć się części holograficznej na złożonej maszynie i powiedzieć: "Daj mi więcej informacji na ten temat".

Odnajdywanie poleceń głosowych

Niektóre polecenia, takie jak polecenia do szybkiego manipulowania powyżej, mogą być ukryte. Aby dowiedzieć się, jakich poleceń można użyć, spójrz na obiekt i powiedz: "co mogę powiedzieć?". Zostanie wyświetlona lista możliwych poleceń. Możesz również użyć kursora wzroku głowy, aby rozejrzeć się i wyświetlić etykietki narzędzi głosowych dla każdego przycisku przed tobą.

Jeśli chcesz utworzyć pełną listę, po prostu powiedz "Pokaż wszystkie polecenia" w dowolnym momencie.

Dyktowania

Zamiast wpisywać naciśnięcia powietrza, dyktowanie głosowe może być bardziej wydajne, aby wprowadzić tekst do aplikacji. Może to znacznie przyspieszyć wprowadzanie danych wejściowych przy mniejszym wysiłku dla użytkownika.

Dyktowanie głosowe rozpoczyna się od wybrania przycisku mikrofonu na klawiaturze

Za każdym razem, gdy klawiatura holograficzne jest aktywna, możesz przełączyć się na tryb dyktowania zamiast wpisywać. Wybierz mikrofon po stronie pola wprowadzania tekstu, aby rozpocząć pracę.

Dodawanie poleceń głosowych do aplikacji

Rozważ dodanie poleceń głosowych do dowolnego środowiska, które utworzysz. Voice to zaawansowany sposób kontrolowania systemu i aplikacji. Ponieważ użytkownicy mówią z różnymi rodzajami dialektów i akcentów, właściwy wybór słów kluczowych mowy zapewni, że polecenia użytkowników są interpretowane jednoznacznie.

Najlepsze rozwiązania

Poniżej przedstawiono niektóre rozwiązania, które pomogą w bezproblemowym rozpoznawaniu mowy.

Użyj zwięzłych poleceń — jeśli to możliwe, wybierz słowa kluczowe dwóch lub większej liczby sylab. Jednosylalne słowa mają tendencję do używania różnych dźwięków vowel, gdy mówione przez osoby o różnych akcentach. Przykład: "Odtwórz wideo" jest lepszy niż "Odtwórz aktualnie wybrane wideo"
Użyj prostego słownictwa — przykład: "Pokaż notatkę" jest lepszy niż "Pokaż tabliczkę"
Upewnij się, że polecenia nie są destrukcyjne — upewnij się, że wszystkie akcje poleceń mowy nie są destrukcyjne i można je łatwo cofnąć w przypadku przypadkowego wyzwolenia polecenia przez inną osobę mówiącą w pobliżu użytkownika.
Unikaj podobnych poleceń dźwiękowych — unikaj rejestrowania wielu poleceń mowy, które brzmią podobnie. Przykład: "Pokaż więcej" i "Pokaż sklep" może być podobny do dźwięku.
Wyrejestruj aplikację, gdy nie jest używana — gdy aplikacja nie jest w stanie, w którym jest prawidłowe określone polecenie mowy, rozważ wyrejestrowanie jej, aby inne polecenia nie były mylone dla tego polecenia.
Przetestuj z różnymi akcentami — przetestuj aplikację przy użyciu różnych akcentów.
Zachowaj spójność poleceń głosowych — jeśli "Wstecz" przejdzie do poprzedniej strony, zachowaj to zachowanie w aplikacjach.
Unikaj używania poleceń systemowych — następujące polecenia głosowe są zarezerwowane dla systemu, więc unikaj używania ich w aplikacjach:
- "Hej Cortana"
- "Wybierz"
- "Przejdź do początku"

Zalety danych wejściowych głosowych

Wprowadzanie głosu to naturalny sposób komunikowania się z naszymi intencjami. Głos jest szczególnie dobry w przechodzeniu interfejsu , ponieważ może pomóc użytkownikom w przecięciu wielu kroków interfejsu. Użytkownik może powiedzieć "wróć" podczas przeglądania strony internetowej, zamiast konieczności przechodzenia w górę i naciśnięcia przycisku wstecz w aplikacji. Ten mały czas oszczędzania ma potężny emocjonalny wpływ na postrzeganie doświadczenia użytkownika i daje im niewielką ilość supermocarstwa. Korzystanie z głosu jest również wygodną metodą wprowadzania, gdy mamy pełne ramiona lub są wielozdaniowe. Na urządzeniach, na których wpisywanie na klawiaturze jest trudne, dyktowanie głosowe może być wydajnym alternatywnym sposobem wprowadzania tekstu. Wreszcie, w niektórych przypadkach, gdy zakres dokładności spojrzenia i gestu jest ograniczony, głos może pomóc uściślać intencję użytkownika.

Jak korzystanie z głosu może przynieść korzyści użytkownikowi

Skraca czas — powinno to zwiększyć wydajność celu końcowego.
Minimalizuje nakład pracy — powinno to sprawić, że zadania będą bardziej płynne i bezproblemowe.
Zmniejsza obciążenie poznawcze — jest intuicyjna, łatwa do nauki i zapamiętywania.
Jest to społecznie dopuszczalne - powinno mieścić się w normach społecznych zachowań.
To rutynowe - głos może łatwo stać się zwykłym zachowaniem.

Wyzwania dotyczące danych wejściowych głosowych

Podczas gdy dane wejściowe głosowe są doskonałe dla wielu różnych aplikacji, stoi również przed kilkoma wyzwaniami. Zrozumienie zarówno zalet, jak i wyzwań związanych z danymi wejściowymi głosowymi umożliwia deweloperom aplikacji podejmowanie mądrzejszych wyborów dotyczących sposobu i sposobu korzystania z danych głosowych oraz tworzenia doskonałego środowiska dla użytkowników.

Wejście głosowe do ciągłej kontroli danych wejściowych Precyzyjna kontrola jest jednym z nich. Na przykład użytkownik może chcieć zmienić swój wolumin w aplikacji muzycznej. Może powiedzieć "głośniej", ale nie jest jasne, jak głośniej system ma uczynić głośność. Użytkownik może powiedzieć: "Zrób to trochę głośniej", ale "trochę" jest trudne do oszacowania. Przenoszenie lub skalowanie hologramów z głosem jest podobnie trudne.

Niezawodność wykrywania danych wejściowych głosowych Podczas gdy systemy wejściowe głosowe stają się lepsze i lepsze, czasami mogą niepoprawnie słyszeć i interpretować polecenie głosowe. Kluczem jest rozwiązanie problemu w aplikacji. Prześlij opinię użytkownikom, gdy system nasłuchuje i co system zrozumiał, wyjaśnia potencjalne problemy z rozpoznawaniem mowy użytkowników.

Wprowadzanie głosu w przestrzeniach udostępnionych Głos może nie być społecznie akceptowalny w przestrzeniach, które dzielisz się z innymi. Oto kilka przykładów:

Użytkownik może nie chcieć przeszkadzać innym (na przykład w cichej bibliotece lub biurze udostępnionym)
Użytkownicy mogą czuć się niezręcznie widziani, rozmawiając z sobą publicznie,
Użytkownik może czuć się niewygodnie dyktując osobistą lub poufne wiadomości (w tym hasła), podczas gdy inni słuchają

Wprowadzanie głosu unikatowych lub nieznanych słów Problemy z danymi wejściowymi głosowymi pojawiają się również wtedy, gdy użytkownicy dyktują wyrazy, które mogą być nieznane systemowi, takie jak pseudonimy, niektóre słowa slangu lub skróty.

Uczenie poleceń głosowych Chociaż ostatecznym celem jest naturalnie rozmawiać z systemem, często aplikacje nadal opierają się na określonych wstępnie zdefiniowanych poleceń głosowych. Wyzwaniem związanym ze znaczącym zestawem poleceń głosowych jest nauczenie ich bez przeciążenia użytkownika i jak pomóc użytkownikowi w utrzymaniu tych poleceń.

Stany opinii głosowej

Gdy funkcja Voice jest prawidłowo stosowana, użytkownik rozumie, co może powiedzieć i uzyskać wyraźną opinię, którą system usłyszał prawidłowo. Te dwa sygnały sprawiają, że użytkownik czuje się pewnie przy użyciu funkcji Voice jako podstawowych danych wejściowych. Poniżej znajduje się diagram przedstawiający, co się dzieje z kursorem po rozpoznaniu danych wejściowych głosowych i sposobie komunikowania się z użytkownikiem.

1. Zwykły stan kursora

2. Komunikuje się z opiniami głosowymi, a następnie znika

*3. Zwykły stan kursora
3. Zwraca do zwykłego stanu kursora

Najważniejsze rzeczy, które użytkownicy powinni wiedzieć o "mowie" w rzeczywistości mieszanej

Powiedz "Wybierz" podczas określania wartości docelowej przycisku (możesz użyć go w dowolnym miejscu, aby wybrać przycisk).
Możesz powiedzieć nazwę etykiety przycisku paska aplikacji w niektórych aplikacjach, aby wykonać akcję. Na przykład podczas przeglądania aplikacji użytkownik może powiedzieć polecenie "Usuń", aby usunąć aplikację ze świata (pozwala to zaoszczędzić czas na wybranie jej za pomocą ręki).
Możesz rozpocząć cortanę słuchając, mówiąc "Hej Cortana". Możesz zadać jej pytania ("Hey Cortana, jak wysoki jest wieża Eiffla"), powiedzieć jej, aby otworzyć aplikację ("Hej Cortana, otworzyć Netflix"), lub powiedzieć jej, aby podnieść menu Start ("Hey Cortana, zabrać mnie do domu") i nie tylko.

Typowe pytania i obawy użytkowników dotyczące głosu

What can I say? (Co mogę powiedzieć?)
Jak mogę wiedzieć, że system prawidłowo mnie usłyszał?
- System nadal otrzymuje moje polecenia głosowe źle.
- Nie reaguje, gdy daję mu polecenie głosowe.
Reaguje to na niewłaściwy sposób, gdy daję mu polecenie głosowe.
Jak mogę kierować mój głos do określonej aplikacji lub polecenia aplikacji?
Czy mogę użyć głosu, aby polecić ramki holograficznej na urządzeniu HoloLens?

Komunikacja

W przypadku aplikacji, które chcą korzystać z dostosowanych opcji przetwarzania danych wejściowych audio udostępnianych przez urządzenie HoloLens, ważne jest, aby zrozumieć różne kategorie strumieni audio , które aplikacja może wykorzystać. Windows 10 obsługuje kilka różnych kategorii strumieni, a urządzenie HoloLens korzysta z trzech z nich w celu umożliwienia niestandardowego przetwarzania w celu zoptymalizowania jakości dźwięku mikrofonu dostosowanego do mowy, komunikacji i innych, które mogą być używane do przechwytywania dźwięku otoczenia (czyli "kamkordera").

Kategoria strumienia AudioCategory_Communications jest dostosowywana do scenariuszy jakości wywołań i narracji oraz zapewnia klientowi 16-kHz 24-bitowy strumień audio mono głosu użytkownika
Kategoria strumienia AudioCategory_Speech jest dostosowywana dla aparatu mowy HoloLens (Windows) i zapewnia mu 16-kHz 24-bitowy strumień mono głosu użytkownika. W razie potrzeby ta kategoria może być używana przez aparaty mowy innych firm.
Kategoria strumienia AudioCategory_Other jest dostosowywana do nagrywania dźwięku otoczenia i zapewnia klientowi 48-kHz 24-bitowy strumień audio stereo.

Wszystkie te operacje przetwarzania dźwięku są przyspieszane sprzętem, co oznacza, że funkcje opróżniają znacznie mniej mocy niż w przypadku wykonania tego samego przetwarzania na procesorze HoloLens. Unikaj uruchamiania innego przetwarzania danych wejściowych audio na procesorze, aby zmaksymalizować żywotność baterii systemu i skorzystać z wbudowanego, odciążonego przetwarzania danych wejściowych audio.

Języki

HoloLens 2 obsługuje wiele języków. Pamiętaj, że polecenia mowy będą zawsze uruchamiane w języku wyświetlania systemu, nawet jeśli zainstalowano wiele klawiatur lub jeśli aplikacje próbują utworzyć rozpoznawanie mowy w innym języku.

Rozwiązywanie problemów

Jeśli masz jakiekolwiek problemy z użyciem opcji "select" i "Hey Cortana", spróbuj przejść do spokojniejszej przestrzeni, odwrócić się od źródła szumu lub mówiąc głośniej. W tej chwili wszystkie rozpoznawanie mowy na urządzeniu HoloLens jest dostrojone i zoptymalizowane specjalnie dla natywnych osób mówiących o języku Stany Zjednoczone angielskim.

W przypadku wersji Windows Mixed Reality Developer Edition 2017 logika zarządzania punktami końcowymi dźwięku będzie działać prawidłowo (na zawsze) po wylogowaniu się i powrocie do komputera po początkowym połączeniu HMD. Przed pierwszym wylogowaniem/w przypadku po przejściu przez OOBE WMR użytkownik może doświadczyć różnych problemów z funkcjonalnością dźwięku, począwszy od braku dźwięku do braku przełączania dźwięku w zależności od tego, jak system został skonfigurowany przed nawiązaniem połączenia HMD po raz pierwszy.

Wprowadzanie głosu w zestawie narzędzi MRTK (Mixed Reality Toolkit) dla aparatu Unity

Za pomocą zestawu narzędzi MRTK można łatwo przypisywać polecenia głosowe na dowolnych obiektach. Użyj profilu danych wejściowych mowy zestawu narzędzi MRTK, aby zdefiniować słowa kluczowe. Przypisując skrypt speechInputHandler , można ustawić dowolny obiekt w odpowiedzi na słowa kluczowe zdefiniowane w profilu wprowadzania mowy. Usługa SpeechInputHandler udostępnia również etykietę potwierdzenia mowy, aby zwiększyć pewność użytkownika.

MRTK — polecenie głosowe

Wprowadzanie danych przy użyciu głosu

Głos i spojrzenie

Obsługa urządzeń

Polecenie "select"

Hej, Cortana

"Zobacz to, powiedz to"

Polecenia głosowe umożliwiające szybkie manipulowanie hologramem

Odnajdywanie poleceń głosowych

Dyktowania

Dodawanie poleceń głosowych do aplikacji

Najlepsze rozwiązania

Zalety danych wejściowych głosowych

Wyzwania dotyczące danych wejściowych głosowych

Stany opinii głosowej

Najważniejsze rzeczy, które użytkownicy powinni wiedzieć o "mowie" w rzeczywistości mieszanej

Typowe pytania i obawy użytkowników dotyczące głosu

Komunikacja

Języki

Rozwiązywanie problemów

Wprowadzanie głosu w zestawie narzędzi MRTK (Mixed Reality Toolkit) dla aparatu Unity

Zobacz też

Dodatkowe zasoby