Hlasový vstup

Článek
07/12/2023

Hlasový vstup

Hlas je jednou z klíčových forem vstupu v HoloLensu. Umožňuje přímo povel k hologramu, aniž byste museli používat gesta rukou. Hlasový vstup může být přirozeným způsobem, jak sdělit váš záměr. Hlas je obzvláště dobrý při procházení složitých rozhraní, protože umožňuje uživatelům procházet vnořené nabídky pomocí jednoho příkazu.

Hlasový vstup využívá stejný modul , který podporuje řeč ve všech Univerzálních aplikacích pro Windows. V HoloLensu bude rozpoznávání řeči vždy fungovat v jazyce zobrazení Windows nakonfigurovaným v Nastavení vašeho zařízení.

Hlas a pohled

Když používáte hlasové příkazy, je typickým mechanismem cílení hlava nebo zrak, ať už pomocí kurzoru pro výběr nebo směrování příkazu do aplikace, na kterou se díváte. Nemusí se ani vyžadovat, aby se zobrazil kurzor pohledu ("viz, řekněte to"). Některé hlasové příkazy vůbec nevyžadují cíl, například "go to start" nebo "Hey Cortana".

Podpora zařízení

Funkce	HoloLens (1. generace)	HoloLens 2	Imerzivní náhlavní soupravy
Hlasový vstup	✔️	✔️	✔️ (s mikrofonem)

Příkaz "select"

HoloLens (1. generace)

I bez přidání hlasové podpory do vaší aplikace můžou uživatelé aktivovat hologramy jednoduše tak, že vysloví systémový hlasový příkaz "select". To se chová stejně jako klepnutí vzduchem na HoloLens, stisknutí tlačítka výběru na clickeru HoloLens nebo stisknutí spouště na Windows Mixed Reality ovladači pohybu. Uslyšíte zvuk a zobrazí se popis s potvrzením "select". Funkce "Select" je povolená pomocí algoritmu detekce klíčových slov s nízkou spotřebou energie, což znamená, že ho můžete vyslovit kdykoli s minimálním dopadem na výdrž baterie. Můžete dokonce říct "select" s rukama na boku.

HoloLens 2

Pokud chcete v HoloLens 2 použít hlasový příkaz "vybrat", musíte nejprve vyvolat kurzor pohledu, který se použije jako ukazatel. Příkaz, který ho vyvolá, je snadno zapamatovatelný – stačí vyslovit "select".

Režim ukončíte tak, že znovu klepnete vzduchem, přejdete prsty na tlačítko nebo použijete systémové gesto.

Obrázek: Pokud chcete pro výběr použít hlasový příkaz, řekněte "select".

Uživatel může vyslovit

Ahoj Cortano

Kdykoli můžete vyslovit "Hey Cortana" (Ahoj Cortano). Nemusíte čekat, až se objeví, aby se jí dál ptala na vaši otázku nebo jí dávala pokyn. Zkuste třeba jednou větou říct "Hey Cortana, what's the weather?" (Ahoj Cortano, jaké je počasí?". Pokud chcete získat další informace o Cortaně a o tom, co můžete dělat, zeptejte se jí! Řekněte "Hey Cortana, what can I say?" (Ahoj Cortano, co můžu říct?" a ona zobrazí seznam pracovních a navrhovaných příkazů. Pokud už jste v aplikaci Cortana, vyberte ikonu ? na bočním panelu a vytáhněte stejnou nabídku.

Příkazy specifické pro HoloLens

"Co můžu říct?"
"Přejít na Start" - místo květu se dostat do nabídky Start
"Spustit <aplikaci>"
"Přesunout <aplikaci> sem"
"Vyfotit"
"Spustit nahrávání"
"Stop recording" (Zastavit nahrávání)
"Show hand ray"
"Skrýt paprsek rukou"
"Zvýšení jasu"
"Snížit jas"
"Zvětšete hlasitost"
"Snížit hlasitost"
"Ztlumit" nebo "Zrušit ztlumení"
"Vypnutí zařízení"
"Restartujte zařízení"
"Přejít do režimu spánku"
"V kolik je?"
"Kolik baterie mi zbývá?"

"See It, Say It"

HoloLens má model "see it, say it" pro hlasový vstup, kde popisky na tlačítkách říkají uživatelům, jaké hlasové příkazy můžou vyslovit. Například při pohledu na okno aplikace v HoloLensu (1. generace) může uživatel vyslovit příkaz "Upravit", aby upravil pozici aplikace ve světě.

Obrázek: Uživatel může vyslovit příkaz "Upravit", který uvidí na panelu aplikace a upravit tak pozici aplikace.

Když se uživatel dívá na okno aplikace nebo hologram, může vyslovit příkaz

Když aplikace toto pravidlo dodržují, uživatelé snadno pochopí, co mají říct, aby systém ovládali. Při pohledu na tlačítko v HoloLensu (1. generace) uvidíte popis "setrvání hlasu", který se zobrazí po sekundě, pokud je tlačítko povolené hlasem a zobrazí příkaz, aby ho "stisknul". Pokud chcete zobrazit popisy hlasu v HoloLens 2, zobrazte kurzor hlasu tak, že řeknete "select" nebo "What can I say" (Viz obrázek).

Obrázek: Pod tlačítky se zobrazí příkazy "See it, say it" (Viz to, řekněte to).

Zobrazit, řekněme, že příkazy se zobrazí pod tlačítky

Hlasové příkazy pro rychlou manipulaci s hologramy

Existuje mnoho hlasových příkazů, které můžete vyslovit při pohledu na hologram a rychle provádět úkoly manipulace. Tyto hlasové příkazy fungují na oknech aplikací a 3D objektech, které jste umístili do světa.

Příkazy pro manipulaci s hologramem

Tvář se mnou
Větší | Zvýšit
Menší

Na HoloLens 2 můžete také vytvářet přirozenější interakce v kombinaci se zrakovým pohledem, které implicitně poskytují kontextové informace o tom, na co odkazujete. Můžete se například podívat na hologram a říct "put this" a pak se podívat na místo, kam ho chcete umístit, a říct " sem". Nebo se můžete podívat na holografickou část na komplexním počítači a říct: "Dejte mi o tom další informace".

Zjišťování hlasových příkazů

Některé příkazy, například příkazy pro rychlou manipulaci výše, můžou být skryté. Pokud se chcete dozvědět, jaké příkazy můžete použít, podívejte se na objekt a řekněte "co můžu říct?". Zobrazí se seznam možných příkazů. Pomocí kurzoru pohledu na hlavu se můžete také rozhlédnout a zobrazit popisy hlasu pro každé tlačítko před vámi.

Pokud chcete mít úplný seznam, stačí kdykoliv říct "Zobrazit všechny příkazy".

Diktování

Místo psaní pomocí klepnutí vzduchem může být diktování hlasem efektivnější při zadávání textu do aplikace. To může výrazně urychlit zadávání s menším úsilím pro uživatele.

Hlasové diktování začíná výběrem tlačítka mikrofonu na klávesnici.

Kdykoli je holografická klávesnice aktivní, můžete místo psaní přepnout do režimu diktování. Začněte tím, že vyberete mikrofon na straně textového vstupního pole.

Přidání hlasových příkazů do aplikace

Zvažte přidání hlasových příkazů do jakéhokoli prostředí, které vytvoříte. Hlas je výkonný způsob ovládání systému a aplikací. Vzhledem k tomu, že uživatelé mluví s různými druhy dialektů a diakritiky, správný výběr klíčových slov řeči zajistí jednoznačnou interpretaci příkazů uživatelů.

Osvědčené postupy

Níže je uvedeno několik postupů, které vám pomůžou s plynulým rozpoznáváním řeči.

Používejte stručné příkazy – pokud je to možné, zvolte klíčová slova se dvěma nebo více slabiky. Jednos slabiky mají tendenci používat různé samohlásky, když je vyslovují osoby s různými akcenty. Příklad: Přehrát video je lepší než přehrát aktuálně vybrané video.
Používejte jednoduchou slovní zásobu – příklad: "Zobrazit poznámku" je lepší než "Zobrazit plakát".
Ujistěte se, že příkazy nejsou destruktivní – Ujistěte se, že všechny akce hlasových příkazů jsou nedestruktivní a dají se snadno vrátit zpět v případě, že příkaz omylem aktivuje jiná osoba, která mluví v blízkosti uživatele.
Vyhněte se podobným zvukovým příkazům – Vyhněte se registraci více hlasových příkazů, které zní podobně. Příklad: "Zobrazit více" a "Zobrazit úložiště" můžou znít podobně.
Zrušit registraci aplikace, když ji nepoužívá – Pokud vaše aplikace není ve stavu, ve kterém je platný konkrétní příkaz pro rozpoznávání řeči, zvažte zrušení registrace, aby ostatní příkazy nebyly zaměňovány s tímto příkazem.
Testování s různými akcenty – Otestujte aplikaci s uživateli s různými akcenty.
Zachování konzistence hlasových příkazů – pokud Zpět přejde na předchozí stránku, zachovejte toto chování ve svých aplikacích.
Vyhněte se používání systémových příkazů – následující hlasové příkazy jsou vyhrazené pro systém, proto je nepoužívejte ve svých aplikacích:
- "Hey Cortana" (Ahoj Cortano)
- "Vybrat"
- "Go to start" (Přejít na start)

Výhody hlasového vstupu

Hlasový vstup je přirozený způsob, jak sdělit naše záměry. Hlas je obzvlášť dobrý při procházení rozhraní, protože může uživatelům pomoct projít více kroky rozhraní. Uživatel může při prohlížení webové stránky říct "přejít zpět" místo toho, aby v aplikaci musel přejít nahoru a stisknout tlačítko Zpět. Tato malá úspora času má silný emocionální vliv na vnímání prostředí uživatelem a dává jim malou část superschopnosti. Použití hlasu je také praktickou metodou zadávání, když máme plné ruce nebo provádíme více úkolů. Na zařízeních, kde je psaní na klávesnici obtížné, může být efektivním alternativním způsobem zadávání textu hlasové diktování . A konečně, v některých případech, kdy je rozsah přesnosti pohledu a gest omezený, může hlas přispět k nejednoznačnosti záměru uživatele.

Výhody používání hlasu pro uživatele

Zkracuje čas – měl by zefektivnit konečný cíl.
Minimalizuje úsilí – úkoly by měly být plynulejší a snadnější.
Snižuje kognitivní zátěž – je intuitivní, snadno se učí a pamatuje si.
Je to sociálně přijatelné - mělo by to odpovídat společenským normám chování.
Je to rutina – hlas se může snadno stát obvyklým chováním.

Problémy s hlasovým vstupem

I když je hlasový vstup skvělý pro mnoho různých aplikací, čelí také několika výzvám. Pochopení výhod i problémů s hlasovým vstupem umožňuje vývojářům aplikací chytřeji se rozhodovat, jak a kdy používat hlasový vstup, a vytvářet skvělé prostředí pro své uživatele.

Hlasový vstup pro průběžné ovládání vstupu Jednou z nich je jemně odstupňované řízení. Uživatel může například chtít změnit hlasitost ve své hudební aplikaci. Může říct "hlasitěji", ale není jasné, o kolik hlasitější systém má hlasitost udělat. Uživatel by mohl říct: "Nastavit trochu hlasitěji", ale "trochu" je obtížné kvantifikovat. Podobně obtížné je přesouvat nebo škálovat hlasem hologramy.

Spolehlivost detekce hlasového vstupu Systémy hlasového vstupu jsou čím dále lepší, ale někdy můžou hlasový příkaz slyšet a interpretovat nesprávně. Klíčem je vyřešit výzvu ve vaší aplikaci. Poskytněte uživatelům zpětnou vazbu, když systém naslouchá a co systém rozumí, objasňuje potenciální problémy s porozuměním řeči uživatelů.

Hlasový vstup ve sdílených prostorech Hlas nemusí být sociálně přijatelný v prostorech, které sdílíte s ostatními. Tady je pár příkladů:

Uživatel nemusí chtít rušit ostatní (například v tiché knihovně nebo ve sdílené kanceláři).
Uživatelé se mohou cítit trapně, když vidí, jak mluví na veřejnosti sami se sebou.
Uživateli může být nepříjemné diktovat osobní nebo důvěrné zprávy (včetně hesel), zatímco ostatní poslouchají

Hlasový vstup jedinečných nebo neznámých slov Potíže s hlasovým vstupem nastává také v případě, že uživatelé diktují slova, která mohou být pro systém neznámá, například přezdívky, určitá slangová slova nebo zkratky.

Učení hlasových příkazů I když konečným cílem je přirozeně komunikovat s vaším systémem, aplikace často stále spoléhají na konkrétní předdefinované hlasové příkazy. Problém spojený s významnou sadou hlasových příkazů spočívá v tom, jak je naučit bez přetížení uživatele a jak jim pomoci je zachovat.

Stavy hlasové zpětné vazby

Když se hlas použije správně, uživatel rozumí tomu, co může říct, a získá jasnou zpětnou vazbu , kterou systém správně vyslechl. Díky těmto dvěma signálům má uživatel jistotu, že jako primární vstup použije hlas. Níže je diagram, který znázorňuje, co se stane s kurzorem, když je rozpoznán hlasový vstup, a jak ho sděluje uživateli.

1. Běžný stav kurzoru

2. Komunikuje hlasovou zpětnou vazbu a pak zmizí

*3. Běžný stav kurzoru
3. Vrátí se do normálního stavu kurzoru.

To nejdůležitější, co by uživatelé měli vědět o řeči v hybridní realitě

Při cílení na tlačítko řekněte "Vybrat" (můžete ho použít kdekoli a vybrat tlačítko).
V některých aplikacích můžete vyslovit název popisku tlačítka na panelu aplikací , abyste mohli provést nějakou akci. Při pohledu na aplikaci může uživatel například vyslovit příkaz "Remove" (Odebrat), který aplikaci odebere ze světa (ušetříte tím čas, než ji budete muset vybrat rukou).
Cortanu můžete začít poslouchat tak, že řeknete "Hey Cortana" (Ahoj Cortano). Můžete jí položit otázky ("Hey Cortana, how is the Eiffel tower is the Eiffel tower"), řekněte jí, aby otevřela aplikaci ("Hey Cortana, open Netflix" (Ahoj Cortano, otevřete Netflix) nebo jí říct, aby vyvolala nabídku Start ("Hey Cortana, take me home") a další.

Běžné dotazy a obavy uživatelů ohledně hlasových dotazů

Co mám říct?
Návody víte, že mě systém správně slyšel?
- Systém pořád dostává moje hlasové příkazy špatně.
- Nereaguje, když mu dám hlasový příkaz.
Reaguje špatně, když mu dám hlasový příkaz.
Návody cílit svůj hlas na konkrétní příkaz aplikace nebo aplikace?
Můžu na HoloLensu použít hlasový příkaz k ovládání holografického rámce?

Komunikace

U aplikací, které chtějí využívat přizpůsobené možnosti zpracování zvukového vstupu, které poskytuje HoloLens, je důležité pochopit různé kategorie zvukových streamů , které může vaše aplikace využívat. Windows 10 podporuje několik různých kategorií datových proudů a HoloLens využívá tři z nich k tomu, aby umožnil vlastní zpracování pro optimalizaci kvality zvuku mikrofonu přizpůsobené pro řeč, komunikaci a další, která se dá použít pro zachytávání zvuku okolního prostředí (tj. "videokamera").

Kategorie AudioCategory_Communications stream je přizpůsobená pro scénáře kvality hovorů a mluveného komentáře a poskytuje klientovi 24bitový 24bitový mono zvukový stream hlasu uživatele.
Kategorie AudioCategory_Speech streamu je přizpůsobená pro modul řeči HoloLens (Windows) a poskytuje mu 24bitový 24bitový mono stream hlasu uživatele. Tuto kategorii můžou v případě potřeby používat moduly řeči třetích stran.
Kategorie AudioCategory_Other stream je přizpůsobená pro záznam zvuku okolního prostředí a poskytuje klientovi 24bitový stereofonní stream 48 kHz.

Veškeré zpracování zvuku je hardwarově akcelerované, což znamená, že funkce odčerpávají mnohem méně energie, než kdyby bylo stejné zpracování provedeno na procesoru HoloLens. Vyhněte se dalšímu zpracování zvukového vstupu na procesoru, abyste maximalizovali výdrž baterie systému, a využijte integrované zpracování zvukového vstupu se snížením zatížení.

Jazyky

HoloLens 2 podporuje více jazyků. Mějte na paměti, že hlasové příkazy se vždy spustí v jazyce zobrazení systému, i když je nainstalovaných více klávesnic nebo když se aplikace pokusí vytvořit rozpoznávání řeči v jiném jazyce.

Poradce při potížích

Pokud máte problémy s používáním výrazů "select" a "Hey Cortana", zkuste přejít do tiššího místa, odejít od zdroje hluku nebo hlasitěji mluvit. V tuto chvíli je veškeré rozpoznávání řeči na HoloLensu vyladěné a optimalizované speciálně pro rodilé mluvčí USA angličtinu.

Ve verzi Windows Mixed Reality Developer Edition 2017 bude logika správy zvukového koncového bodu fungovat (navždy) po odhlášení a zpětném přihlášení ke ploše počítače po počátečním připojení HMD. Před prvním odhlášením nebo v případě, že uživatel prošel procesem WMR OOBE, mohl zaznamenat různé problémy s funkcemi zvuku od žádného zvuku až po žádné přepínání zvuku v závislosti na tom, jak byl systém nastaven před prvním připojením HMD.

Hlasový vstup v MRTK (Mixed Reality Toolkit) pro Unity

Pomocí MRTK můžete snadno přiřadit hlasové příkazy k libovolným objektům. K definování klíčových slov použijte profil vstupu řeči MRTK. Přiřazením skriptu SpeechInputHandler můžete libovolný objekt nastavit jako odpověď na klíčová slova definovaná v profilu vstupu řeči. SpeechInputHandler také poskytuje popisek potvrzení řeči, který zvyšuje důvěru uživatele.

MRTK – Hlasový příkaz

Sdílet prostřednictvím

Hlasový vstup

Hlas a pohled

Podpora zařízení

Příkaz "select"

Ahoj Cortano

"See It, Say It"

Hlasové příkazy pro rychlou manipulaci s hologramy

Zjišťování hlasových příkazů

Diktování

Přidání hlasových příkazů do aplikace

Osvědčené postupy

Výhody hlasového vstupu

Problémy s hlasovým vstupem

Stavy hlasové zpětné vazby

To nejdůležitější, co by uživatelé měli vědět o řeči v hybridní realitě

Běžné dotazy a obavy uživatelů ohledně hlasových dotazů

Komunikace

Jazyky

Poradce při potížích

Hlasový vstup v MRTK (Mixed Reality Toolkit) pro Unity

Viz také

Další materiály