Röstinmatning

Artikel
07/12/2023

Röstinmatning

Voice är en av de viktigaste formerna av indata på HoloLens. Det gör att du kan styra ett hologram direkt utan att behöva använda handgester. Röstinmatning kan vara ett naturligt sätt att kommunicera din avsikt. Röst är särskilt bra på att bläddra i komplexa gränssnitt, eftersom det gör att användarna kan klippa igenom kapslade menyer med ett kommando.

Röstindata drivs av samma motor som stöder tal i alla Universella Windows-appar. På HoloLens fungerar taligenkänning alltid på det Windows-visningsspråk som konfigurerats i enhetens inställningar.

Röst och blick

När du använder röstkommandon är huvud- eller ögonögonmekanismen den typiska målmekanismen, oavsett om du använder en markör för att "välja" eller för att kanalisera kommandot till ett program som du tittar på. Det kanske inte ens krävs för att visa någon blickmarkör ("se det, säg det"). Vissa röstkommandon kräver inget mål alls, till exempel "gå till start" eller "Hey Cortana".

Stöd för enheter

Funktion	HoloLens (första generationen)	HoloLens 2	Integrerande headset
Röstinmatning	✔️	✔️	✔️ (med mikrofon)

Kommandot "select"

HoloLens (första generationen)

Även om du inte specifikt lägger till röststöd i din app kan användarna aktivera hologram genom att helt enkelt säga att röstkommandot för systemet "välj". Detta fungerar på samma sätt som ett lufttryck på HoloLens, trycker på knappen Välj på HoloLens-klickaren eller trycker på utlösaren på en Windows Mixed Reality rörelsestyrenhet. Du hör ett ljud och en knappbeskrivning med "select" visas som en bekräftelse. "Välj" aktiveras av en algoritm för nyckelordsidentifiering med låg effekt, vilket innebär att du kan säga det när som helst med minimal inverkan på batterilivslängden. Du kan till och med säga "välj" med händerna vid din sida.

HoloLens 2

Om du vill använda röstkommandot "select" i HoloLens 2 måste du först ta upp blickmarkören för att använda som pekare. Kommandot för att ta upp det är enkelt att komma ihåg – säg bara "välj".

Om du vill avsluta läget använder du händerna igen genom att trycka på luft, närma dig en knapp med fingrarna eller använda systemgesten.

Bild: Säg "välj" för att använda röstkommandot för val

En användare kan säga

Hey Cortana

Du kan säga "Hey Cortana" för att när som helst ta upp Cortana. Du behöver inte vänta på att hon ska fortsätta ställa din fråga eller ge henne en instruktion. Prova till exempel att säga "Hej Cortana, vad är vädret?" som en enda mening. Om du vill ha mer information om Cortana och vad du kan göra kan du fråga henne! Säg "Hej Cortana, vad kan jag säga?" så hämtar hon en lista över fungerande och föreslagna kommandon. Om du redan är i Cortana-appen väljer du ikonen ? i sidofältet för att hämta samma meny.

HoloLens-specifika kommandon

"Vad kan jag säga?"
"Gå till start" – i stället för att blomma för att komma till Start-menyn
"Starta <app>"
"Flytta <appen> hit"
"Ta en bild"
"Starta inspelning"
"Stoppa inspelning"
"Visa handstråle"
"Dölj handstråle"
"Öka ljusstyrkan"
"Minska ljusstyrkan"
"Öka volymen"
"Minska volymen"
"Stäng av" eller "Slå på ljudet"
"Stäng av enheten"
"Starta om enheten"
"Gå och lägg dig"
"Vilken tid är det?"
"Hur mycket batteri har jag kvar?"

"Se det, säg det"

HoloLens har en "see it, say it"-modell för röstinmatning, där etiketter på knappar också talar om för användarna vilka röstkommandon de kan säga. När du till exempel tittar på ett appfönster i HoloLens (första generationen) kan en användare säga kommandot "Justera" för att justera appens position i världen.

Bild: En användare kan säga kommandot "Justera", som de ser i appfältet för att justera appens position

När du tittar på ett appfönster eller hologram kan en användare säga kommandot

När appar följer den här regeln kan användarna enkelt förstå vad de ska säga för att styra systemet. När du tittar på en knapp i HoloLens (första generationen), ser du en knappbeskrivning för "röstboende" som kommer upp efter en sekund om knappen är röstaktiverad och visar kommandot för att tala för att "trycka" på den. Om du vill visa röstknappbeskrivningar i HoloLens 2 visar du röstmarkören genom att säga "select" eller "What can I say" (Se bild).

Bild: Kommandona "Se det, säg det" visas under knapparna

Se det, säg att kommandon visas under knapparna

Röstkommandon för snabb hologrammanipulering

Det finns många röstkommandon som du kan säga när du tittar på ett hologram för att snabbt utföra manipulationsuppgifter. Dessa röstkommandon fungerar på appfönster och 3D-objekt som du har placerat i världen.

Hologrammanipuleringskommandon

Vänd dig mot mig
Större | Förbättra
Mindre

På HoloLens 2 kan du också skapa mer naturliga interaktioner i kombination med blick, vilket implicit ger kontextuell information om vad du refererar till. Du kan till exempel titta på ett hologram och säga "placera det här" och sedan titta över var du vill placera det och säga " här borta". Eller så kan du titta på en holografisk del på en komplex dator och säga: "Ge mig mer information om detta".

Identifiera röstkommandon

Vissa kommandon, till exempel kommandon för snabb manipulering ovan, kan döljas. Om du vill veta mer om vilka kommandon du kan använda kan du titta på ett objekt och säga "vad kan jag säga?". En lista över möjliga kommandon visas. Du kan också använda huvudblicksmarkören för att se dig omkring och visa röstknapparna för varje knapp framför dig.

Om du vill ha en fullständig lista kan du säga "Visa alla kommandon" när som helst.

Diktamen

I stället för att skriva med lufttryck kan röstdiktering vara mer effektivt för att ange text i en app. Detta kan avsevärt påskynda indata med mindre ansträngning för användaren.

Röstdikteringen börjar med att välja mikrofonknappen på tangentbordet

När det holografiska tangentbordet är aktivt kan du växla till dikteringsläge i stället för att skriva. Välj mikrofonen på sidan av textinmatningsrutan för att komma igång.

Lägga till röstkommandon i din app

Överväg att lägga till röstkommandon i alla funktioner som du skapar. Röst är ett kraftfullt sätt att styra systemet och apparna. Eftersom användarna talar med olika typer av dialekter och accenter ser rätt val av talnyckelord till att användarnas kommandon tolkas entydigt.

Bästa praxis

Nedan visas några metoder som underlättar smidig taligenkänning.

Använd koncisa kommandon – När det är möjligt väljer du nyckelord för två eller flera stavelser. Enstaviga ord tenderar att använda olika vokalljud när de talas av personer med olika accenter. Exempel: "Spela upp video" är bättre än "Spela upp den valda videon"
Använd enkel vokabulär – Exempel: "Visa anteckning" är bättre än "Visa plakat"
Kontrollera att kommandona är icke-destruktiva – Kontrollera att alla talkommandoåtgärder är icke-destruktiva och enkelt kan ångras om en annan person som talar nära användaren av misstag utlöser ett kommando.
Undvik liknande ljudkommandon – Undvik att registrera flera talkommandon som låter liknande. Exempel: "Visa mer" och "Visa butik" kan låta på liknande sätt.
Avregistrera din app när den inte använder – När din app inte är i ett tillstånd där ett visst talkommando är giltigt kan du avregistrera den så att andra kommandon inte förväxlas för den.
Testa med olika accenter – Testa din app med användare med olika accenter.
Behåll konsekvens för röstkommandon – Om "Gå tillbaka" går till föregående sida bör du behålla det här beteendet i dina program.
Undvik att använda systemkommandon – Följande röstkommandon är reserverade för systemet, så undvik att använda dem i dina program:
- "Hej Cortana"
- "Välj"
- "Gå till start"

Fördelar med röstinmatning

Röstinmatning är ett naturligt sätt att kommunicera våra avsikter. Röst är särskilt bra på gränssnittsblädderingar eftersom det kan hjälpa användare att gå igenom flera steg i ett gränssnitt. En användare kan säga "gå tillbaka" när de tittar på en webbsida, i stället för att behöva gå upp och trycka på bakåtknappen i appen. Denna lilla tidsbesparing har en kraftfull känslomässig effekt på användarens uppfattning om upplevelsen och ger dem en liten mängd superkraft. Att använda röst är också en praktisk inmatningsmetod när vi har armarna fulla eller har flera uppgifter. På enheter där det är svårt att skriva på ett tangentbord kan röstdiktering vara ett effektivt alternativt sätt att mata in text. Slutligen, i vissa fall när precisionsintervallet för blick och gest är begränsat, kan rösten bidra till att skilja användarens avsikt åt.

Hur användningen av röst kan vara till nytta för användaren

Minskar tiden – det bör göra slutmålet mer effektivt.
Minimerar ansträngningen – det bör göra uppgifter mer flytande och enkla.
Minskar den kognitiva belastningen – det är intuitivt, enkelt att lära sig och komma ihåg.
Det är socialt acceptabelt - det borde passa in i samhällets normer för beteende.
Det är rutin - röst kan lätt bli ett vanligt beteende.

Utmaningar för röstinmatning

Röstinmatning är bra för många olika program, men den står också inför flera utmaningar. Genom att förstå både fördelarna och utmaningarna med röstinmatning kan apputvecklare göra smartare val för hur och när de ska använda röstinmatning och skapa en bra upplevelse för sina användare.

Röstinmatning för kontinuerlig inmatningskontroll Detaljerad kontroll är en av dem. En användare kanske till exempel vill ändra sin volym i sin musikapp. Hon kan säga "högre", men det är inte klart hur mycket högre systemet ska göra volymen. Användaren kan säga: "Gör det lite högre", men "lite" är svårt att kvantifiera. Det är på samma sätt svårt att flytta eller skala hologram med röst.

Tillförlitlighet för identifiering av röstindata Även om röstinmatningssystem blir bättre och bättre kan de ibland höra och tolka ett röstkommando felaktigt. Nyckeln är att hantera utmaningen i ditt program. Ge feedback till dina användare när systemet lyssnar och vad systemet förstod klargör potentiella problem med att förstå användarnas tal.

Röstinmatning i delade utrymmen Röst kanske inte är socialt acceptabelt i utrymmen som du delar med andra. Några exempel:

Användaren kanske inte vill störa andra (till exempel i ett tyst bibliotek eller delat kontor)
Användare kan känna sig obekväma med att ses prata med sig själva offentligt,
En användare kan känna sig obekväm med att diktera ett personligt eller konfidentiellt meddelande (inklusive lösenord) medan andra lyssnar

Röstinmatning av unika eller okända ord Problem med röstinmatning kommer också när användare dikterar ord som kan vara okända för systemet, till exempel smeknamn, vissa slangord eller förkortningar.

Lära sig röstkommandon Det ultimata målet är att kommunicera naturligt med systemet, men ofta förlitar sig appar fortfarande på specifika fördefinierade röstkommandon. En utmaning som är kopplad till en betydande uppsättning röstkommandon är hur du lär dem utan att överbelasta användaren och hur du kan hjälpa användaren att behålla dem.

Tillstånd för röstfeedback

När Röst tillämpas korrekt förstår användaren vad de kan säga och får tydlig feedback om att systemet hörde dem korrekt. Dessa två signaler gör att användaren känner sig säker på att använda Voice som primär indata. Nedan visas ett diagram som visar vad som händer med markören när röstinmatning identifieras och hur den kommunicerar det till användaren.

1. Normalt markörtillstånd

2. Kommunicerar röstfeedback och försvinner sedan

*3. Normalt markörtillstånd
3. Återgår till normalt markörtillstånd

De viktigaste sakerna som användarna bör känna till om "tal" i mixad verklighet

Säg "Välj" när du riktar en knapp (du kan använda den var som helst för att välja en knapp).
Du kan säga etikettnamnet på en appfältknapp i vissa appar för att vidta en åtgärd. När du till exempel tittar på en app kan en användare säga kommandot "Ta bort" för att ta bort appen från världen (detta sparar tid från att behöva välja den med din hand).
Du kan börja cortana lyssna genom att säga "Hej Cortana". Du kan ställa frågor till henne ("Hey Cortana, how tall is the Eiffel tower"), be henne att öppna en app ("Hey Cortana, open Netflix") eller be henne att ta upp Start-menyn ("Hey Cortana, take me home") med mera.

Vanliga frågor och problem som användare har om röst

Vad kan jag säga?
Hur gör jag för att vet att systemet hörde mig korrekt?
- Systemet får hela tiden mina röstkommandon fel.
- Den reagerar inte när jag ger den ett röstkommando.
Den reagerar på fel sätt när jag ger den ett röstkommando.
Hur gör jag för att rikta min röst mot ett specifikt app- eller appkommando?
Kan jag använda röst för att styra saker i den holografiska ramen på HoloLens?

Kommunikation

För program som vill dra nytta av de anpassade alternativen för bearbetning av ljudindata från HoloLens är det viktigt att förstå de olika ljudströmkategorierna som appen kan använda. Windows 10 stöder flera olika strömkategorier och HoloLens använder tre av dessa för att möjliggöra anpassad bearbetning för att optimera mikrofonljudkvaliteten som är skräddarsydd för tal, kommunikation och andra, som kan användas för scenarier med ljudinspelning i omgivningsmiljön (dvs. "videokamera").

Kategorin AudioCategory_Communications ström är anpassad för samtalskvalitet och berättarröstscenarier och ger klienten en 16 kHz 24-bitars monoljudström av användarens röst
Kategorin AudioCategory_Speech ström är anpassad för HoloLens-talmotorn (Windows) och ger den en 24-bitars 24-bitars monoström med användarens röst. Den här kategorin kan användas av talmotorer från tredje part om det behövs.
Kategorin AudioCategory_Other ström är anpassad för ljudinspelning i omgivningsmiljön och ger klienten en 48 kHz 24-bitars stereoljudström.

All denna ljudbearbetning är maskinvaruaccelererad, vilket innebär att funktionerna förbrukar mycket mindre kraft än om samma bearbetning gjordes på HoloLens CPU. Undvik att köra annan bearbetning av ljudindata på processorn för att maximera systemets batteritid och dra nytta av den inbyggda, avlastade ljudinmatningsbearbetningen.

Språk

HoloLens 2 stöder flera språk. Tänk på att talkommandon alltid körs på systemets visningsspråk även om flera tangentbord är installerade eller om appar försöker skapa en taligenkänning på ett annat språk.

Felsökning

Om du har problem med att använda "select" och "Hey Cortana" kan du prova att flytta till ett tystare utrymme, vända dig bort från källan till bruset eller genom att tala högre. För närvarande är all taligenkänning på HoloLens justerad och optimerad specifikt för infödda talare av USA engelska.

För Windows Mixed Reality Developer Edition version 2017 fungerar logiken för hantering av ljudslutpunkter bra (för alltid) efter utloggning och tillbaka till datorns skrivbord efter den första HMD-anslutningen. Innan den första utloggningen/i händelse efter att ha gått igenom WMR OOBE, kunde användaren uppleva olika problem med ljudfunktioner som sträcker sig från inget ljud till ingen ljudväxling beroende på hur systemet konfigurerades innan HMD ansluts för första gången.

Röstinmatning i MRTK (Mixed Reality Toolkit) för Unity

Med MRTK kan du enkelt tilldela röstkommando på alla objekt. Använd MRTK:s speech input-profil för att definiera dina nyckelord. Genom att tilldela SpeechInputHandler-skript kan du få alla objekt att svara på nyckelorden som definierats i speech-indataprofilen. SpeechInputHandler tillhandahåller också en etikett för talbekräftelse för att förbättra användarens förtroende.

MRTK – röstkommando

Dela via

Röstinmatning

Röst och blick

Stöd för enheter

Kommandot "select"

Hey Cortana

"Se det, säg det"

Röstkommandon för snabb hologrammanipulering

Identifiera röstkommandon

Diktamen

Lägga till röstkommandon i din app

Bästa praxis

Fördelar med röstinmatning

Utmaningar för röstinmatning

Tillstånd för röstfeedback

De viktigaste sakerna som användarna bör känna till om "tal" i mixad verklighet

Vanliga frågor och problem som användare har om röst

Kommunikation

Språk

Felsökning

Röstinmatning i MRTK (Mixed Reality Toolkit) för Unity

Se även

Ytterligare resurser