Röstinmatning

Voice input

Voice är en av de viktigaste formerna av indata på HoloLens. Det gör att du kan styra ett hologram direkt utan att behöva använda handgester. Röstinmatning kan vara ett naturligt sätt att kommunicera din avsikt. Röst är särskilt bra på att bläddra i komplexa gränssnitt, eftersom det gör att användarna kan klippa igenom kapslade menyer med ett kommando.

Röstindata drivs av samma motor som stöder tal i alla Universal Windows Apps. På HoloLens fungerar taligenkänning alltid på det Windows visningsspråk som konfigurerats i enheten Inställningar.


Röst och blick

När du använder röstkommandon är huvud- eller ögonögonmekanismen den typiska målmekanismen, oavsett om du använder en markör för att "välja" eller för att kanalisera kommandot till ett program som du tittar på. Det kanske inte ens krävs för att visa någon blickmarkör ("se det, säg det"). Vissa röstkommandon kräver inte något mål alls, till exempel "gå till start" eller "Hej Cortana".


Stöd för enheter

Funktion HoloLens (första generationen) HoloLens 2 Integrerande headset
Röstinmatning ✔️ ✔️ ✔️ (med mikrofon)

Kommandot "select"

HoloLens (första generationen)

Även om du inte specifikt lägger till röststöd i din app kan användarna aktivera hologram genom att helt enkelt säga att röstkommandot för systemet "välj". Detta fungerar på samma sätt som en lufttryckning på HoloLens, trycker på knappen Välj på HoloLens eller trycker på utlösaren på en Windows Mixed Reality rörelsestyrenhet. Du hör ett ljud och en knappbeskrivning med "select" visas som en bekräftelse. "Välj" aktiveras av en algoritm för nyckelordsidentifiering med låg effekt, vilket innebär att du kan säga det när som helst med minimal inverkan på batterilivslängden. Du kan till och med säga "välj" med händerna vid din sida.



HoloLens 2

Om du vill använda röstkommandot "select" i HoloLens 2 måste du först ta upp blickmarkören för att använda som pekare. Kommandot för att ta upp det är enkelt att komma ihåg – säg bara "välj".

Om du vill avsluta läget använder du händerna igen genom att trycka på luft, närma dig en knapp med fingrarna eller använda systemgesten.

Bild: Säg "välj" för att använda röstkommandot för val

A user can say



Hey Cortana

Du kan säga "Hej Cortana" för att ta upp Cortana när som helst. Du behöver inte vänta på att hon ska fortsätta ställa din fråga eller ge henne en instruktion. Prova till exempel att säga "Hej Cortana, vad är vädret?" som en enda mening. För mer information om Cortana och vad du kan göra, fråga henne! Säg "Hej Cortana, vad kan jag säga?" och hon kommer att hämta en lista över fungerande och föreslagna kommandon. Om du redan är i appen Cortana väljer du ikonen ? i sidofältet för att hämta samma meny.

HoloLens-specifika kommandon

  • "Vad kan jag säga?"
  • "Gå till start" – i stället för att blomma för att komma till Start-menyn
  • "Starta <app>"
  • "Flytta <appen> hit"
  • "Ta en bild"
  • "Starta inspelning"
  • "Stoppa inspelning"
  • "Visa handstråle"
  • "Dölj handstråle"
  • "Öka ljusstyrkan"
  • "Minska ljusstyrkan"
  • "Öka volymen"
  • "Minska volymen"
  • "Stäng av" eller "Slå på ljudet"
  • "Stäng av enheten"
  • "Starta om enheten"
  • "Gå och lägg dig"
  • "Vilken tid är det?"
  • "Hur mycket batteri har jag kvar?"


"Se det, säg det"

HoloLens har en "see it, say it"-modell för röstinmatning, där etiketter på knappar också talar om för användarna vilka röstkommandon de kan säga. När du till exempel tittar på ett appfönster i HoloLens (första generationen) kan en användare säga kommandot "Justera" för att justera appens position i världen.

Bild: En användare kan säga kommandot "Justera", som de ser i appfältet för att justera appens position

space
When looking at an app window or hologram, a user can say the


När appar följer den här regeln kan användarna enkelt förstå vad de ska säga för att styra systemet. När du tittar på en knapp i HoloLens (1:a generationen) ser du en knappbeskrivning för "röstboende" som kommer upp efter en sekund om knappen är röstaktiverad och visar kommandot för att tala till "tryck" på den. Om du vill visa knappbeskrivningar för röst i HoloLens 2 visar du röstmarkören genom att säga "select" eller "What can I say" (Se bild).

Bild: Kommandona "Se det, säg det" visas under knapparna

See it, say it commands appear below the buttons



Röstkommandon för snabb hologrammanipulering

Det finns många röstkommandon som du kan säga när du tittar på ett hologram för att snabbt utföra manipulationsuppgifter. Dessa röstkommandon fungerar på appfönster och 3D-objekt som du har placerat i världen.

Hologrammanipuleringskommandon

  • Vänd dig mot mig
  • Större | Förbättra
  • Mindre

På HoloLens 2 kan du också skapa mer naturliga interaktioner i kombination med blick, vilket implicit ger kontextuell information om vad du refererar till. Du kan till exempel titta på ett hologram och säga "placera det här" och sedan titta över var du vill placera det och säga " här borta". Eller så kan du titta på en holografisk del på en komplex dator och säga: "Ge mig mer information om detta".

Identifiera röstkommandon

Vissa kommandon, till exempel kommandon för snabb manipulering ovan, kan döljas. Om du vill veta mer om vilka kommandon du kan använda kan du titta på ett objekt och säga "vad kan jag säga?". En lista över möjliga kommandon visas. Du kan också använda huvudblicksmarkören för att titta runt och visa röstknapparna för varje knapp framför dig.

Om du vill ha en fullständig lista kan du säga "Visa alla kommandon" när som helst.

Diktamen

I stället för att skriva med lufttryck kan röstdiktering vara mer effektivt för att ange text i en app. Detta kan avsevärt påskynda indata med mindre ansträngning för användaren.

Voice dictation starts by selecting the microphone button
Röstdikteringen börjar med att välja mikrofonknappen på tangentbordet

När det holografiska tangentbordet är aktivt kan du växla till dikteringsläge i stället för att skriva. Välj mikrofonen på sidan av textinmatningsrutan för att komma igång.

Lägga till röstkommandon i din app

Överväg att lägga till röstkommandon i alla funktioner som du skapar. Röst är ett kraftfullt sätt att styra systemet och apparna. Eftersom användarna talar med olika typer av dialekter och accenter ser rätt val av talnyckelord till att användarnas kommandon tolkas entydigt.

Bästa praxis

Nedan visas några metoder som underlättar smidig taligenkänning.

  • Använd koncisa kommandon – När det är möjligt väljer du nyckelord för två eller flera stavelser. Enstaviga ord tenderar att använda olika vokalljud när de talas av personer med olika accenter. Exempel: "Spela upp video" är bättre än "Spela upp den valda videon"
  • Använd enkel vokabulär – Exempel: "Visa anteckning" är bättre än "Visa plakat"
  • Kontrollera att kommandona är icke-destruktiva – Kontrollera att alla talkommandoåtgärder är icke-destruktiva och enkelt kan ångras om en annan person som talar nära användaren av misstag utlöser ett kommando.
  • Undvik liknande ljudkommandon – Undvik att registrera flera talkommandon som låter liknande. Exempel: "Visa mer" och "Visa butik" kan vara liknande klingande.
  • Avregistrera din app när den inte används – När appen inte är i ett tillstånd där ett visst talkommando är giltigt bör du överväga att avregistrera den så att andra kommandon inte förväxlas för den.
  • Testa med olika accenter – Testa din app med användare med olika accenter.
  • Upprätthålla konsekvens för röstkommandot – Om "Gå tillbaka" går till föregående sida kan du behålla det här beteendet i dina program.
  • Undvik att använda systemkommandon – Följande röstkommandon är reserverade för systemet, så undvik att använda dem i dina program:
    • "Hej Cortana"
    • "Välj"
    • "Gå till start"

Fördelar med röstinmatning

Röstinmatning är ett naturligt sätt att kommunicera våra avsikter. Röst är särskilt bra på gränssnittsblädderingar eftersom det kan hjälpa användare att gå igenom flera steg i ett gränssnitt. En användare kan säga "gå tillbaka" när han eller hon tittar på en webbsida, i stället för att behöva gå upp och trycka på bakåtknappen i appen. Denna lilla tidsbesparing har en kraftfull känslomässig effekt på användarens uppfattning av upplevelsen och ger dem en liten mängd superkrafter. Att använda röst är också en praktisk indatametod när vi har armarna fulla eller är multi-tasking. På enheter där det är svårt att skriva på ett tangentbord kan röstdiktering vara ett effektivt alternativt sätt att mata in text. Slutligen, i vissa fall när noggrannheten för blick och gest är begränsad, kan röst hjälpa till att skilja användarens avsikt.

Hur du använder röst kan vara till nytta för användaren

  • Minskar tiden – det bör göra slutmålet mer effektivt.
  • Minimerar arbetet – det bör göra uppgifterna mer flytande och smidiga.
  • Minskar den kognitiva belastningen – det är intuitivt, enkelt att lära sig och komma ihåg.
  • Det är socialt acceptabelt - det bör passa in i samhällets normer för beteende.
  • Det är rutin - röst kan lätt bli ett vanligt beteende.

Utmaningar för röstinmatning

Röstinmatning är bra för många olika program, men den står också inför flera utmaningar. Genom att förstå både fördelarna och utmaningarna med röstinmatning kan apputvecklare göra smartare val för hur och när de ska använda röstinmatning och skapa en bra upplevelse för sina användare.

Röstinmatning för kontinuerlig inmatningskontroll Detaljerad kontroll är en av dem. En användare kanske till exempel vill ändra sin volym i sin musikapp. Hon kan säga "högre", men det är inte klart hur mycket högre systemet ska göra volymen. Användaren kan säga: "Gör det lite högre", men "lite" är svårt att kvantifiera. Det är på samma sätt svårt att flytta eller skala hologram med röst.

Tillförlitlighet för röstinmatningsidentifiering Även om röstinmatningssystem blir bättre och bättre kan de ibland höra och tolka ett röstkommando felaktigt. Nyckeln är att hantera utmaningen i ditt program. Ge feedback till användarna när systemet lyssnar och vad systemet förstod förtydligar potentiella problem med att förstå användarnas tal.

Röstinmatning i delade utrymmen Röst kanske inte är socialt acceptabelt i utrymmen som du delar med andra. Några exempel:

  • Användaren kanske inte vill störa andra (till exempel i ett tyst bibliotek eller delat kontor)
  • Användare kan känna sig obekväma att ses prata med sig själva offentligt,
  • En användare kan känna sig obekväm med att diktera ett personligt eller konfidentiellt meddelande (inklusive lösenord) medan andra lyssnar

Röstinmatning av unika eller okända ord Problem med röstinmatning kommer också när användare dikterar ord som kan vara okända för systemet, till exempel smeknamn, vissa slangord eller förkortningar.

Learning röstkommandon Även om det slutliga målet är att naturligt samtala med ditt system, förlitar sig appar fortfarande på specifika fördefinierade röstkommandon. En utmaning som är associerad med en betydande uppsättning röstkommandon är hur du lär dem utan att överbelasta användaren och hur du kan hjälpa användaren att behålla dem.



Röstfeedbacktillstånd

När Voice tillämpas korrekt förstår användaren vad de kan säga och får tydlig feedback om att systemet har hört dem korrekt. Dessa två signaler gör att användaren känner sig säker på att använda Voice som primär indata. Nedan visas ett diagram som visar vad som händer med markören när röstinmatning identifieras och hur den kommunicerar det till användaren.

1. Regular cursor state
1. Regelbundet markörtillstånd

2. Communicates voice feedback and then disappears
2. Kommunicerar röstfeedback och försvinner sedan

*3. Regular cursor state
3. Återgår till vanligt markörtillstånd




De viktigaste sakerna som användarna bör känna till om "tal" i mixad verklighet

  • Säg "Välj" när du riktar en knapp (du kan använda den var som helst för att välja en knapp).
  • Du kan säga etikettnamnet på en appfältknapp i vissa appar för att vidta en åtgärd. När du till exempel tittar på en app kan en användare säga kommandot "Ta bort" för att ta bort appen från världen (detta sparar tid från att behöva välja den med din hand).
  • Du kan börja Cortana lyssna genom att säga "Hej Cortana". Du kan ställa hennes frågor ("Hey Cortana, how tall is the Eiffel tower"), be henne att öppna en app ("Hey Cortana, open Netflix"), eller be henne att ta upp Start-menyn ("Hey Cortana, take me home") och mer.

Vanliga frågor och problem som användare har om röst

  • Vad kan jag säga?
  • Hur gör jag för att vet att systemet hörde mig korrekt?
    • Systemet får hela tiden mina röstkommandon fel.
    • Den reagerar inte när jag ger den ett röstkommando.
  • Den reagerar på fel sätt när jag ger den ett röstkommando.
  • Hur gör jag för att rikta min röst mot ett specifikt app- eller appkommando?
  • Kan jag använda röst för att styra ut saker i den holografiska ramen på HoloLens?

Kommunikation

För program som vill dra nytta av de anpassade alternativen för bearbetning av ljudindata som tillhandahålls av HoloLens är det viktigt att förstå de olika ljudströmskategorierna som appen kan använda. Windows 10 har stöd för flera olika strömkategorier och HoloLens använder tre av dessa för att möjliggöra anpassad bearbetning för att optimera mikrofonens ljudkvalitet anpassad för tal, kommunikation och andra, som kan användas för scenarier med ljudinspelning i omgivningsmiljön (dvs. "videokamera").

  • Kategorin AudioCategory_Communications ström är anpassad för samtalskvalitets- och berättarscenarier och ger klienten en 24-bitars monoljudström på 16 kHz av användarens röst
  • AudioCategory_Speech strömkategorin är anpassad för HoloLens-talmotorn (Windows) och ger den en 24-bitars monoström på 16 kHz av användarens röst. Den här kategorin kan användas av talmotorer från tredje part om det behövs.
  • Kategorin AudioCategory_Other ström är anpassad för ljudinspelning i omgivningsmiljön och ger klienten en 24-bitars stereoljudström med 48 kHz.

All denna ljudbearbetning är maskinvaruaccelererad, vilket innebär att funktionerna rinner mycket mindre ström än om samma bearbetning gjordes på HoloLens CPU. Undvik att köra annan bearbetning av ljudindata på processorn för att maximera systemets batteritid och dra nytta av den inbyggda, avlastade ljudinmatningsbearbetningen.

Språk

HoloLens 2 stöder flera språk. Tänk på att talkommandon alltid körs på systemets visningsspråk även om flera tangentbord är installerade eller om appar försöker skapa en taligenkänning på ett annat språk.

Felsökning

Om du har problem med att använda "select" och "Hey Cortana" kan du prova att flytta till ett lugnare utrymme, vända dig bort från källan till bruset eller genom att tala högre. För närvarande är all taligenkänning på HoloLens inställd och optimerad specifikt för inbyggda talare av USA engelska.

För Windows Mixed Reality Developer Edition version 2017 fungerar logiken för hantering av ljudslutpunkter bra (för alltid) när du har loggat ut och tillbaka till datorns skrivbord efter den första HMD-anslutningen. Innan den första utloggningen/i händelse efter att ha gått igenom WMR OOBE, kunde användaren uppleva olika ljudfunktionsproblem som sträcker sig från inget ljud till ingen ljudväxling beroende på hur systemet konfigurerades innan HMD för första gången.



Röstinmatning i MRTK (Mixed Reality Toolkit) för Unity

Med MRTK kan du enkelt tilldela röstkommando på alla objekt. Använd MRTK:s talinmatningsprofil för att definiera dina nyckelord. Genom att tilldela SpeechInputHandler-skript kan du få alla objekt att svara på nyckelorden som definierats i talinmatningsprofilen. SpeechInputHandler tillhandahåller också en etikett för talbekräftelse för att förbättra användarens förtroende.


Se även