Spraakinvoer

Voice input

Spraak is een van de belangrijkste invoervormen op HoloLens. Hiermee kunt u een hologram rechtstreeks opdracht geven zonder dat u handbewegingen hoeft te gebruiken. Spraakinvoer kan een natuurlijke manier zijn om uw intentie te communiceren. Spraak is vooral handig bij het doorlopen van complexe interfaces, omdat gebruikers met één opdracht door geneste menu's kunnen bladeren.

Spraakinvoer wordt mogelijk gemaakt door dezelfde engine die spraak ondersteunt in alle Universal Windows Apps. In HoloLens werkt spraakherkenning altijd in de Windows weergavetaal die is geconfigureerd in uw apparaat Instellingen.


Stem en kijk

Wanneer u spraakopdrachten, hoofd- of oogklikken gebruikt, is dit het gebruikelijke doelmechanisme, of u nu een cursor gebruikt om te selecteren of om uw opdracht door te sturen naar een toepassing die u bekijkt. Het kan zelfs niet nodig zijn om een blikcursor weer te geven (zie deze, zeg het). Voor sommige spraakopdrachten is helemaal geen doel vereist, zoals 'ga naar start' of 'Hey Cortana'.


Ondersteuning voor apparaten

Functie HoloLens (1e generatie) HoloLens 2 Insluitende headsets
Spraakinvoer ✔️ ✔️ ✔️ (met microfoon)

De opdracht 'selecteren'

HoloLens (1e generatie)

Zelfs zonder specifiek spraakondersteuning toe te voegen aan uw app, kunnen uw gebruikers hologrammen activeren door de systeemstemopdracht 'selecteren' te zeggen. Dit gedraagt zich hetzelfde als een luchttik op HoloLens, druk op de knop selecteren op de HoloLens clicker of druk op de trigger op een Windows Mixed Reality bewegingscontroller. U hoort een geluid en ziet knopinfo met 'selecteren' als bevestiging. 'Selecteren' is ingeschakeld door een algoritme voor detectie van trefwoorden met een laag vermogen, wat betekent dat u dit op elk gewenst moment kunt zeggen met minimale impact op de batterijduur. U kunt zelfs 'selecteren' zeggen met uw handen aan uw kant.



HoloLens 2

Als u de spraakopdracht 'selecteren' in HoloLens 2 wilt gebruiken, moet u eerst de muiscursor weergeven om te gebruiken als aanwijzer. De opdracht om het weer te geven, is gemakkelijk te onthouden, zeg gewoon, 'selecteren'.

Als u de modus wilt afsluiten, gebruikt u uw handen opnieuw door lucht te tikken, een knop met uw vingers te benaderen of met behulp van de systeembeweging.

Afbeelding: Zeg 'selecteren' om de spraakopdracht voor selectie te gebruiken

A user can say



Hey Cortana

U kunt 'Hey Cortana' zeggen om op elk gewenst moment Cortana weer te geven. Je hoeft niet te wachten totdat ze haar je vraag blijft stellen of haar een instructie geeft. Probeer bijvoorbeeld 'Hey Cortana, wat is het weer?' te zeggen als één zin. Voor meer informatie over Cortana en wat u kunt doen, vraagt u haar! Zeg 'Hey Cortana, wat kan ik zeggen?' en ze haalt een lijst met werkende en voorgestelde opdrachten op. Als u zich al in de Cortana-app bevindt, selecteert u het pictogram ? op de zijbalk om hetzelfde menu weer te geven.

HoloLens-specifieke opdrachten

  • "Wat kan ik zeggen?"
  • "Ga naar start" - in plaats van te bloeien om naar het startmenu te gaan
  • 'App starten<>'
  • "App hier verplaatsen<>"
  • "Een foto maken"
  • "Opname starten"
  • "Opname stoppen"
  • "Handstraal weergeven"
  • "Handstraal verbergen"
  • "Verhoog de helderheid"
  • "De helderheid verlagen"
  • "Verhoog het volume"
  • "Het volume verkleinen"
  • "Dempen" of "Dempen opheffen"
  • "Het apparaat afsluiten"
  • "Start het apparaat opnieuw op"
  • "Ga naar slaap"
  • "Hoe laat is het?"
  • Hoeveel batterij heb ik nog?


"Zie het, zeg het"

HoloLens heeft een model voor spraakinvoer, waarbij labels op knoppen gebruikers vertellen welke spraakopdrachten ze ook kunnen zeggen. Wanneer u bijvoorbeeld een app-venster in HoloLens (1e generatie) bekijkt, kan een gebruiker de opdracht 'Aanpassen' zeggen om de positie van de app in de wereld aan te passen.

Afbeelding: Een gebruiker kan de opdracht 'Aanpassen' zeggen, die ze in de app-balk zien om de positie van de app aan te passen

space
When looking at an app window or hologram, a user can say the


Wanneer apps deze regel volgen, kunnen gebruikers eenvoudig begrijpen wat ze moeten zeggen om het systeem te beheren. Terwijl u naar een knop in HoloLens (1e generatie) kijkt, ziet u de knopinfo 'voice dwell' die na een seconde verschijnt als de knop spraak ingeschakeld is en de opdracht weergeeft om 'druk' te spreken. Als u knopinfo wilt weergeven in HoloLens 2, geeft u de spraakcursor weer door 'selecteren' of 'Wat kan ik zeggen' te zeggen (Zie afbeelding).

Afbeelding: 'Zie het, zeg het' opdrachten worden onder de knoppen weergegeven

See it, say it commands appear below the buttons



Spraakopdrachten voor snelle hologrammanipulatie

Er zijn veel spraakopdrachten die u kunt zeggen terwijl u naar een hologram kijkt om snel bewerkingstaken uit te voeren. Deze spraakopdrachten werken met app-vensters en 3D-objecten die u ter wereld hebt geplaatst.

Hologrammanipulatieopdrachten

  • Gezicht mij
  • Grotere | Verbeteren
  • Kleinere

Op HoloLens 2 kunt u ook meer natuurlijke interacties maken in combinatie met oogklikken, wat impliciet contextuele informatie biedt over wat u verwijst. U kunt bijvoorbeeld naar een hologram kijken en ' zet dit' zeggen en kijk vervolgens naar waar u het wilt plaatsen en zeg ' hier'. Of je kunt een holografisch onderdeel op een complexe machine bekijken en zeggen: "geef me meer informatie over dit".

Spraakopdrachten detecteren

Sommige opdrachten, zoals de opdrachten voor snelle manipulatie hierboven, kunnen worden verborgen. Als u wilt weten welke opdrachten u kunt gebruiken, kijkt u naar een object en zegt u: 'Wat kan ik zeggen?'. Er wordt een lijst met mogelijke opdrachten weergegeven. U kunt ook de hoofdblikcursor gebruiken om de knopinfo voor spraak voor u te bekijken en weer te geven.

Als u een volledige lijst wilt, zegt u altijd 'Alle opdrachten weergeven'.

Dicteren

In plaats van te typen met luchttikjes, kan spraakdicteren efficiënter zijn om tekst in een app in te voeren. Dit kan de invoer aanzienlijk versnellen met minder inspanning voor de gebruiker.

Voice dictation starts by selecting the microphone button
Spraakdicteren begint met het selecteren van de microfoonknop op het toetsenbord

Wanneer het holografische toetsenbord actief is, kunt u overschakelen naar de dicteermodus in plaats van te typen. Selecteer de microfoon aan de zijkant van het tekstvak om aan de slag te gaan.

Spraakopdrachten toevoegen aan uw app

Overweeg spraakopdrachten toe te voegen aan elke ervaring die u bouwt. Spraak is een krachtige manier om het systeem en de apps te beheren. Omdat gebruikers met verschillende soorten dialecten en accenten spreken, zorgt de juiste keuze voor spraaktrefwoorden ervoor dat de opdrachten van uw gebruikers ondubbelzinnig worden geïnterpreteerd.

Aanbevolen procedures

Hieronder vindt u enkele procedures die u helpen bij vloeiende spraakherkenning.

  • Gebruik beknopte opdrachten : kies indien mogelijk trefwoorden van twee of meer lettergrepen. Woorden met één lettergreep gebruiken vaak verschillende klinkers wanneer ze worden uitgesproken door personen met verschillende accenten. Voorbeeld: 'Video afspelen' is beter dan 'De geselecteerde video afspelen'
  • Eenvoudige woordenlijst gebruiken - Voorbeeld: 'Opmerking weergeven' is beter dan 'Toon placard'
  • Zorg ervoor dat opdrachten niet-destructief zijn . Zorg ervoor dat spraakopdrachtacties niet-destructief zijn en kunnen eenvoudig ongedaan worden gemaakt als een andere persoon die in de buurt van de gebruiker spreekt per ongeluk een opdracht activeert.
  • Vermijd vergelijkbare geluidsopdrachten : vermijd het registreren van meerdere spraakopdrachten die vergelijkbaar klinken. Voorbeeld: 'Meer weergeven' en 'Winkel weergeven' kunnen vergelijkbaar klinken.
  • De registratie van uw app ongedaan maken wanneer deze niet wordt gebruikt : wanneer uw app geen status heeft waarin een bepaalde spraakopdracht geldig is, kunt u de registratie ervan ongedaan maken, zodat andere opdrachten niet in de war zijn voor die.
  • Testen met verschillende accenten : test uw app met gebruikers van verschillende accenten.
  • Consistentie van spraakopdrachten behouden: als 'Terug' naar de vorige pagina gaat, houdt u dit gedrag in uw toepassingen bij.
  • Vermijd het gebruik van systeemopdrachten : de volgende spraakopdrachten zijn gereserveerd voor het systeem, dus vermijd het gebruik ervan in uw toepassingen:
    • "Hey Cortana"
    • "Selecteren"
    • "Ga naar start"

Voordelen van spraakinvoer

Spraakinvoer is een natuurlijke manier om onze intenties te communiceren. Spraak is vooral goed in interface traversals , omdat het gebruikers kan helpen om meerdere stappen van een interface te doorlopen. Een gebruiker kan 'teruggaan' zeggen tijdens het bekijken van een webpagina, in plaats van omhoog te gaan en op de knop Terug te drukken in de app. Deze kleine tijdbesparing heeft een krachtig emotioneel effect op de perceptie van de ervaring van de gebruiker en geeft ze een kleine hoeveelheid superkracht. Het gebruik van spraak is ook een handige invoermethode wanneer we onze armen vol hebben of meerdere taken uitvoeren. Op apparaten waarbij typen op een toetsenbord moeilijk is, kan spraakdicteren een efficiënte alternatieve manier zijn om tekst in te voeren. Ten slotte, in sommige gevallen wanneer het bereik van nauwkeurigheid voor gazen en beweging beperkt is, kan spraak helpen om de intentie van de gebruiker niet duidelijk te maken.

Hoe u spraak gebruikt, kan de gebruiker profiteren

  • Vermindert de tijd - het moet het einddoel efficiënter maken.
  • Minimaliseert de inspanning- het moet taken vloeiender en moeiteloos maken.
  • Vermindert de cognitieve belasting: het is intuïtief, gemakkelijk te leren en te onthouden.
  • Het is sociaal acceptabel - het moet passen bij maatschappelijke normen van gedrag.
  • Het is routine- stem kan gemakkelijk een normaal gedrag worden.

Uitdagingen voor spraakinvoer

Hoewel spraakinvoer geweldig is voor veel verschillende toepassingen, wordt het ook geconfronteerd met verschillende uitdagingen. Door inzicht te krijgen in zowel de voordelen als uitdagingen voor spraakinvoer, kunnen app-ontwikkelaars slimmere keuzes maken voor hoe en wanneer spraakinvoer moet worden gebruikt en een geweldige ervaring voor hun gebruikers kunnen creëren.

Spraakinvoer voor continue invoerbesturing Fijnmazige controle is een van deze besturingselementen. Een gebruiker kan bijvoorbeeld het volume in de muziek-app wijzigen. Ze kan 'luider' zeggen, maar het is niet duidelijk hoe luider het systeem het volume moet maken. De gebruiker kan zeggen: 'Maak het wat luider', maar 'een beetje' is moeilijk te kwantificeren. Het verplaatsen of schalen van hologrammen met spraak is vergelijkbaar moeilijk.

Betrouwbaarheid van spraakinvoerdetectie Hoewel spraakinvoersystemen beter en beter worden, kunnen ze soms een spraakopdracht verkeerd horen en interpreteren. De sleutel is om de uitdaging in uw toepassing aan te pakken. Geef feedback aan uw gebruikers wanneer het systeem luistert en wat het systeem begreep, verduidelijkt mogelijke problemen die de spraak van de gebruikers begrijpen.

Spraakinvoer in gedeelde ruimten Spraak is mogelijk niet sociaal acceptabel in ruimten die u met anderen deelt. Enkele voorbeelden:

  • De gebruiker wil anderen mogelijk niet storen (bijvoorbeeld in een rustige bibliotheek of gedeeld kantoor)
  • Gebruikers voelen zich misschien onhandig om met zichzelf te praten in het openbaar,
  • Een gebruiker kan zich ongemakkelijk voelen bij het dicteren van een persoonlijk of vertrouwelijk bericht (inclusief wachtwoorden) terwijl anderen luisteren

Spraakinvoer van unieke of onbekende woorden Problemen met spraakinvoer komen ook wanneer gebruikers woorden dicteren die mogelijk onbekend zijn voor het systeem, zoals bijnamen, bepaalde taalwoorden of afkortingen.

Learning spraakopdrachten Terwijl het ultieme doel is om op natuurlijke wijze met uw systeem te communiceren, zijn apps vaak nog steeds afhankelijk van specifieke vooraf gedefinieerde spraakopdrachten. Een uitdaging die is gekoppeld aan een aanzienlijke set spraakopdrachten, is hoe u ze leert zonder de gebruiker te overbelasten en hoe de gebruiker deze kan behouden.



Feedbackstatussen voor spraak

Wanneer Voice correct wordt toegepast, begrijpt de gebruiker wat hij of zij kan zeggen en krijgt duidelijk feedback dat het systeem ze correct heeft gehoord. Met deze twee signalen voelt de gebruiker zich zeker van het gebruik van Voice als primaire invoer. Hieronder ziet u een diagram waarin wordt weergegeven wat er met de cursor gebeurt wanneer spraakinvoer wordt herkend en hoe deze met de gebruiker communiceert.

1. Regular cursor state
1. Normale cursorstatus

2. Communicates voice feedback and then disappears
2. Communiceert spraakfeedback en verdwijnt vervolgens

*3. Regular cursor state
3. Keert terug naar de normale cursorstatus




Belangrijkste dingen die gebruikers moeten weten over 'spraak' in mixed reality

  • Zeg 'Selecteren' tijdens het doel van een knop (u kunt deze overal gebruiken om een knop te selecteren).
  • U kunt de labelnaam van een app-balkknop in sommige apps zeggen om een actie uit te voeren. Wanneer een gebruiker bijvoorbeeld naar een app kijkt, kan hij de opdracht 'Verwijderen' zeggen om de app uit de wereld te verwijderen (dit bespaart tijd om deze met uw hand te selecteren).
  • U kunt Cortana luisteren door 'Hey Cortana' te zeggen. Je kunt haar vragen stellen ("Hey Cortana, hoe hoog is de Eiffeltoren"), haar vertellen een app te openen ("Hey Cortana, open Netflix") of haar vertellen het startmenu te openen ("Hey Cortana, breng me mee naar huis") en meer.

Veelgestelde vragen en problemen die gebruikers hebben over spraak

  • Wat kan ik zeggen?
  • Hoe kan ik weet dat het systeem me correct heeft gehoord?
    • Het systeem blijft mijn spraakopdrachten verkeerd krijgen.
    • Het reageert niet wanneer ik het een spraakopdracht geef.
  • Het reageert op de verkeerde manier wanneer ik het een spraakopdracht geef.
  • Hoe kan ik mijn stem richten op een specifieke app- of app-opdracht?
  • Kan ik spraak gebruiken om dingen uit het holografische frame op HoloLens te geven?

Communicatie

Voor toepassingen die gebruik willen maken van de aangepaste opties voor audio-invoerverwerking van HoloLens, is het belangrijk om inzicht te krijgen in de verschillende categorieën voor audiostreams die uw app kan gebruiken. Windows 10 ondersteunt verschillende streamcategorieën en HoloLens maakt gebruik van drie van deze categorieën om aangepaste verwerking mogelijk te maken om de audiokwaliteit van de microfoon te optimaliseren die is afgestemd op spraak, communicatie en andere, die kunnen worden gebruikt voor audioopnamen van omgevingsomgevingen (dat wil zeggen 'emulator'-scenario's).

  • De AudioCategory_Communications streamcategorie is aangepast voor gesprekskwaliteit en gesproken scenario's en biedt de client een 16-kHz 24-bits monoaudiostream van de stem van de gebruiker
  • De AudioCategory_Speech streamcategorie is aangepast voor de HoloLens spraakengine (Windows) en biedt deze een 24-bits monostroom van 16 kHz van de stem van de gebruiker. Deze categorie kan indien nodig door spraakengines van derden worden gebruikt.
  • De AudioCategory_Other streamcategorie is aangepast voor audio-opname van omgevingsomgevingen en biedt de client een 48-kHz 24-bits stereo-audiostream.

Al deze audioverwerking is versneld, wat betekent dat de functies veel minder vermogen verbruiken dan als dezelfde verwerking is uitgevoerd op de HoloLens CPU. Vermijd het uitvoeren van andere audio-invoerverwerking op de CPU om de levensduur van de systeembatterij te maximaliseren en te profiteren van de ingebouwde, offloaded audio-invoerverwerking.

Talen

HoloLens 2 ondersteunt meerdere talen. Houd er rekening mee dat spraakopdrachten altijd worden uitgevoerd in de weergavetaal van het systeem, zelfs als meerdere toetsenborden zijn geïnstalleerd of als apps proberen een spraakherkenning in een andere taal te maken.

Problemen oplossen

Als u problemen ondervindt met het gebruik van 'select' en 'Hey Cortana', probeert u naar een rustigere ruimte te gaan, de bron van ruis te verlaten of door luider te spreken. Op dit moment is alle spraakherkenning op HoloLens speciaal afgestemd en geoptimaliseerd voor native sprekers van Verenigde Staten Engels.

Voor de Windows Mixed Reality Developer Edition release 2017 werkt de logica voor audio-eindpuntbeheer prima (voor altijd) nadat u zich hebt afgelogd en weer bent aangemeld bij het pc-bureaublad na de eerste HMD-verbinding. Voordat dat eerste afmelden/in gebeurtenis na het doorlopen van WMR OOBE, kon de gebruiker verschillende problemen met audiofunctionaliteit ervaren, variërend van geen audio tot geen audioschakeling, afhankelijk van hoe het systeem is ingesteld voordat de HMD voor de eerste keer werd verbonden.



Spraakinvoer in MRTK (Mixed Reality Toolkit) voor Unity

Met MRTK kunt u eenvoudig spraakopdrachten toewijzen aan objecten. Gebruik het spraakinvoerprofiel van MRTK om uw trefwoorden te definiëren. Door een SpeechInputHandler-script toe te wijzen, kunt u elk object laten reageren op de trefwoorden die zijn gedefinieerd in het Spraakinvoerprofiel. SpeechInputHandler biedt ook het label voor spraakbevestiging om het vertrouwen van de gebruiker te verbeteren.


Zie ook