Spraakinvoer

Artikel
07/12/2023

Spraakinvoer

Spraak is een van de belangrijkste vormen van invoer op HoloLens. Hiermee kunt u rechtstreeks een hologram instellen zonder dat u handbewegingen hoeft te gebruiken. Spraakinvoer kan een natuurlijke manier zijn om uw intentie te communiceren. Spraak is vooral goed bij het doorkruisen van complexe interfaces, omdat gebruikers hiermee met één opdracht door geneste menu's kunnen bladeren.

Spraakinvoer wordt mogelijk gemaakt door dezelfde engine die spraak ondersteunt in alle universele Windows-apps. Op HoloLens werkt spraakherkenning altijd in de Windows-weergavetaal die is geconfigureerd in de instellingen van uw apparaat.

Stem en staren

Wanneer u spraakopdrachten gebruikt, is hoofd- of oog staren het typische doelmechanisme, of u nu een cursor gebruikt om te 'selecteren' of om uw opdracht te kanaliseren naar een toepassing die u bekijkt. Het is mogelijk niet eens vereist om een starencursor weer te geven ('zie het, zeg het maar'). Voor sommige spraakopdrachten is helemaal geen doel vereist, zoals 'ga aan de slag' of 'Hey Cortana'.

Ondersteuning voor apparaten

Functie	HoloLens (1e generatie)	HoloLens 2	Immersive headsets
Spraakinvoer	✔️	✔️	✔️ (met microfoon)

De opdracht 'selecteren'

HoloLens (1e generatie)

Zelfs zonder specifiek spraakondersteuning toe te voegen aan uw app, kunnen uw gebruikers hologrammen activeren door simpelweg de systeemstemopdracht 'selecteren' te zeggen. Dit gedraagt zich op dezelfde manier als een luchttik op HoloLens, door op de knop selecteren op de HoloLens-clicker te drukken of op de trigger op een Windows Mixed Reality bewegingscontroller te drukken. U hoort een geluid en er wordt een knopinfo met 'selecteren' weergegeven als bevestiging. 'Selecteren' wordt ingeschakeld door een algoritme voor trefwoorddetectie met laag vermogen, wat betekent dat u het op elk gewenst moment kunt zeggen met minimale impact op de levensduur van de batterij. U kunt zelfs 'selecteren' zeggen met uw handen aan uw zijde.

HoloLens 2

Als u de spraakopdracht 'selecteren' in HoloLens 2 wilt gebruiken, moet u eerst de starencursor openen om deze als aanwijzer te gebruiken. De opdracht om deze weer te geven is gemakkelijk te onthouden. U hoeft alleen maar 'selecteren' te zeggen.

Als u de modus wilt verlaten, gebruikt u uw handen opnieuw door lucht te tikken, een knop met uw vingers te naderen of het systeemgebaar te gebruiken.

Afbeelding: Zeg 'selecteren' om de spraakopdracht voor selectie te gebruiken

Een gebruiker kan 'selecteren' zeggen om de spraakopdracht voor een selectie te gebruiken.

Hey Cortana

U kunt op elk gewenst moment 'Hey Cortana' zeggen om Cortana weer te geven. U hoeft niet te wachten tot ze verschijnt om door te gaan met het stellen van uw vraag of het geven van een instructie. Zeg bijvoorbeeld 'Hey Cortana, what's the weather?' als één zin. Vraag haar voor meer informatie over Cortana en wat u kunt doen. Zeg 'Hey Cortana, what can I say?' en ze haalt een lijst met werkende en voorgestelde opdrachten op. Als u de Cortana-app al hebt geopend, selecteert u het pictogram ? op de zijbalk om hetzelfde menu weer te geven.

HoloLens-specifieke opdrachten

"Wat kan ik zeggen?"
'Ga naar Start' - in plaats van bloeien om naar het Startmenu te gaan
"App starten<>"
"App hierheen verplaatsen<>"
"Een foto maken"
"Opname starten"
"Opname stoppen"
"Handstraal weergeven"
"Handstraal verbergen"
"Verhoog de helderheid"
"De helderheid verlagen"
"Het volume verhogen"
"Volume verlagen"
Dempen of Dempen opheffen
"Het apparaat afsluiten"
"Start het apparaat opnieuw op"
"Ga naar de slaapstand"
"Hoe laat is het?"
"Hoeveel batterij heb ik nog?"

"Zie het, zeg het"

HoloLens heeft een 'see it, say it'-model voor spraakinvoer, waarbij labels op knoppen gebruikers laten weten welke spraakopdrachten ze ook kunnen zeggen. Als u bijvoorbeeld een app-venster in HoloLens (1e generatie) bekijkt, kan een gebruiker de opdracht 'Aanpassen' zeggen om de positie van de app in de wereld aan te passen.

Afbeelding: een gebruiker kan de opdracht 'Aanpassen' zeggen, die hij ziet in de app-balk om de positie van de app aan te passen

Wanneer een app-venster of hologram wordt bekeken, kan een gebruiker de opdracht 'Aanpassen' zeggen die ze zien in de app-balk om de positie van de app in de wereld aan te passen

Wanneer apps deze regel volgen, kunnen gebruikers eenvoudig begrijpen wat ze moeten zeggen om het systeem te beheren. Terwijl u naar een knop in HoloLens (1e generatie) staart, ziet u de knopinfo 'voice dwell' die na een seconde wordt weergegeven als de knop is ingeschakeld voor spraak en de opdracht weergeeft om erop te drukken. Als u knopinfo voor spraak wilt weergeven in HoloLens 2, geeft u de spraakcursor weer door 'selecteren' of 'Wat kan ik zeggen' te zeggen (zie afbeelding).

Afbeelding: de opdrachten 'See it, say it' worden weergegeven onder de knoppen

Zie het, stel dat opdrachten worden weergegeven onder de knoppen

Spraakopdrachten voor snelle hologrammanipulatie

Er zijn veel spraakopdrachten die u kunt zeggen terwijl u naar een hologram staart om snel bewerkingstaken uit te voeren. Deze spraakopdrachten werken in app-vensters en 3D-objecten die u ter wereld hebt geplaatst.

Opdrachten voor hologrammanipulatie

Naar mij toe
Groter | Verbeteren
Kleinere

Op HoloLens 2 kunt u ook meer natuurlijke interacties creëren in combinatie met ogen kijken, waardoor impliciet contextuele informatie wordt geboden over waar u naar verwijst. U kunt bijvoorbeeld naar een hologram kijken en 'put this' zeggen en vervolgens kijken waar u het wilt plaatsen en ' hier' zeggen. Of je kunt kijken naar een holografisch onderdeel op een complexe machine en zeggen: "geef me meer informatie hierover".

Spraakopdrachten detecteren

Sommige opdrachten, zoals de opdrachten voor snelle manipulatie hierboven, kunnen worden verborgen. Als u meer wilt weten over de opdrachten die u kunt gebruiken, staart u naar een object en zegt u: "Wat kan ik zeggen?". Er wordt een lijst met mogelijke opdrachten weergegeven. U kunt ook de hoofdkijkcursor gebruiken om rond te kijken en de knopinfo voor elke knop voor u weer te geven.

Als u een volledige lijst wilt, zegt u op elk gewenst moment 'Alle opdrachten weergeven'.

Dicteren

In plaats van te typen met luchttikken, kan spraakdicteren efficiënter zijn om tekst in een app in te voeren. Dit kan de invoer aanzienlijk versnellen met minder inspanning voor de gebruiker.

Spraakdicteren begint met het selecteren van de microfoonknop op het toetsenbord

Wanneer het holografische toetsenbord actief is, kunt u overschakelen naar de dicteermodus in plaats van te typen. Selecteer de microfoon aan de zijkant van het tekstvak om aan de slag te gaan.

Spraakopdrachten toevoegen aan uw app

Overweeg spraakopdrachten toe te voegen aan elke ervaring die u bouwt. Spraak is een krachtige manier om het systeem en de apps te beheren. Omdat gebruikers met verschillende soorten dialecten en accenten spreken, zorgt de juiste keuze van spraaktrefwoorden ervoor dat de opdrachten van uw gebruikers ondubbelzinnig worden geïnterpreteerd.

Aanbevolen procedures

Hieronder vindt u enkele procedures die helpen bij een soepele spraakherkenning.

Gebruik beknopte opdrachten : kies indien mogelijk trefwoorden van twee of meer lettergrepen. Woorden met één lettergreep hebben de neiging om verschillende klinkergeluiden te gebruiken wanneer ze worden uitgesproken door personen met verschillende accenten. Voorbeeld: 'Video afspelen' is beter dan 'De geselecteerde video afspelen'
Eenvoudige woordenlijst gebruiken : voorbeeld: 'Toon notitie' is beter dan 'Plakkaart weergeven'
Zorg ervoor dat opdrachten niet destructief zijn : zorg ervoor dat alle spraakopdrachten niet-destructief zijn en eenvoudig ongedaan kunnen worden gemaakt voor het geval een andere persoon die in de buurt van de gebruiker spreekt, per ongeluk een opdracht activeert.
Vermijd vergelijkbare klinkende opdrachten : vermijd het registreren van meerdere spraakopdrachten die vergelijkbaar klinken. Voorbeeld: 'Meer weergeven' en 'Store weergeven' kunnen vergelijkbaar klinken.
De registratie van uw app ongedaan maken wanneer deze niet wordt gebruikt : wanneer uw app zich niet in een status bevindt waarin een bepaalde spraakopdracht geldig is, kunt u overwegen de registratie ervan op te heffen, zodat andere opdrachten niet worden verward met die opdracht.
Testen met verschillende accenten : test uw app met gebruikers met verschillende accenten.
Consistentie van spraakopdrachten behouden: als 'Terug' naar de vorige pagina gaat, behoudt u dit gedrag in uw toepassingen.
Vermijd het gebruik van systeemopdrachten : de volgende spraakopdrachten zijn gereserveerd voor het systeem, dus vermijd het gebruik ervan in uw toepassingen:
- "Hey Cortana"
- "Selecteren"
- "Ga naar start"

Voordelen van spraakinvoer

Spraakinvoer is een natuurlijke manier om onze intenties te communiceren. Spraak is vooral goed bij interfacedoorkruisingen , omdat gebruikers hiermee meerdere stappen van een interface kunnen doorlopen. Een gebruiker kan 'teruggaan' zeggen terwijl hij naar een webpagina kijkt, in plaats van omhoog te moeten gaan en op de knop Terug in de app te drukken. Deze kleine tijdsbesparing heeft een krachtig emotioneel effect op de perceptie van de ervaring van de gebruiker en geeft hen een kleine hoeveelheid superkracht. Het gebruik van spraak is ook een handige invoermethode wanneer we onze armen vol hebben of multi-tasking uitvoeren. Op apparaten waar typen op een toetsenbord moeilijk is, kan spraak dicteren een efficiënte alternatieve manier zijn om tekst in te voeren. Ten slotte, in sommige gevallen wanneer het bereik van nauwkeurigheid voor staren en gebaren beperkt is, kan spraak helpen om de intentie van de gebruiker te ondubbelzinnig te maken.

Hoe het gebruik van spraak de gebruiker ten goede kan komen

Verkort de tijd- het einddoel moet efficiënter worden.
Minimaliseert de inspanning- het zou taken vloeiender en moeiteloos moeten maken.
Vermindert de cognitieve belasting: het is intuïtief, eenvoudig te leren en te onthouden.
Het is sociaal acceptabel - het moet passen in maatschappelijke gedragsnormen.
Het is routine- stem kan gemakkelijk een gewoontegedrag worden.

Uitdagingen voor spraakinvoer

Hoewel spraakinvoer geweldig is voor veel verschillende toepassingen, heeft het ook te maken met verschillende uitdagingen. Door de voordelen en uitdagingen van spraakinvoer te begrijpen, kunnen app-ontwikkelaars slimmere keuzes maken over hoe en wanneer ze spraakinvoer moeten gebruiken en een geweldige ervaring voor hun gebruikers kunnen creëren.

Spraakinvoer voor continue invoerbesturing Fijnmazige controle is er een van. Een gebruiker kan bijvoorbeeld het volume in de muziek-app wijzigen. Ze kan 'luider' zeggen, maar het is niet duidelijk hoe luider het systeem het volume moet maken. De gebruiker zou kunnen zeggen: "Maak het een beetje luider", maar "een beetje" is moeilijk te kwantificeren. Het verplaatsen of schalen van hologrammen met stem is ook moeilijk.

Betrouwbaarheid van spraakinvoerdetectie Hoewel spraakinvoersystemen steeds beter worden, kunnen ze soms een spraakopdracht verkeerd horen en interpreteren. De sleutel is om de uitdaging in uw toepassing aan te pakken. Geef uw gebruikers feedback wanneer het systeem luistert en wat het systeem begrijpt, verheldert mogelijke problemen met het begrijpen van de spraak van de gebruikers.

Spraakinvoer in gedeelde ruimten Spraak is mogelijk niet sociaal acceptabel in ruimten die u met anderen deelt. Enkele voorbeelden:

De gebruiker wil anderen mogelijk niet storen (bijvoorbeeld in een stille bibliotheek of een gedeeld kantoor)
Gebruikers kunnen zich ongemakkelijk voelen als ze tegen zichzelf praten in het openbaar,
Een gebruiker kan zich ongemakkelijk voelen bij het dicteren van een persoonlijk of vertrouwelijk bericht (inclusief wachtwoorden) terwijl anderen luisteren

Gesproken invoer van unieke of onbekende woorden Problemen met spraakinvoer doen zich ook voor wanneer gebruikers woorden dicteren die mogelijk onbekend zijn in het systeem, zoals bijnamen, bepaalde taalwoorden of afkortingen.

Spraakopdrachten leren Hoewel het uiteindelijke doel is om op natuurlijke wijze te communiceren met uw systeem, zijn apps vaak nog steeds afhankelijk van specifieke vooraf gedefinieerde spraakopdrachten. Een uitdaging die gepaard gaat met een aanzienlijke set spraakopdrachten, is hoe u deze kunt leren zonder de gebruiker te overbelasten en hoe u de gebruiker kunt helpen deze te behouden.

Statussen van spraakfeedback

Wanneer Voice correct wordt toegepast, begrijpt de gebruiker wat hij kan zeggen en krijgt hij duidelijke feedback die het systeem correct heeft gehoord. Deze twee signalen zorgen ervoor dat de gebruiker zich zeker voelt bij het gebruik van Voice als primaire invoer. Hieronder ziet u een diagram dat laat zien wat er met de cursor gebeurt wanneer spraakinvoer wordt herkend en hoe deze dit aan de gebruiker doorgeeft.

1. Normale cursorstatus

2. Communiceert spraakfeedback en verdwijnt vervolgens

*3. Normale cursorstatus
3. Keert terug naar de normale cursorstatus

Belangrijkste dingen die gebruikers moeten weten over 'spraak' in mixed reality

Zeg 'Selecteren' wanneer u een knop target (u kunt deze overal gebruiken om een knop te selecteren).
U kunt de labelnaam van een app-balkknop in sommige apps zeggen om een actie te ondernemen. Tijdens het kijken naar een app kan een gebruiker bijvoorbeeld de opdracht 'Verwijderen' zeggen om de app uit de wereld te verwijderen (dit bespaart tijd om deze met uw hand te selecteren).
U kunt Cortana laten luisteren door 'Hey Cortana' te zeggen. U kunt haar vragen stellen ('Hey Cortana, how tall is the Eiffel tower'), haar vertellen een app te openen ('Hey Cortana, open Netflix'), of haar vertellen het Startmenu te openen ('Hey Cortana, take me home') en meer.

Veelgestelde vragen en zorgen die gebruikers hebben over spraak

Wat kan ik zeggen?
Hoe kan ik weet dat het systeem me goed heeft gehoord?
- Het systeem blijft mijn spraakopdrachten verkeerd krijgen.
- Het reageert niet als ik het een spraakopdracht geef.
Het reageert verkeerd als ik het een spraakopdracht geef.
Hoe kan ik mijn stem richten op een specifieke app of app-opdracht?
Kan ik spraak gebruiken om dingen uit het holografische frame op HoloLens te bevelen?

Communicatie

Voor toepassingen die willen profiteren van de aangepaste audio-invoerverwerkingsopties van HoloLens, is het belangrijk om de verschillende audiostreamcategorieën te begrijpen die uw app kan gebruiken. Windows 10 ondersteunt verschillende streamcategorieën en HoloLens maakt gebruik van drie hiervan om aangepaste verwerking mogelijk te maken om de audiokwaliteit van de microfoon te optimaliseren die is afgestemd op spraak, communicatie en andere, die kan worden gebruikt voor het vastleggen van omgevingsaudio (dat wil zeggen' 'camcorder').

De categorie AudioCategory_Communications stream is aangepast voor scenario's met gesprekskwaliteit en gesproken tekst en biedt de client een 16 kHz 24-bits mono-audiostream van de stem van de gebruiker
De categorie AudioCategory_Speech stream is aangepast voor de spraakengine HoloLens (Windows) en biedt deze een 24-bits monostream van 16 kHz van de stem van de gebruiker. Deze categorie kan indien nodig worden gebruikt door spraakengines van derden.
De categorie AudioCategory_Other stream is aangepast voor het opnemen van omgevingsaudio en biedt de client een 48 kHz 24-bits stereoaudiostream.

Al deze audioverwerking is hardware versneld, wat betekent dat de functies veel minder stroom verbruiken dan wanneer dezelfde verwerking werd uitgevoerd op de HoloLens CPU. Vermijd het uitvoeren van andere audio-invoerverwerking op de CPU om de levensduur van de batterij van het systeem te maximaliseren en te profiteren van de ingebouwde, offloaded audio-invoerverwerking.

Talen

HoloLens 2 ondersteunt meerdere talen. Houd er rekening mee dat spraakopdrachten altijd worden uitgevoerd in de weergavetaal van het systeem, zelfs als er meerdere toetsenborden zijn geïnstalleerd of als apps proberen een spraakherkenningsfunctie in een andere taal te maken.

Problemen oplossen

Als u problemen ondervindt met het gebruik van 'selecteren' en 'Hey Cortana', kunt u naar een rustigere ruimte gaan, zich afkeren van de bron van ruis of harder spreken. Op dit moment is alle spraakherkenning op HoloLens speciaal afgestemd en geoptimaliseerd voor moedertaalsprekers van Verenigde Staten Engels.

Voor de Windows Mixed Reality Developer Edition-release 2017 werkt de logica voor audio-eindpuntbeheer (voor altijd) goed nadat u zich hebt afgelogd en weer bent aangemeld bij het pc-bureaublad na de eerste HMD-verbinding. Vóór die eerste afmelding/in gebeurtenis na het doorlopen van WMR OOBE, kon de gebruiker verschillende problemen met de audiofunctionaliteit ervaren, variërend van geen audio tot geen audio-overschakeling, afhankelijk van hoe het systeem was ingesteld voordat de HMD voor de eerste keer werd verbonden.

Spraakinvoer in MRTK (Mixed Reality Toolkit) voor Unity

Met MRTK kunt u eenvoudig spraakopdrachten toewijzen aan alle objecten. Gebruik het spraakinvoerprofiel van MRTK om uw trefwoorden te definiëren. Door het SpeechInputHandler-script toe te wijzen, kunt u elk object laten reageren op de trefwoorden die zijn gedefinieerd in het spraakinvoerprofiel. SpeechInputHandler biedt ook een label voor spraakbevestiging om het vertrouwen van de gebruiker te verbeteren.

MRTK - Spraakopdracht

Delen via

Spraakinvoer

Stem en staren

Ondersteuning voor apparaten

De opdracht 'selecteren'

Hey Cortana

"Zie het, zeg het"

Spraakopdrachten voor snelle hologrammanipulatie

Spraakopdrachten detecteren

Dicteren

Spraakopdrachten toevoegen aan uw app

Aanbevolen procedures

Voordelen van spraakinvoer

Uitdagingen voor spraakinvoer

Statussen van spraakfeedback

Belangrijkste dingen die gebruikers moeten weten over 'spraak' in mixed reality

Veelgestelde vragen en zorgen die gebruikers hebben over spraak

Communicatie

Talen

Problemen oplossen

Spraakinvoer in MRTK (Mixed Reality Toolkit) voor Unity

Zie ook

Aanvullende resources