Input vocale

Articolo
07/12/2023

Input vocale

La voce è una delle forme di input chiave per HoloLens. Consente di eseguire direttamente il comando di un ologramma senza dover usare i movimenti delle mani. L'input vocale può essere un modo naturale di comunicare le intenzioni. La voce è particolarmente utile per attraversare interfacce complesse, perché consente agli utenti di tagliare i menu annidati con un comando.

L'input vocale è basato sullo stesso motore che supporta la voce in tutte le app di Windows universali. In HoloLens il riconoscimento vocale funzionerà sempre nella lingua di visualizzazione di Windows configurata nelle impostazioni del dispositivo.

Voce e sguardo

Quando si usano comandi vocali, testa o sguardo visivo è il tipico meccanismo di destinazione, sia con un cursore da "selezionare" o per incanalare il comando a un'applicazione che si sta esaminando. Potrebbe non essere nemmeno necessario mostrare un cursore di sguardo ("vedilo, dire") . Alcuni comandi vocali non richiedono affatto una destinazione, ad esempio "vai a iniziare" o "Hey Cortana".

Supporto di dispositivi

Funzionalità	HoloLens (prima generazione)	HoloLens 2	Visori VR immersive
Input vocale	✔️	✔	✔️ (con microfono)

Comando "select"

HoloLens (prima generazione)

Anche senza aggiungere in modo specifico il supporto vocale all'app, gli utenti possono attivare gli ologrammi semplicemente dicendo che il comando vocale di sistema "select". Questo comportamento si comporta come un tocco aria su HoloLens, premendo il pulsante di selezione sul clicker HoloLens o premendo il trigger su un controller di movimento Windows Mixed Reality. Si sente un suono e viene visualizzata una descrizione comando con "select" come conferma. "Select" è abilitato da un algoritmo di rilevamento parole chiave a bassa potenza, che significa che è possibile dirlo in qualsiasi momento con un impatto minimo sulla durata della batteria. Puoi anche dire "seleziona" con le mani sul tuo lato.

HoloLens 2

Per usare il comando vocale "select" in HoloLens 2, è prima necessario visualizzare il cursore dello sguardo da usare come puntatore. Il comando da visualizzare è facile da ricordare- solo dire, "select".

Per uscire dalla modalità, usare di nuovo le mani toccando l'aria, avvicinando un pulsante con le dita o usando il movimento di sistema.

Immagine: Dire "select" per usare il comando vocale per la selezione

Un utente può dire

Hey Cortana

Puoi dire "Hey Cortana" per visualizzare Cortana in qualsiasi momento. Non devi aspettare che lei continui a chiederle la tua domanda o a darle un'istruzione. Ad esempio, provare a dire "Hey Cortana, qual è il tempo?" come singola frase. Per altre informazioni su Cortana e su cosa è possibile fare, chiederle! Dire "Hey Cortana, cosa posso dire?" e avrai un elenco di comandi funzionanti e suggeriti. Se si è già presenti nell'app Cortana, selezionare l'icona ? sulla barra laterale per fare clic su questo stesso menu.

Comandi specifici di HoloLens

"Cosa posso dire?"
"Vai a Start" - invece di fiorire per accedere al menu Start
"Avvia <app>"
"Sposta <app> qui"
"Scattare un'immagine"
"Avvia registrazione"
"Arresta registrazione"
"Mostra raggio mano"
"Nascondi raggio mano"
"Aumentare la luminosità"
"Ridurre la luminosità"
"Aumentare il volume"
"Ridurre il volume"
"Mute" o "Unmute"
"Arresta il dispositivo"
"Riavviare il dispositivo"
"Vai a dormire"
"Che ora è?"
"Quanti batteria ho lasciato?"

"Vedilo, Dicilo"

HoloLens ha un modello "vedi, ad esempio" per l'input vocale, in cui le etichette sui pulsanti indicano agli utenti quali comandi vocali possono dire. Ad esempio, quando si esamina una finestra di un'app in HoloLens (prima generazione), un utente può dire "Regola" comando per modificare la posizione dell'app nel mondo.

Immagine: un utente può dire il comando "Regola", visualizzato nella barra dell'app per modificare la posizione dell'app

Quando si esamina una finestra dell'app o un ologramma, un utente può dire il comando

Quando le app seguono questa regola, gli utenti possono facilmente comprendere cosa dire per controllare il sistema. Mentre si guarda a un pulsante in HoloLens (prima generazione), verrà visualizzata una descrizione comando "voice dwell" che viene visualizzata dopo un secondo se il pulsante è abilitato per la voce e visualizza il comando per parlare con "premere". Per visualizzare le descrizioni comandi vocali in HoloLens 2, visualizzare il cursore vocale dicendo "select" o "What can I say" (Vedere l'immagine).

Immagine: "Vedi, dire che" i comandi vengono visualizzati sotto i pulsanti

Vedilo, dire che i comandi vengono visualizzati sotto i pulsanti

Comandi vocali per la manipolazione rapida dell'ologramma

Ci sono molti comandi vocali che è possibile dire mentre si guarda a un ologramma per eseguire rapidamente attività di manipolazione. Questi comandi vocali funzionano sulle finestre dell'app e sugli oggetti 3D inseriti nel mondo.

Comandi di manipolazione dell'ologramma

Faccia a me
Più grande | Intensificare
Piccoli

In HoloLens 2 è anche possibile creare interazioni più naturali in combinazione con lo sguardo visivo, che fornisce in modo implicito informazioni contestuali su ciò che si fa riferimento. Ad esempio, è possibile guardare un ologramma e dire "mettere questo" e quindi esaminare dove si vuole posizionarlo e dire "sopra qui". In alternativa, è possibile esaminare una parte olografica in una macchina complessa e dire: "darmi altre informazioni su questo".

Individuazione dei comandi vocali

Alcuni comandi, ad esempio i comandi per la manipolazione rapida precedente, possono essere nascosti. Per informazioni sui comandi che è possibile usare, guardare un oggetto e dire: "cosa posso dire?". Elenco dei possibili comandi popup. È anche possibile usare il cursore dello sguardo della testa per guardare intorno e visualizzare le descrizioni comandi vocali per ogni pulsante davanti a voi.

Se si vuole un elenco completo, si supponga semplicemente che "Mostra tutti i comandi" in qualsiasi momento.

Dettatura

Anziché digitare con i tap d'aria, la dettatura vocale può essere più efficiente per immettere testo in un'app. Questo può accelerare notevolmente l'input con meno sforzo per l'utente.

La dettatura vocale inizia selezionando il pulsante del microfono sulla tastiera

Ogni volta che la tastiera olografica è attiva, è possibile passare alla modalità di dettatura anziché digitare. Selezionare il microfono sul lato della casella di input di testo per iniziare.

Aggiunta di comandi vocali all'app

Valuta l'opportunità di aggiungere comandi vocali a un'esperienza che stai creando. Voice è un potente modo per controllare il sistema e le app. Poiché gli utenti parlano con diversi tipi di dialetti e accenti, la scelta appropriata delle parole chiave vocali assicurerà che i comandi degli utenti vengano interpretati senza ambiguità.

Procedure consigliate

Di seguito vengono illustrate alcune procedure che semplificheranno il riconoscimento vocale.

Usa comandi concisi. Quando possibile, scegli parole chiave di due o più sillabe. Le parole di una sillaba tendono a usare suoni di vocali differenti se pronunciate da persone con accenti diversi. Esempio: "Riproduci video" è migliore di "Riprodurre il video attualmente selezionato"
Usare un vocabolario semplice - Esempio: "Mostra nota" è meglio di "Mostra placard"
Assicurarsi che i comandi siano non distruttivi : assicurarsi che tutte le azioni di comando vocale siano non distruttive e possano essere facilmente annullate nel caso in cui un'altra persona che parla vicino all'utente attiva accidentalmente un comando.
Evitare comandi simili per il suono: evitare di registrare più comandi vocali simili. Esempio: "Mostra altro" e "Show store" può essere simile al suono.
Annullare la registrazione dell'app quando non viene usata: quando l'app non è in uno stato in cui un determinato comando vocale è valido, prendere in considerazione l'annullamento della registrazione in modo che altri comandi non siano confusi per quello.
Esegui test con accenti diversi. Testa l'app con utenti con accenti diversi.
Mantieni la coerenza dei comandi vocali. Se "Indietro" porta alla pagina precedente, mantieni questo comportamento nelle applicazioni.
Evitare di usare i comandi di sistema : i comandi vocali seguenti sono riservati al sistema, quindi evitare di usarli nelle applicazioni:
- "Ehi Cortana"
- "Seleziona"
- "Vai a iniziare"

Vantaggi dell'input vocale

L'input vocale è un modo naturale di comunicare le intenzioni. La voce è particolarmente utile per l'attraversamento dell'interfaccia perché può aiutare gli utenti a tagliare più passaggi di un'interfaccia. Un utente potrebbe dire "tornare indietro" guardando una pagina Web, invece di dover andare verso l'alto e premere il pulsante indietro nell'app. Questo piccolo risparmio di tempo ha un potente effetto emotivo sulla percezione dell'esperienza dell'utente e dà loro una piccola quantità di super potenza. L'uso della voce è anche un metodo di input pratico quando abbiamo le braccia pieno o sono multi-attività. Nei dispositivi in cui la digitazione su una tastiera è difficile, la dettatura vocale può essere un modo efficiente alternativo all'input di testo. Infine, in alcuni casi quando l'intervallo di accuratezza per lo sguardo e il movimento sono limitati, la voce può aiutare a disambiguare la finalità dell'utente.

In che modo i comandi vocali possono rivelarsi utili per l'utente

Riducono i tempi: devono rendere l'obiettivo finale più efficiente.
Riducono al minimo lo sforzo: devono rendere le attività più fluide e semplici.
Riducono il carico cognitivo: sono intuitivi e facili da imparare e ricordare.
Sono socialmente accettabili: devono essere conformi alle regole di comportamento della società.
Rappresentano la routine: i comandi vocali possono facilmente diventare un comportamento abituale.

Sfide per l'input vocale

Anche se l'input vocale è ideale per molte applicazioni diverse, presenta anche diverse sfide. Comprendere sia i vantaggi che le sfide per l'input vocale consentono agli sviluppatori di app di fare scelte più intelligenti per come e quando usare l'input vocale e per creare un'esperienza ottimale per gli utenti.

Input vocale per il controllo input continuo Il controllo con granularità fine è uno di essi. Ad esempio, un utente potrebbe voler modificare il volume nella propria app musicale. Può dire "più forte", ma non è chiaro quanto più forte il sistema dovrebbe rendere il volume. L'utente potrebbe dire: "Rendi più forte", ma "un po' " è difficile da quantificare. Lo spostamento o la scalabilità degli ologrammi con voce è similemente difficile.

Affidabilità del rilevamento dell'input vocale Anche se i sistemi di input vocale diventano migliori e migliori, a volte possono sentire e interpretare in modo errato un comando vocale. La chiave consiste nell'affrontare la sfida nell'applicazione. Fornire commenti e suggerimenti agli utenti quando il sistema è in ascolto e ciò che il sistema ha compreso chiarisce i potenziali problemi di comprensione della voce degli utenti.

Input vocale negli spazi condivisi La voce potrebbe non essere socialmente accettabile negli spazi condivisi con altri utenti. Ecco alcuni esempi:

L'utente potrebbe non voler disturbare altri utenti(ad esempio, in una libreria tranquilla o in un ufficio condiviso)
Gli utenti potrebbero sentirsi impacciati essere visti parlare con se stessi in pubblico,
Un utente può sentirsi scomodo a dettare un messaggio personale o riservato (incluse le password) mentre altri sono in ascolto

Input vocale di parole univoce o sconosciute Le difficoltà per l'input vocale provengono anche quando gli utenti denotano parole che potrebbero essere sconosciute al sistema, ad esempio i soprannomi, alcune parole slang o abbreviazioni.

Comandi vocali di apprendimento Anche se l'obiettivo finale è quello di conversare naturalmente con il sistema, spesso le app si basano su comandi vocali predefiniti specifici. Una sfida associata a un set significativo di comandi vocali è come insegnare loro senza sovraccaricare l'utente e come aiutare l'utente a mantenerli.

Stati di feedback dei comandi vocali

Quando i comandi vocali vengono applicati in modo corretto, l'utente capisce cosa può dire e ottiene un feedback chiaro a indicare che il sistema ha recepito correttamente i comandi. Questi due segnali fanno sì che l'utente si senta sicuro di usare i comandi vocali come input principale. Di seguito è riportato un diagramma che illustra che cosa accade al cursore quando l'input vocale viene riconosciuto e come tale risultato viene comunicato all'utente.

1. Stato del cursore normale

2. Comunica il feedback vocale e quindi scompare

*3. Stato del cursore regolare
3. Restituisce lo stato del cursore regolare

Nozioni di base sui comandi vocali che gli utenti devono conoscere per la realtà mista

Si supponga "Seleziona" durante la destinazione di un pulsante (è possibile usare questa opzione ovunque per selezionare un pulsante).
Puoi pronunciare il nome dell'etichetta di un pulsante della barra dell'app in alcune app per eseguire un'azione. Ad esempio, esaminando un'app, un utente può dire il comando "Rimuovi" per rimuovere l'app dal mondo (questo consente di risparmiare tempo per selezionarlo con la mano).
È possibile avviare Cortana in ascolto dicendo "Hey Cortana". Puoi porre le sue domande ("Hey Cortana, quanto è alta la torre Eiffel"), dirle di aprire un'app ("Hey Cortana, aprire Netflix") o dirle di visualizzare il menu Start ("Hey Cortana, portami a casa") e altro ancora.

Domande e dubbi comuni degli utenti sui comandi vocali

What can I say?
Come posso sapere se il sistema mi ha capito correttamente?
- Il sistema continua a interpretare i miei comandi vocali in modo errato.
- Non reagisce quando pronuncio un comando vocale.
Reagisce in modo non corretto quando pronuncio un comando vocale.
Come posso indirizzare un comando vocale a una specifica app o un comando di app?
Posso usare i comandi vocali per operazioni all'esterno del fotogramma olografico di HoloLens?

Comunicazione

Per le applicazioni che vogliono sfruttare le opzioni di elaborazione dell'input audio personalizzate fornite da HoloLens, è importante comprendere le varie categorie di flusso audio che l'app può usare. Windows 10 supporta diverse categorie di flusso e HoloLens usa tre di queste per consentire l'elaborazione personalizzata per ottimizzare la qualità audio del microfono personalizzata personalizzata per la voce, la comunicazione e altre, che possono essere usate per l'acquisizione dell'audio dell'ambiente ambientale (ovvero "videocamera").

La categoria di flusso AudioCategory_Communications è personalizzata per scenari di qualità e narrazione delle chiamate e fornisce al client un flusso audio mono a 16 kHz a 24 bit della voce dell'utente
La categoria di flusso AudioCategory_Speech è personalizzata per il motore voce HoloLens (Windows) e la fornisce un flusso mono a 16 kHz a 24 bit della voce dell'utente. Questa categoria può essere usata dai motori di riconoscimento vocale di terze parti, se necessario.
La categoria di flusso AudioCategory_Other è personalizzata per la registrazione audio dell'ambiente ambientale e fornisce al client un flusso audio stereo a 48 kHz a 24 bit.

Tutta questa elaborazione audio è accelerata dall'hardware, che significa che le funzionalità scaricano molto meno potenza rispetto a se la stessa elaborazione è stata eseguita sulla CPU HoloLens. Evitare di eseguire altre elaborazioni di input audio sulla CPU per ottimizzare la durata della batteria del sistema e sfruttare l'elaborazione di input audio predefinito e disattivata.

Linguaggi

HoloLens 2 supporta più lingue. Tenere presente che i comandi vocali verranno sempre eseguiti nella lingua di visualizzazione del sistema anche se sono installate più tastiere o se le app tentano di creare un riconoscimento vocale in una lingua diversa.

Risoluzione dei problemi

Se si verificano problemi con "select" e "Hey Cortana", provare a spostarsi in uno spazio più tranquillo, allontanandosi dalla fonte di rumore o parlando più forte. In questo momento, tutti i riconoscimento vocale in HoloLens sono ottimizzati e ottimizzati in modo specifico per i parlanti nativi di Stati Uniti inglese.

Per la versione Windows Mixed Reality Developer Edition 2017, la logica di gestione degli endpoint audio funzionerà (per sempre) dopo la disconnessione e il ritorno al desktop del PC dopo la connessione HMD iniziale. Prima di tale primo evento di disconnessamento/in seguito a WMR OOBE, l'utente potrebbe riscontrare vari problemi di funzionalità audio che variano da nessun audio a nessun commutatore audio a seconda del modo in cui il sistema è stato configurato prima di connettersi al HMD per la prima volta.

Input vocale in MRTK (Realtà mista Toolkit) per Unity

Con MRTK è possibile assegnare facilmente il comando vocale in qualsiasi oggetto. Usare il profilo di input vocale di MRTK per definire le parole chiave. Assegnando lo script SpeechInputHandler , è possibile rispondere a qualsiasi oggetto alle parole chiave definite nel profilo di input vocale. SpeechInputHandler fornisce anche l'etichetta di conferma vocale per migliorare la fiducia dell'utente.

MRTK - Comando vocale

Condividi tramite

Input vocale

Voce e sguardo

Supporto di dispositivi

Comando "select"

Hey Cortana

"Vedilo, Dicilo"

Comandi vocali per la manipolazione rapida dell'ologramma

Individuazione dei comandi vocali

Dettatura

Aggiunta di comandi vocali all'app

Procedure consigliate

Vantaggi dell'input vocale

Sfide per l'input vocale

Stati di feedback dei comandi vocali

Nozioni di base sui comandi vocali che gli utenti devono conoscere per la realtà mista

Domande e dubbi comuni degli utenti sui comandi vocali

Comunicazione

Linguaggi

Risoluzione dei problemi

Input vocale in MRTK (Realtà mista Toolkit) per Unity

Vedi anche

Risorse aggiuntive