Entrée vocale

Voice input

La voix est l’un des principaux types d’entrée sur HoloLens. Il vous permet de commander directement un hologramme sans avoir à utiliser des mouvements de main. Une entrée vocale peut être un moyen naturel de communiquer votre intention. La voix est particulièrement bonne pour parcourir des interfaces complexes, car elle permet aux utilisateurs de traverser des menus imbriqués avec une commande.

L’entrée vocale est alimentée par le même moteur qui prend en charge la reconnaissance vocale dans toutes les applications de Windows universelles. Sur HoloLens, la reconnaissance vocale fonctionne toujours dans la langue d’affichage Windows configurée dans votre appareil Paramètres.


Voix et regard

Lorsque vous utilisez des commandes vocales, la tête ou le regard est le mécanisme de ciblage classique, qu’il s’agisse d’un curseur pour « sélectionner » ou de canaliser votre commande vers une application que vous examinez. Il peut même ne pas être nécessaire d’afficher un curseur de regard (« voir, dis-le ») . Certaines commandes vocales ne nécessitent pas de cible du tout, comme « aller démarrer » ou « Hey Cortana ».


Prise en charge des appareils

Fonctionnalité HoloLens (1ère génération) HoloLens 2 Casques immersifs
Entrée vocale ✔️ ✔️ ✔️ (avec microphone)

Commande « select »

HoloLens (1ère génération)

Même sans ajouter spécifiquement de prise en charge vocale à votre application, vos utilisateurs peuvent activer les hologrammes simplement en disant la commande vocale système « select ». Cela se comporte de la même façon qu’une touche d’air sur HoloLens, en appuyant sur le bouton Sélectionner sur le HoloLens clicker, ou en appuyant sur le déclencheur sur un contrôleur de mouvement Windows Mixed Reality. Vous entendez un son et voyez une info-bulle avec « select » s’afficher comme confirmation. « Select » est activé par un algorithme de détection de mot clé à faible puissance, ce qui signifie que vous pouvez dis-le à tout moment avec un impact minimal sur la durée de vie de la batterie. Vous pouvez même dire « sélectionner » avec vos mains à votre côté.



HoloLens 2

Pour utiliser la commande vocale « select » dans HoloLens 2, vous devez d’abord afficher le curseur de regard à utiliser comme pointeur. La commande à afficher est facile à mémoriser- juste dire, « select ».

Pour quitter le mode, utilisez à nouveau vos mains en appuyant sur l’air, en appuyant sur un bouton avec vos doigts ou en utilisant le mouvement système.

Image : Dites « sélectionner » pour utiliser la commande vocale pour la sélection

A user can say



Hey Cortana

Vous pouvez dire « Hey Cortana » pour élever Cortana à tout moment. Vous n’avez pas à attendre qu’elle apparaisse pour continuer à lui poser votre question ou à lui donner une instruction. Par exemple, essayez de dire « Hey Cortana, qu’est-ce que la météo ? » en une seule phrase. Pour plus d’informations sur Cortana et ce que vous pouvez faire, demandez-lui! Dites « Hey Cortana, qu’est-ce que je peux dire ? » et elle tirera une liste de commandes de travail et suggérées. Si vous êtes déjà dans l’application Cortana, sélectionnez l’icône ? dans la barre latérale pour extraire ce même menu.

commandes spécifiques à HoloLens

  • Qu’est-ce que je dis ?
  • « Accéder au menu Démarrer » - au lieu de la floraison pour accéder au menu Démarrer
  • « Lancer <l’application> »
  • « Déplacer <l’application> ici »
  • « Prendre une photo »
  • « Démarrer l’enregistrement »
  • « Arrêter l’enregistrement »
  • « Afficher le rayon de main »
  • « Masquer le rayon de main »
  • « Augmenter la luminosité »
  • « Diminuer la luminosité »
  • « Augmenter le volume »
  • « Diminuer le volume »
  • « Désactiver » ou « Annuler lemute »
  • « Arrêter l’appareil »
  • « Redémarrer l’appareil »
  • « Aller dormir »
  • « Quelle heure est-il ? »
  • « Combien de batterie ai-je quitté ? »


« Voyez-le, dites-le »

HoloLens a un modèle « voir, dis-le » pour l’entrée vocale, où les étiquettes sur les boutons indiquent aux utilisateurs les commandes vocales qu’ils peuvent également dire. Par exemple, lorsque vous examinez une fenêtre d’application dans HoloLens (1ère génération), un utilisateur peut dire « Ajuster » pour ajuster la position de l’application dans le monde.

Image : un utilisateur peut indiquer la commande « Ajuster », qu’il voit dans la barre d’application pour ajuster la position de l’application

space
When looking at an app window or hologram, a user can say the


Lorsque les applications suivent cette règle, les utilisateurs peuvent facilement comprendre ce qu’il faut dire pour contrôler le système. Lors du regard d’un bouton dans HoloLens (1ère génération), vous verrez une info-bulle « voice dwell » qui s’affiche après une seconde si le bouton est activé sur la voix et affiche la commande à parler à « appuyer ». Pour révéler les info-bulles vocales dans HoloLens 2, affichez le curseur vocal en disant « Sélectionner » ou « Que puis-je dire » (Voir l’image).

Image : Les commandes « Voir, dis-le » apparaissent sous les boutons

See it, say it commands appear below the buttons



Commandes vocales pour la manipulation rapide de l’hologramme

Il existe de nombreuses commandes vocales que vous pouvez dire lors du regard d’un hologramme pour effectuer rapidement des tâches de manipulation. Ces commandes vocales fonctionnent sur les fenêtres d’application et les objets 3D que vous avez placés dans le monde.

Commandes de manipulation d’hologrammes

  • Face moi
  • Plus grand | Améliorer
  • Plus petite

Sur HoloLens 2, vous pouvez également créer des interactions plus naturelles en combinaison avec le regard, qui fournit implicitement des informations contextuelles sur ce que vous faites référence. Par exemple, vous pouvez regarder un hologramme et dire « put this », puis regarder là où vous voulez le placer et dire « ici ». Vous pouvez également examiner une partie holographique sur une machine complexe et dire : « donnez-moi plus d’informations sur ce problème ».

Découverte des commandes vocales

Certaines commandes, comme les commandes pour une manipulation rapide ci-dessus, peuvent être masquées. Pour en savoir plus sur les commandes que vous pouvez utiliser, regardez un objet et dites : « qu’est-ce que je peux dire ? ». Une liste des commandes possibles s’affiche. Vous pouvez également utiliser le curseur de regard de tête pour regarder autour et révéler les info-bulles vocales pour chaque bouton devant vous.

Si vous souhaitez obtenir une liste complète, dites simplement « Afficher toutes les commandes » à tout moment.

Dictation

Au lieu de taper avec des touches d’air, la dictée vocale peut être plus efficace pour entrer du texte dans une application. Cela peut accélérer considérablement l’entrée avec moins d’efforts pour l’utilisateur.

Voice dictation starts by selecting the microphone button
La dictée vocale commence par sélectionner le bouton microphone sur le clavier

Chaque fois que le clavier holographique est actif, vous pouvez basculer vers le mode de dictée au lieu de taper. Sélectionnez le microphone sur le côté de la zone d’entrée de texte pour commencer.

Ajout de commandes vocales à votre application

Il est recommandé d’ajouter des commandes vocales à toutes les expériences que vous créez. La voix est un moyen puissant de contrôler le système et les applications. Étant donné que les utilisateurs parlent avec différents types de dialectes et d’accents, le choix approprié des mots clés vocaux garantit que les commandes de vos utilisateurs sont interprétées sans ambiguïté.

Meilleures pratiques

Voici quelques bonnes pratiques qui faciliteront la reconnaissance vocale.

  • Utilisez des commandes concises : dans la mesure du possible, choisissez des mots clés de deux syllabes minimum. Les mots d’une syllabe comprennent souvent des voyelles qui peuvent être prononcées différemment selon l’accent de la personne. Exemple : « Lire la vidéo » est préférable à « Lire la vidéo actuellement sélectionnée »
  • Utiliser un vocabulaire simple - Exemple : « Afficher la note » est préférable à « Afficher le placard »
  • Assurez-vous que les commandes ne sont pas destructrices : assurez-vous que toutes les actions de commande vocale ne sont pas destructrices et qu’elles peuvent facilement être annulées si une autre personne parlant près de l’utilisateur déclenche accidentellement une commande.
  • Évitez les commandes de sons similaires : évitez d’inscrire plusieurs commandes vocales qui semblent similaires. Exemple : « Afficher plus » et « Afficher le magasin » peuvent être similaires.
  • Annulez l’inscription de votre application quand elle n’est pas utilisée . Lorsque votre application n’est pas dans un état dans lequel une commande vocale particulière est valide, envisagez de la désinscrire afin que d’autres commandes ne soient pas confondues pour celle-ci.
  • Testez les différents accents : testez votre application avec des utilisateurs ayant différents accents.
  • Maintenez une certaine cohérence au sein des commandes vocales : si la commande « Retour » permet de retourner à la page précédente, gardez ce comportement dans toutes vos applications.
  • Évitez d’utiliser des commandes système : les commandes vocales suivantes sont réservées au système. Évitez donc de les utiliser dans vos applications :
    • « Hey Cortana »
    • « Sélectionner »
    • « Aller au début »

Avantages de l’entrée vocale

La voix est un moyen naturel de communiquer nos intentions. La voix est particulièrement bonne pour les traversées d’interface, car elle peut aider les utilisateurs à parcourir plusieurs étapes d’une interface. Un utilisateur peut dire « revenir en arrière » alors qu’il est en train de consulter une page web, au lieu de devoir revenir en haut de la page et sélectionner le bouton Précédent de l’application. Cette petite économie de temps a un effet émotionnel puissant sur la perception de l’expérience de l’utilisateur et leur donne une petite quantité de superpuissance. L’utilisation de la voix est également une méthode d’entrée pratique lorsque nous avons nos bras pleins ou sont multi-tâches. Sur les appareils où la saisie sur un clavier est difficile, la dictée vocale peut être une alternative efficace pour entrer du texte. Enfin, dans certains cas, lorsque la plage de précision pour le regard et le mouvement sont limitées, la voix peut aider à lever l’ambiguïté de l’intention de l’utilisateur.

Avantages de l’utilisation de la voix

  • Gain de temps : l’objectif final est donc plus facile à atteindre.
  • Efforts moindres : l’exécution des tâches est plus fluide et ne demande pas d’efforts.
  • Réduction de la charge cognitive : les commandes vocales sont intuitives, et faciles à apprendre et à mémoriser.
  • Elle est socialement acceptable : elle est intégrée aux normes du comportement social.
  • Routine : l’utilisation de la voix peut facilement se transformer en habitude.

Défis liés à l’entrée vocale

Bien que l’entrée vocale soit idéale pour de nombreuses applications différentes, elle fait également face à plusieurs défis. Comprendre les avantages et les défis de l’entrée vocale permet aux développeurs d’applications de faire des choix plus intelligents pour savoir comment et quand utiliser l’entrée vocale et créer une expérience optimale pour leurs utilisateurs.

Entrée vocale pour le contrôle d’entrée continu Le contrôle affiné est l’un d’eux. Par exemple, un utilisateur peut vouloir modifier son volume dans son application musicale. Elle peut dire « plus fort », mais il n’est pas clair combien le système est censé rendre le volume. L’utilisateur pourrait dire : « Faites-le un peu plus fort », mais « un peu » est difficile à quantifier. Le déplacement ou la mise à l’échelle des hologrammes avec la voix est de même difficile.

Fiabilité de la détection d’entrée vocale Bien que les systèmes d’entrée vocale deviennent meilleurs et meilleurs, ils peuvent parfois entendre et interpréter incorrectement une commande vocale. La clé consiste à relever le défi dans votre application. Fournissez des commentaires à vos utilisateurs lorsque le système écoute et ce que le système a compris clarifie les problèmes potentiels qui comprennent le discours des utilisateurs.

Entrée vocale dans des espaces partagés La voix peut ne pas être socialement acceptable dans les espaces que vous partagez avec d’autres personnes. Voici quelques exemples :

  • L’utilisateur peut ne pas vouloir déranger d’autres personnes (par exemple, dans une bibliothèque silencieuse ou un bureau partagé)
  • Les utilisateurs peuvent se sentir mal vus parler à eux-mêmes en public,
  • Un utilisateur peut se sentir mal à l’aise de dicter un message personnel ou confidentiel (y compris les mots de passe) tandis que d’autres écoutent

Entrée vocale de mots uniques ou inconnus Les difficultés d’entrée vocale viennent également lorsque les utilisateurs dictent des mots qui peuvent être inconnus du système, tels que des surnoms, certains mots d’lang ou abréviations.

Learning commandes vocales Alors que l’objectif ultime est de converser naturellement avec votre système, souvent les applications s’appuient toujours sur des commandes vocales prédéfinies spécifiques. Un défi associé à un ensemble significatif de commandes vocales consiste à leur apprendre sans surcharger l’utilisateur et comment aider l’utilisateur à les conserver.



Retours des commandes vocales

Lorsque la voix est utilisée correctement, l’utilisateur comprend ce qu’il peut dire et reçoit la confirmation que le système a bien compris sa commande. Ce sont ces deux éléments qui donnent envie à l’utilisateur de choisir la voix comme méthode d’entrée principale. Voici un diagramme qui montre ce qui se passe au niveau du curseur lorsque l’entrée vocale est reconnue, et comment celle-ci est communiquée à l’utilisateur.

1. Regular cursor state
1. État normal du curseur

2. Communicates voice feedback and then disappears
2. Communique les commentaires vocaux, puis disparaît

*3. Regular cursor state
3. Retourne à l’état normal du curseur




Points importants concernant la reconnaissance vocale dans la réalité mixte

  • Dites « Sélectionner » lors du ciblage d’un bouton (vous pouvez l’utiliser n’importe où pour sélectionner un bouton).
  • Dans certaines applications, vous pouvez prononcer le nom de l’étiquette d’un bouton de la barre d’application pour exécuter une action. Par exemple, lors de la recherche d’une application, un utilisateur peut indiquer la commande « Supprimer » pour supprimer l’application du monde (cela permet de gagner du temps de devoir la sélectionner avec votre main).
  • Vous pouvez commencer Cortana écouter en disant « Hey Cortana ». Vous pouvez lui poser des questions (« Hey Cortana, combien de hauteur est la tour Eiffel »), lui dire d’ouvrir une application (« Hey Cortana, ouvrir Netflix ») ou lui dire d’afficher le menu Démarrer (« Hey Cortana, me ramener à la maison ») et bien plus encore.

Questions et inquiétudes fréquentes concernant la reconnaissance vocale

  • Que puis-je dire ?
  • Comment savoir si le système m’a bien entendu ?
    • Le système ne comprend pas mes commandes vocales.
    • Il ne réagit pas quand je lui adresse une commande vocale.
  • Il réagit de façon inadaptée lorsque je lui adresse une commande vocale.
  • Comment choisir l’application ou la commande d’application à laquelle adresser mes commandes vocales ?
  • Puis-je utiliser la voix pour contrôler les éléments holographiques sur HoloLens ?

Communication

Pour les applications qui souhaitent tirer parti des options de traitement d’entrée audio personnalisées fournies par HoloLens, il est important de comprendre les différentes catégories de flux audio que votre application peut consommer. Windows 10 prend en charge plusieurs catégories de flux et HoloLens utilise trois de ces catégories pour permettre un traitement personnalisé afin d’optimiser la qualité audio du microphone adaptée aux scénarios de reconnaissance vocale, de communication et d’autres, qui peuvent être utilisés pour les scénarios de capture audio de l’environnement ambiant (autrement dit, « camcorder »).

  • La catégorie de flux de AudioCategory_Communications est personnalisée pour les scénarios de qualité et de narration des appels et fournit au client un flux audio mono 24 bits de 16 kHz de la voix de l’utilisateur
  • La catégorie de flux de AudioCategory_Speech est personnalisée pour le moteur vocal HoloLens (Windows) et fournit un flux mono 16 kHz 24 bits de la voix de l’utilisateur. Cette catégorie peut être utilisée par des moteurs vocaux tiers si nécessaire.
  • La catégorie de flux AudioCategory_Other est personnalisée pour l’enregistrement audio de l’environnement ambiant et fournit au client un flux audio stéréo de 48 kHz 24 bits.

Tout ce traitement audio est accéléré par le matériel, ce qui signifie que les fonctionnalités drainent beaucoup moins de puissance que si le même traitement a été effectué sur le processeur HoloLens. Évitez d’exécuter d’autres traitements d’entrée audio sur le processeur pour optimiser la durée de vie de la batterie système et tirer parti du traitement intégré et déchargé de l’entrée audio.

Langages

HoloLens 2 prend en charge plusieurs langues. N’oubliez pas que les commandes vocales s’exécutent toujours dans la langue d’affichage du système même si plusieurs claviers sont installés ou si les applications tentent de créer un module de reconnaissance vocale dans une autre langue.

Dépannage

Si vous rencontrez des problèmes à l’aide de « select » et de « Hey Cortana », essayez de passer à un espace plus silencieux, en s’éloignant de la source de bruit ou en parlant plus fort. À ce stade, toutes les reconnaissances vocales sur HoloLens sont paramétrées et optimisées spécifiquement pour les haut-parleurs natifs de États-Unis anglais.

Pour la version 2017 de Windows Mixed Reality Developer Edition, la logique de gestion des points de terminaison audio fonctionne correctement (indéfiniment) après la déconnexion et la revenir au bureau du PC après la connexion HMD initiale. Avant cette première déconnexion/événement après avoir parcouru WMR OOBE, l’utilisateur peut rencontrer différents problèmes de fonctionnalités audio allant de l’absence de son au changement audio en fonction de la façon dont le système a été configuré avant de connecter le HMD pour la première fois.



Entrée vocale dans MRTK (Mixed Reality Shared Computer Toolkit) pour Unity

Avec MRTK, vous pouvez facilement affecter une commande vocale sur n’importe quel objet. Utilisez le profil d’entrée vocale de MRTK pour définir vos mots clés. En affectant un script SpeechInputHandler , vous pouvez rendre n’importe quel objet répondre aux mots clés définis dans le profil d’entrée vocale. SpeechInputHandler fournit également une étiquette de confirmation vocale pour améliorer la confiance de l’utilisateur.


Voir aussi