Spracheingabe

2023-07-12

Spracheingabe

Die Stimme ist eine der wichtigsten Formen der Eingabe für HoloLens. Es ermöglicht Ihnen, ein Hologramm direkt zu befehlen, ohne Handgesten verwenden zu müssen. Die Spracheingabe kann eine natürliche Art sein, Ihre Absichten zu kommunizieren. Voice eignet sich besonders gut für die Durchquerung komplexer Schnittstellen, da benutzer geschachtelte Menüs mit einem Einzigen Befehl durchschneiden können.

Die Spracheingabe wird von derselben Engine unterstützt, die Sprache in allen universellen Windows-Apps unterstützt. Auf HoloLens funktioniert die Spracherkennung immer in der Windows-Anzeigesprache, die in den Einstellungen Ihres Geräts konfiguriert ist.

Stimme und Blick

Wenn Sie Sprachbefehle verwenden, ist der Kopf- oder Augenblick der typische Zielmechanismus, sei es mit einem Cursor zum "Auswählen" oder zum Kanal ihres Befehls an eine Anwendung, die Sie sich ansehen. Möglicherweise ist es nicht einmal erforderlich, einen Blickcursor anzuzeigen ("sehen Sie es, sagen Sie es") zu zeigen. Einige Sprachbefehle erfordern überhaupt kein Ziel, z. B. "Gehe zu Start" oder "Hey Cortana".

Geräteunterstützung

Feature	HoloLens (1. Generation)	HoloLens 2	Immersive Headsets
Spracheingabe	✔️	✔️	✔️ (mit Mikrofon)

Der Befehl "select"

HoloLens (1. Generation)

Auch ohne spezielle Sprachunterstützung zu Ihrer App hinzuzufügen, können Ihre Benutzer Hologramme aktivieren, indem sie einfach den Systemstimmbefehl "select" sagen. Dies verhält sich genauso wie ein Lufttippen auf HoloLens, das Drücken der Schaltfläche Select auf dem HoloLens-Klicker oder das Drücken des Triggers auf einem Windows Mixed Reality Motion Controller. Sie hören einen Sound, und eine QuickInfo mit "Select" wird als Bestätigung angezeigt. "Select" wird durch einen Low-Power-Schlüsselwort (keyword)-Erkennungsalgorithmus aktiviert, was bedeutet, dass Sie dies jederzeit mit minimalen Auswirkungen auf die Akkulaufzeit sagen können. Sie können sogar "auswählen" mit Ihren Händen an Ihrer Seite sagen.

HoloLens 2

Um den Sprachbefehl "auswählen" in HoloLens 2 zu verwenden, müssen Sie zuerst den Cursor für den Blick als Zeiger öffnen. Der Befehl, um ihn anzuzeigen, ist leicht zu merken– sagen Sie einfach "auswählen".

Um den Modus zu beenden, verwenden Sie ihre Hände erneut, indem Sie in der Luft tippen, sich mit den Fingern einer Schaltfläche nähern oder die Systemgeste verwenden.

Abbildung: Sagen Sie "select", um den Sprachbefehl für die Auswahl zu verwenden.

Ein Benutzer kann

Hey Cortana

Sie können "Hey Cortana" sagen, um Cortana jederzeit anzuzeigen. Sie müssen nicht warten, bis sie erscheint, um ihr Ihre Frage zu stellen oder ihr eine Anweisung zu geben. Versuchen Sie beispielsweise, "Hey Cortana, was ist das Wetter?" als einzelnen Satz zu sagen. Für weitere Informationen zu Cortana und was Sie tun können, fragen Sie sie! Sagen Sie "Hey Cortana, was kann ich sagen?" und sie ruft eine Liste der funktionierenden und vorgeschlagenen Befehle auf. Wenn Sie sich bereits in der Cortana-App befinden, wählen Sie das Symbol ? auf der Randleiste aus, um dasselbe Menü aufzurufen.

HoloLens-spezifische Befehle

Was kann ich sagen?
"Gehe zu Start" – anstelle von Bloom, um zum Startmenü zu gelangen
"App> starten<"
"App> hierher verschieben<"
„Foto aufnehmen“
"Aufzeichnung starten"
„Aufzeichnung beenden“
"Handstrahl anzeigen"
"Handstrahl ausblenden"
"Erhöhen der Helligkeit"
"Verringern der Helligkeit"
"Erhöhen der Lautstärke"
"Lautstärke verringern"
"Stummschalten" oder "Stummschaltung aufheben"
"Gerät herunterfahren"
"Gerät neu starten"
"In den Ruhezustand"
„Wie viel Uhr ist es?“
"Wie viel Akku habe ich noch?"

"Sehen Sie es, sagen Sie es"

HoloLens verfügt über ein "See it, say it"-Modell für die Spracheingabe, bei dem Bezeichnungen auf Schaltflächen benutzern mitteilen, welche Sprachbefehle sie auch sagen können. Wenn sie sich beispielsweise ein App-Fenster in HoloLens (1. Generation) ansehen, kann ein Benutzer den Befehl "Anpassen" sagen, um die Position der App in der Welt anzupassen.

Abbildung: Ein Benutzer kann den Befehl "Anpassen" sagen, den er in der App-Leiste sieht, um die Position der App anzupassen.

Beim Betrachten eines App-Fensters oder Hologramms kann ein Benutzer den Befehl

Wenn Apps diese Regel befolgen, können Benutzer leicht verstehen, was sie sagen müssen, um das System zu steuern. Beim Betrachten einer Schaltfläche in HoloLens (1. Generation) wird eine QuickInfo "Voice dwell" angezeigt, die nach einer Sekunde angezeigt wird, wenn die Schaltfläche sprachaktiviert ist und den Befehl zum "Drücken" anzeigt. Um Sprach-QuickInfos in HoloLens 2 anzuzeigen, zeigen Sie den Sprachcursor an, indem Sie "auswählen" oder "Was kann ich sagen" sagen (siehe Abbildung).

Abbildung: Befehle "Sehen, sagen Sie es" werden unter den Schaltflächen angezeigt.

Sehen Sie es, sagen Sie, befehle werden unter den Schaltflächen angezeigt.

Sprachbefehle für schnelle Hologrammbearbeitung

Es gibt viele Sprachbefehle, die Sie sagen können, während Sie ein Hologramm betrachten, um schnell Manipulationsaufgaben auszuführen. Diese Sprachbefehle funktionieren in App-Fenstern und 3D-Objekten, die Sie in der Welt platziert haben.

Hologrammbearbeitungsbefehle

Mir gegenüber stellen
Größer | Verbessern
Kleiner

Auf HoloLens 2 können Sie auch natürlichere Interaktionen in Kombination mit dem Blick auf die Augen erstellen, die implizit kontextbezogene Informationen darüber liefern, worauf Sie sich beziehen. Sie können sich beispielsweise ein Hologramm ansehen und " put this" sagen und dann hinübersehen, wo Sie es platzieren möchten, und sagen Sie " hier herüber". Oder Sie können sich einen holografischen Teil auf einer komplexen Maschine ansehen und sagen: "Geben Sie mir mehr Informationen dazu".

Ermitteln von Sprachbefehlen

Einige Befehle, z. B. die befehle für die schnelle Bearbeitung oben, können ausgeblendet werden. Um zu erfahren, welche Befehle Sie verwenden können, schauen Sie sich ein Objekt an und sagen: "Was kann ich sagen?". Eine Liste möglicher Befehle wird angezeigt. Sie können auch den Kopf-Blickcursor verwenden, um sich umzusehen und die Sprach-QuickInfos für jede Schaltfläche vor Ihnen anzuzeigen.

Wenn Sie eine vollständige Liste benötigen, sagen Sie einfach jederzeit "Alle Befehle anzeigen".

Diktieren

Anstatt mit Lufteingaben zu tippen, kann das Diktieren von Spracheingaben effizienter sein, um Text in eine App einzugeben. Dies kann die Eingabe mit weniger Aufwand für den Benutzer erheblich beschleunigen.

Das Diktieren der Stimme beginnt durch Auswählen der Mikrofontaste
Sprachdiktatur beginnt durch Auswählen der Mikrofontaste auf der Tastatur

Immer wenn die holografische Tastatur aktiv ist, können Sie in den Diktiermodus wechseln, anstatt einzugeben. Wählen Sie das Mikrofon an der Seite des Texteingabefelds aus, um zu beginnen.

Hinzufügen von Sprachbefehlen zu Ihrer App

Erwägen Sie, Sprachbefehle zu jeder von Ihnen erstellten Umgebung hinzuzufügen. Voice ist eine leistungsstarke Möglichkeit, das System und die Apps zu steuern. Da Benutzer mit verschiedenen Dialekten und Akzenten sprechen, stellt die richtige Wahl der Sprachschlüsselwörter sicher, dass die Befehle Ihrer Benutzer eindeutig interpretiert werden.

Bewährte Methoden

Nachfolgend finden Sie einige Methoden aufgeführt, die eine reibungslose Spracherkennung ermöglichen.

Präzise Befehle verwenden: Wählen Sie nach Möglichkeit Schlüsselwörter mit zwei oder mehr Silben aus. Einsilbige Wörter neigen dazu, unterschiedliche Vokallaute zu verwenden, wenn sie von Personen mit unterschiedlichen Akzenten gesprochen werden. Beispiel: "Video wiedergeben" ist besser als "Wiedergabe des aktuell ausgewählten Videos"
Einfaches Vokabular verwenden – Beispiel: "Notiz anzeigen" ist besser als "Plakat anzeigen"
Stellen Sie sicher, dass Befehle nicht destruktiv sind . Stellen Sie sicher, dass alle Sprachbefehlsaktionen nicht destruktiv sind und leicht rückgängig gemacht werden können, falls eine andere Person, die in der Nähe des Benutzers spricht, versehentlich einen Befehl auslöst.
Ähnlich klingende Befehle vermeiden : Vermeiden Sie das Registrieren mehrerer Sprachbefehle, die ähnlich klingen. Beispiel: "Mehr anzeigen" und "Store anzeigen" können ähnlich klingen.
Aufheben der Registrierung Ihrer App, wenn sie nicht verwendet : Wenn sich Ihre App nicht in einem Zustand befindet, in dem ein bestimmter Sprachbefehl gültig ist, sollten Sie die Registrierung aufheben, damit andere Befehle nicht mit diesem Befehl verwechselt werden.
Mit verschiedenen Akzenten testen: Testen Sie Ihre App mit Benutzern, die unterschiedliche Akzente verwenden.
Konsistenz von Sprachbefehlen beibehalten: Wenn „Zurück“ zur vorherigen Seite wechselt, übernehmen Sie dieses Verhalten in Ihren Anwendungen.
Vermeiden Sie die Verwendung von Systembefehlen : Die folgenden Sprachbefehle sind für das System reserviert, daher sollten Sie sie nicht in Ihren Anwendungen verwenden:
- „Hey Cortana“
- „Auswählen“
- "Gehe zum Start"

Vorteile der Spracheingabe

Die Spracheingabe ist eine natürliche Art, unsere Absichten zu kommunizieren. Voice eignet sich besonders gut für Schnittstellendurchläufe , da sie Benutzern dabei helfen kann, mehrere Schritte einer Schnittstelle zu durchlaufen. Benutzer*innen können beim Anzeigen einer Webseite „Zurück“ sagen, anstatt nach oben zu navigieren und in der App auf die Schaltfläche „Zurück“ zu klicken. Diese geringe Zeitersparnis hat eine starke emotionale Auswirkung auf die Wahrnehmung der Erfahrung durch den Benutzer und gibt ihnen eine kleine Menge Superkraft. Die Verwendung der Stimme ist auch eine praktische Eingabemethode, wenn wir unsere Arme voll haben oder multitaskieren. Auf Geräten, auf denen die Eingabe auf einer Tastatur schwierig ist, kann das Diktieren eine effiziente Alternative zur Eingabe von Text sein. Schließlich kann die Stimme in einigen Fällen, in denen der Genauigkeitsbereich für Anvisieren und Gesten begrenzt ist, dazu beitragen, die Absicht des Benutzers zu verdeutlichen.

Vorteile der Spracheingabe für den Benutzer

Verkürzt den Zeitaufwand – das Endziel sollte effizienter erreicht werden.
Minimiert den Aufwand – Aufgaben sollten flüssiger und müheloser verlaufen.
Reduziert die kognitive Belastung – sie ist intuitiv, leicht zu erlernen und zu merken.
Diese Praxis ist sozial akzeptiert und sollte gesellschaftlichen Verhaltensmustern entsprechen.
Sie stellt eine Routine dar – die Spracheingabe kann leicht zu einem gewohnheitsmäßigen Verhalten werden.

Herausforderungen bei der Spracheingabe

Die Spracheingabe eignet sich zwar hervorragend für viele verschiedene Anwendungen, steht aber auch vor mehreren Herausforderungen. Wenn Sie sowohl die Vorteile als auch die Herausforderungen der Spracheingabe verstehen, können App-Entwickler intelligentere Entscheidungen treffen, wie und wann sie Spracheingaben verwenden und eine hervorragende Erfahrung für ihre Benutzer schaffen.

Spracheingabe für kontinuierliche Eingabesteuerung Eine von ihnen ist eine differenzierte Kontrolle. Beispielsweise kann ein Benutzer seine Lautstärke in seiner Musik-App ändern. Sie kann "lauter" sagen, aber es ist nicht klar, wie viel lauter das System die Lautstärke machen soll. Der Benutzer könnte sagen: "Machen Sie es etwas lauter", aber "ein wenig" ist schwer zu quantifizieren. Das Verschieben oder Skalieren von Hologrammen mit Stimme ist ähnlich schwierig.

Zuverlässigkeit der Spracheingabeerkennung Während Spracheingabesysteme immer besser werden, können sie manchmal einen Sprachbefehl fälschlicherweise hören und interpretieren. Der Schlüssel besteht darin, die Herausforderung in Ihrer Anwendung zu bewältigen. Geben Sie Ihren Benutzern Feedback, wenn das System zuhört und was das System verstanden hat, um potenzielle Probleme beim Verständnis der Sprache der Benutzer zu klären.

Spracheingabe in freigegebenen Räumen Stimme ist in Räumen, die Sie mit anderen teilen, möglicherweise nicht gesellschaftlich akzeptabel. Hier sind einige Beispiele:

Der Benutzer möchte andere nicht stören (z. B. in einer ruhigen Bibliothek oder einem gemeinsamen Büro).
Benutzer fühlen sich möglicherweise unbeholfen, in der Öffentlichkeit mit sich selbst zu sprechen,
Ein Benutzer kann sich beim Diktieren einer persönlichen oder vertraulichen Nachricht (einschließlich Kennwörtern) unwohl fühlen, während andere zuhören.

Spracheingabe von eindeutigen oder unbekannten Wörtern Probleme bei der Spracheingabe treten auch auf, wenn Benutzer Wörter diktieren, die dem System möglicherweise unbekannt sind, z. B. Spitznamen, bestimmte Slangwörter oder Abkürzungen.

Lernen von Sprachbefehlen Während das ultimative Ziel darin besteht, sich natürlich mit Ihrem System zu unterhalten, verwenden Apps häufig noch bestimmte vordefinierte Sprachbefehle. Eine Herausforderung, die mit einer beträchtlichen Reihe von Sprachbefehlen verbunden ist, besteht darin, sie zu unterrichten, ohne den Benutzer zu überlasten, und wie man dem Benutzer hilft, sie zu behalten.

Statusangaben für Spracherkennungsfeedback

Wenn die Spracherkennung richtig angewendet wird, versteht der Benutzer, was er sagen kann und er erhält ein eindeutiges Feedback, das das System ihn richtig verstanden hat. Diese beiden Signale geben dem Benutzer das Gefühl, dass er die Spracherkennung als primäre Eingabemethode verwenden kann. Nachfolgend ist in einem Diagramm dargestellt, was mit dem Cursor geschieht, wenn die Spracheingabe erkannt wird und wie dies dem Benutzer vermittelt wird.

1. Regulärer Cursorzustand

2. Kommuniziert Sprachfeedback und verschwindet dann

*3. Regulärer Cursorzustand
3. Zurück in den regulären Cursorzustand

Wichtige Informationen zur Spracherkennung in Mixed Reality

Sagen Sie "Auswählen" , während Sie auf eine Schaltfläche ausgerichtet sind (Sie können dies überall verwenden, um eine Schaltfläche auszuwählen).
Sie können in einigen Apps den Bezeichnungsnamen einer Schaltfläche auf der App-Leiste sagen, um eine Aktion auszuführen. Beim Betrachten einer App kann ein Benutzer beispielsweise den Befehl "Entfernen" sagen, um die App aus der Welt zu entfernen (dies spart Zeit, um sie mit Ihrer Hand auswählen zu müssen).
Sie können Cortana mit dem Lauschen beginnen, indem Sie "Hey Cortana" sagen. Sie können ihr Fragen stellen ("Hey Cortana, wie hoch ist der Eiffelturm"), sie bitten, eine App zu öffnen ("Hey Cortana, netflix öffnen") oder sie auffordern, das Startmenü ("Hey Cortana, bringe mich nach Hause") und vieles mehr aufzurufen.

Häufig gestellte Fragen und Bedenken von Benutzern zur Spracheingabe

Was kann ich sagen?
Woher weiß ich, ob das System mich richtig verstanden hat?
- Das System versteht meine Sprachbefehle immer wieder falsch.
- Es reagiert nicht, wenn ich einen Sprachbefehl erteile.
Es reagiert falsch, wenn ich einen Sprachbefehl erteile.
Wie richte ich meine Stimme auf eine bestimmte App oder einen bestimmten App-Befehl aus?
Kann ich Objekte per Sprachbefehl aus dem holografischen Rahmen der HoloLens bewegen?

Kommunikation

Für Anwendungen, die die von HoloLens bereitgestellten benutzerdefinierten Audioeingabeverarbeitungsoptionen nutzen möchten, ist es wichtig, die verschiedenen Audiostreamkategorien zu verstehen, die Ihre App nutzen kann. Windows 10 unterstützt mehrere verschiedene Streamkategorien, und HoloLens verwendet drei davon, um eine benutzerdefinierte Verarbeitung zu ermöglichen, um die Audioqualität des Mikrofons zu optimieren, die auf Sprache, Kommunikation und andere zugeschnitten ist, die für Umgebungsaudioaufnahmen (d. h. "Camcorder")-Szenarien verwendet werden kann.

Die AudioCategory_Communications-Streamkategorie ist für Anrufqualitäts- und Kommentarszenarien angepasst und stellt dem Client einen 16-kHz-24-Bit-Mono-Audiostream der Stimme des Benutzers zur Verfügung.
Die AudioCategory_Speech-Streamkategorie ist für die Sprach-Engine von HoloLens (Windows) angepasst und stellt sie mit einem 16-kHz-24-Bit-Monostream der Stimme des Benutzers bereit. Diese Kategorie kann bei Bedarf von Sprachmodulen von Drittanbietern verwendet werden.
Die AudioCategory_Other-Datenstromkategorie ist für die Audioaufzeichnung in Umgebungsumgebungen angepasst und stellt dem Client einen 48-kHz-24-Bit-Stereoaudiostream zur Verfügung.

All diese Audioverarbeitung wird hardwarebeschleunigt, was bedeutet, dass die Funktionen viel weniger Energie beanspruchen, als wenn die gleiche Verarbeitung auf der HoloLens-CPU erfolgt. Vermeiden Sie es, andere Audioeingabeverarbeitungen auf der CPU auszuführen, um die Akkulaufzeit des Systems zu maximieren und die integrierte, abgeladene Audioeingabeverarbeitung zu nutzen.

Sprachen

HoloLens 2 unterstützt mehrere Sprachen. Beachten Sie, dass Sprachbefehle immer in der Anzeigesprache des Systems ausgeführt werden, auch wenn mehrere Tastaturen installiert sind oder Apps versuchen, eine Spracherkennung in einer anderen Sprache zu erstellen.

Problembehandlung

Wenn Sie Probleme bei der Verwendung von "Select" und "Hey Cortana" haben, versuchen Sie, sich in einen ruhigeren Raum zu bewegen, sich von der Rauschquelle zu entfernen oder lauter zu sprechen. Zu diesem Zeitpunkt ist die gesamte Spracherkennung auf HoloLens speziell für Muttersprachler von USA Englisch optimiert und optimiert.

Für das Windows Mixed Reality Developer Edition Release 2017 funktioniert die Verwaltungslogik des Audioendpunkts (für immer) einwandfrei, nachdem sie sich abgemeldet und nach der ersten HMD-Verbindung wieder auf dem PC-Desktop angemeldet haben. Vor diesem ersten Abmelde-/Ein-Ereignis nach dem Durchlaufen von WMR OOBE konnte der Benutzer verschiedene Audiofunktionen probleme haben, die von keinem Audio bis hin zu keinem Audiowechsel reichen, je nachdem, wie das System eingerichtet wurde, bevor das HMD zum ersten Mal verbunden wurde.

Spracheingabe in MRTK (Mixed Reality Toolkit) für Unity

Mit MRTK können Sie den Sprachbefehl für beliebige Objekte problemlos zuweisen. Verwenden Sie das Spracheingabeprofil von MRTK, um Ihre Schlüsselwörter zu definieren. Durch Zuweisen eines SpeechInputHandler-Skripts können Sie festlegen, dass jedes Objekt auf die im Spracheingabeprofil definierten Schlüsselwörter reagiert. SpeechInputHandler bietet auch eine Sprachbestätigungsbezeichnung, um das Vertrauen des Benutzers zu verbessern.

MRTK – Sprachbefehl

Freigeben über

Spracheingabe

Stimme und Blick

Geräteunterstützung

Der Befehl "select"

Hey Cortana

"Sehen Sie es, sagen Sie es"

Sprachbefehle für schnelle Hologrammbearbeitung

Ermitteln von Sprachbefehlen

Diktieren

Hinzufügen von Sprachbefehlen zu Ihrer App

Bewährte Methoden

Vorteile der Spracheingabe

Herausforderungen bei der Spracheingabe

Statusangaben für Spracherkennungsfeedback

Wichtige Informationen zur Spracherkennung in Mixed Reality

Häufig gestellte Fragen und Bedenken von Benutzern zur Spracheingabe

Kommunikation

Sprachen

Problembehandlung

Spracheingabe in MRTK (Mixed Reality Toolkit) für Unity

Weitere Informationen

Feedback

Zusätzliche Ressourcen