音声入力

音声入力

音声は、HoloLens の主な入力形式の 1 つです。 音声を使うと、手のジェスチャを使用せずに、ホログラムに直接コマンドを実行できます。 音声入力は、意図を伝える自然な方法として使用できます。 音声は、複雑なインターフェイスの走査に特に優れています。入れ子になったメニューをユーザーが 1 つのコマンドで通過できるためです。

音声入力には、すべてのユニバーサル Windows アプリで音声をサポートしているのと同一のエンジが利用されています。 HoloLens では、音声認識はデバイスの設定で構成された Windows の表示言語で常に機能します。


音声と視線入力

音声コマンドを使用しているときは、カーソルを使用して "選択" する場合も、見ているアプリケーションにコマンドをチャネル処理する場合も、頭または目の視線入力が一般的なターゲット設定メカニズムです。 視線入力カーソルを表示する必要がない場合もあります ("見て発音する")。 音声コマンドの中には、「スタートに移動」や「コルタナさん」のようにターゲットが必要ないものもあります。

デバイス サポート

機能 HoloLens (第 1 世代) HoloLens 2 イマーシブ ヘッドセット
音声入力 ✔️ ✔️ ✔️ (マイク付き)

「選択」コマンド

HoloLens (第 1 世代)

アプリに音声サポートを追加しなくても、システム音声コマンドの「選択」を言うだけで、ユーザーはホログラムをアクティブ化することができます。 これは、HoloLens でのエア タップHoloLens クリッカーでの [選択] ボタン押下、Windows Mixed Reality モーション コントローラーのトリガー押下と同じように動作します。 サウンドが鳴り、「選択」というツールヒントが確認として表示されます。 「選択」は、省電力キーワード検出アルゴリズムによって有効になります。つまり、電池寿命への影響を最小限に抑えた状態でいつでも言うことができます。 両手を脇に降ろした状態で「選択」と言うこともできます。



HoloLens 2

HoloLens 2 で「選択」音声コマンドを使用するには、まず、視線入力カーソルをポインターとして起動する必要があります。 起動するためのコマンドは簡単に覚えられます。「選択」と言うだけです。

このモードを終了するには、再び手を使用します。エア タップして、指をボタンに近づけるか、システム ジェスチャを使用します。

画像: 「選択」と言って、選択のための音声コマンドを使用します

ユーザーは



コルタナさん

「コルタナさん」と言うと、いつでも Cortana を起動できます。 表示されるまで待つ必要はなく、続けて質問を尋ねたり、指示を与えることができます。 たとえば、「コルタナさん、天気はどうですか?」と 1 文で言ってみてください。 Cortana の詳細や何ができるかについては、Cortana に尋ねてください。 「コルタナさん、何を言えばいいですか?」と言うと、作業コマンドと推奨コマンドの一覧を教えてくれます。 既に Cortana アプリが起動されている場合は、サイドバーの [?] アイコンを選択するとこれと同じメニューが表示されます。

HoloLens 固有のコマンド

  • 音声操作の項目
  • 「スタートに移動」 - ブルームの代わりで、[スタート] メニューに移動できます
  • "アプリ>の起動<"
  • "アプリ>をここに移動<する"
  • 「写真を撮る」
  • 「録画を開始する」
  • 「ビデオ録画の停止」
  • 「ハンド レイを表示する」
  • 「ハンド レイを非表示にする」
  • 「明るくする」
  • 「暗くする」
  • 「音量を上げる」
  • 「音量を下げる」
  • 「ミュート」または「ミュート解除」
  • 「デバイスをシャットダウンする」
  • 「デバイスを再起動する」
  • 「スリープにする」
  • "何時ですか?"
  • 「電池の残量はどれくらいですか?」


"見て発音する"

HoloLens には、音声入力のための "見て発音する" モデルがあり、ボタンのラベルによって、ユーザーが使用できる音声コマンドがわかります。 たとえば、HoloLens (第 1 世代) のアプリ ウィンドウを見て、ユーザーは「調整」コマンドを発音して環境でのアプリの位置を調整できます。

画像: ユーザーは、アプリ バーに表示される「調整」コマンドを発音して、アプリの位置を調整できます

スペース
アプリ ウィンドウまたはホログラムを見ると、ユーザーはアプリ バーに表示される


アプリがこの規則に従うと、システムを制御するために何と言えばいいかをユーザーが簡単に理解できます。 HoloLens (第 1 世代) でボタンを見つめると、"音声ドウェル" ヒントが表示されます。これは、ボタンが音声対応の場合に 1 秒後に現れ、ボタンを "押す" ために発音するコマンドが表示されます。 HoloLens 2 で音声ヒントを表示するには、「選択」または「何を言えばいいですか」と言って音声カーソルを表示します (画像を参照してください)。

画像: "見て発音する" コマンドがボタンの下に表示されます

ボタンの下にコマンドが表示されるとします。



高速ホログラム操作のための音声コマンド

ホログラムを見つめながら言うことで、タスクをすばやく操作できる音声コマンドが多数あります。 これらの音声コマンドは、環境に配置したアプリ ウィンドウと 3D オブジェクトに対して機能します。

ホログラム操作コマンド

  • 正面から見る
  • 拡大 | 拡張

HoloLens 2 では、目の視線入力と組み合わせることで、さらに自然な対話式操作を実現することができます (目の視線入力によって、何を指しているかというコンテキスト情報が暗黙に提供されます)。 たとえば、ホログラムを見ながら「これを置く」と言ってから、置きたい場所を見て、「こちらに」と言うことができます。 あるいは、複雑な機械のホログラフィックのパーツを見て、「これについて詳細情報を教えて」と言うことができます。

音声コマンドの検出

上記の高速操作用のコマンドなど、一部のコマンドは非表示にできます。 使用できるコマンドを知りたい場合は、オブジェクトを見て、「何を言えばいいですか?」と言います。 使用可能なコマンドの一覧が表示されます。 また、頭の視線入力のカーソルを使用して、周囲を見渡し、目の前の各ボタンの音声ヒントを表示することもできます。

完全な一覧が必要な場合は、いつでも、「すべてのコマンドを表示する」と言うだけです。

ディクテーション

アプリにテキストを入力するには、エア タップで入力するよりも、音声ディクテーションの方が効率的です。 これにより、ユーザーの労力を減らして入力にかかる時間を大幅に短縮できます。

マイク ボタンを選択して音声ディクテーションを開始する
キーボード上のマイクのボタンを選択すると音声ディクテーションが開始します

ホログラフィック キーボードがアクティブな場合はいつでも、タイプからディクテーション モードに切り替えることができます。 開始するには、テキスト入力ボックスの横にあるマイクを選択します。

アプリへの音声コマンドの追加

構築するすべてのエクスペリエンスに対して、音声コマンドを加えることをご検討ください。 音声は、システムとアプリを制御するための強力かつ便利な方法です。 ユーザーはさまざまな方言やアクセントで話すため、音声キーワードを適切に選択することで、ユーザーのコマンドが明確に解釈されるようになります。

ベスト プラクティス

スムーズな音声認識に役立ついくつかのプラクティスを以下に示します。

  • 簡潔なコマンドを使用する - 可能なら 2 音節以上から成るキーワードを選択します。 1 音節の単語は、アクセントが異なる人が読み上げると、別の母音が使用されやすくなります。 たとえば、「現在選択されているビデオを再生」より「ビデオを再生」の方がよいでしょう
  • 簡単な単語を使用する - たとえば、「プラカードを表示」より「メモを表示」の方がよいでしょう
  • コマンドが非破壊的であること - 音声コマンドのすべての操作が非破壊的であることと、ユーザーの近くで話している別の人によって誤ってコマンドがトリガーされた場合でも簡単に元に戻せることを確認します。
  • 発音が似ているコマンドを避ける - 発音が似ている音声コマンドを複数登録しないようにします。 たとえば、「Show more (詳細の表示)」と「Show store (店舗の表示)」は、似た音として聞こえることがあります。
  • 使用していない場合、アプリの登録を解除する - アプリが、特定の音声コマンドが有効な状態ではない場合は、それが他のコマンドと混同されないようにアプリを登録解除することを検討します。
  • 別のアクセントによるテスト - 別のアクセントのユーザーによってアプリをテストします。
  • 音声コマンドの一貫性を維持 - 「戻る」で前のページに戻るようになっているなら、ご自分のアプリケーションでもこの動作を維持してください。
  • システム コマンドを使用しない - 次の音声コマンドはシステムで予約されているため、アプリケーションでは使用しないでください。
    • 「コルタナさん」
    • 「選択」
    • 「スタートに移動」

音声入力の利点

音声入力は、意図を伝える自然な方法です。 音声を使用すると、インターフェイスの複数のステップを通過することができるため、特にインターフェイスの走査に適しています。 Web ページを見ているとき、ユーザーはアプリで上に移動して [戻る] ボタンをクリックする必要はなく、代わりに 「戻る」と言うことができます。 この短い時間の節約は、このエクスペリエンスに対するユーザーの認識に強力な感情的効果をもたらすとともに、ユーザーにわずかながら超能力を与えます。 音声の使用は、両手がふさがっているときや、マルチタスク中にも便利な入力方法です。 キーボードでの入力が難しいデバイスでは、音声ディクテーションがテキストの効率的な入力方法となる場合があります。 また、視線入力やジェスチャの精度の範囲が限られるケースでは、音声を使用してユーザーの意図を明確にすることができます。

音声使用がユーザーにもたらすメリット

  • 時間の短縮 - 最終目的をより効率的にします。
  • 労力の最小化 - タスクをよりスムーズかつ簡単にします。
  • 認知負荷の軽減 - 直感的かつ簡単で、覚えるのが容易です。
  • 社会的に受け入れられていて、社会的な行動規範に適合しています。
  • 日常的 - 音声はすぐに習慣的な動作となることができます。

音声入力の課題

音声入力は多様なアプリケーションで役立ちますが、いくつかの課題もあります。 アプリ開発者は、音声入力の利点と課題の両方を理解することで、音声入力を使用する方法や場合を適切に選択できるようになり、ユーザーのために優れたエクスペリエンスを作成できます。

連続入力制御での音声入力 きめ細かい制御はその 1 つです。 たとえば、ユーザーが音楽アプリの音量を変えようとする場合があります。 「もっと大きく」と言うことはできますが、システムがどれくらい音量を大きくすればよいかがはっきりしません。 ユーザーは「少し大きく」と言うこともできますが、「少し」を定量化するのは困難です。 音声を使用したホログラムの移動またはスケーリングも同様に困難です。

音声入力検出の信頼性 音声入力システムはどんどん向上していますが、音声入力の聞き取りや解釈が間違う場合もあります。 重要なのは、アプリケーションの課題に対処することです。 システムがリッスンしているときにユーザーにフィードバックを提供します。システムが何を理解したかによって、ユーザーの音声の理解に関する潜在的な問題が明らかになります。

共有スペースでの音声入力 他の人と共有するスペースでは音声が社会的に受け入れられない場合があります。 次に例をいくつか示します。

  • ユーザーが、他の人に迷惑をかけたくない場合があります (たとえば、静かな図書館や共同オフィスなど)
  • ユーザーが、人目のある場所で独りごとを話しているのを見られるのを気まずく感じる可能性があります
  • ユーザーが、他者に聞こえる状況で、個人的なメッセージや機密性のある連絡事項 (パスワードを含む) を口述することに不快感を感じる可能性があります

固有の語または不明な語の音声入力 音声入力の難しさは、ニックネーム、特定のスラング、省略形のように、ユーザーが話す言葉がシステムにとってわからない場合にも現れます。

音声コマンドの学習 最終的な目標はシステムと自然に会話することですが、多くの場合、アプリは事前定義された音声コマンドにまだ依存しています。 多数の音声コマンドのセットに伴う課題は、ユーザーにとって過大な負担とならない学習方法とユーザーが忘れないようにする方法です。



音声のフィードバックの状態

音声が適切に適用されると、ユーザーは自分が何を言えるのかを理解し、システムがそれを正しく認識したという明確なフィードバックを得ます。 こうした 2 つのシグナルにより、ユーザーは音声をメインの入力として使用することに自信を持つことができます。 下の図は、音声入力が認識されたときにカーソルに何が発生するか、またそれがユーザーにどのように伝わるかを示す図です。

1. カーソルの通常の状態
1. カーソルの通常の状態

2. 音声のフィードバックを伝えてから消える
2. 音声のフィードバックを伝えてから消える

*3.通常のカーソルの状態
3. カーソルの通常の状態に戻る




Mixed Reality における「音声」について、ユーザーが知っておくべき重要な事項

  • ボタンをターゲットにしながら「選択」と言います (ボタンを選択する場所ならどこでもこれを使用できます)。
  • 一部のアプリでは、アクションを実行するためにアプリ バー ボタンのラベル名を言うことができます。 たとえば、ユーザーは、アプリを見ながらコマンド「削除」を発話することで、アプリを環境から削除することができます (これにより手で選択する手間が省けます)。
  • 「コルタナさん」と言うと、Cortana のリスニングを開始することができます。質問をしたり (「コルタナさん、エッフェル塔の高さは」など)、アプリを開くように指示したり (「コルタナさん、Netflix を開いて」など)、スタート メニューを表示するように指示したり (「コルタナさん、ホームに戻って」など) することができます。

音声に関する一般的な質問と問題

  • 何を言えばよいですか。
  • 音声が正しく認識されているかどうかを確認する方法。
    • 音声コマンドが継続的に誤認識される。
    • 音声コマンドに対する反応がない。
  • 音声コマンドを言ったが、間違った動作になる。
  • 自分の音声のターゲットを特定のアプリやアプリ コマンドにする方法。
  • HoloLens のホログラフィック フレームから外れたものに音声でコマンドを出せるか。

コミュニケーション

HoloLens で提供されるカスタマイズされた音声入力処理オプションを利用するアプリケーションの場合は、アプリで使用できるさまざまなオーディオ ストリーム カテゴリを理解することが重要です。 Windows 10 によっていくつかの異なるストリーム カテゴリがサポートされており、HoloLens ではそのうち 3 つを利用して、音声、通信、その他 (アンビエント環境のオーディオ キャプチャ (つまり "カムコーダー") のシナリオで使用できる) に合わせてマイクのオーディオ品質を最適化するためのカスタム処理を有効にしています。

  • AudioCategory_Communications ストリーム カテゴリは、通話品質およびナレーション シナリオ向けにカスタマイズされており、16-kHz 24 ビットのモノ オーディオ ストリームのユーザー音声をクライアントに提供します。
  • AudioCategory_Speech ストリーム カテゴリは、HoloLens (Windows) 音声エンジン向けにカスタマイズされており、16-kHz 24 ビットのモノ オーディオ ストリームのユーザー音声を提供します。 このカテゴリは、必要に応じてサードパーティ製の音声エンジンで使用できます。
  • AudioCategory_Other ストリーム カテゴリは、アンビエント環境のオーディオ録音向けにカスタマイズされており、48-kHz 24 ビットのステレオ オーディオ ストリームをクライアントに提供します。

このようなオーディオ処理はすべてハードウェアによって促進されます。つまり、同じ処理が HoloLens CPU で処理される場合に比べて、機能によって使用される電力が大幅に少なくなります。 他のオーディオ入力処理の CPU での実行を回避して、システムの電池の寿命を延ばし、組み込みのオフロード オーディオ入力処理を利用してください。

言語

HoloLens 2 では複数の言語がサポートされます。 複数のキーボードがインストールされている場合や、アプリが別の言語の音声認識エンジンを作成しようとする場合でも、音声コマンドは常にシステムの表示言語で実行されることに注意してください。

トラブルシューティング

「選択」や「コルタナさん」を使用するときに問題が生じた場合は、静かな場所に移動したり、騒音の発生源とは異なる方向に向きを変えたり、話す声を大きくしたりしてみてください。 現時点では、HoloLens でのすべての音声認識は、英語 (米国) のネイティブ スピーカーに合わせてチューニングおよび最適化されています。

Windows Mixed Reality Developer Edition リリース 2017 では、オーディオ エンドポイント管理ロジックは、最初の HMD 接続の後で、PC デスクトップからログアウトしてログインすると、正常に (永続的に) 機能します。 WMR OOBE が行われた後でサインアウト/インをしないと、ユーザーは、オーディオなしや、オーディオの切り替えなど、さまざまなオーディオ機能の問題を経験する可能性があります。これは、最初に HMD に接続する前のシステムの設定によって異なります。



Unity 向け MRTK (Mixed Reality Toolkit) での音声入力

MRTK を使用すると、あらゆるオブジェクトに音声コマンドを簡単に割り当てることができます。 MRTK の音声入力プロファイルを使用してキーワードを定義します。 SpeechInputHandler スクリプトを割り当てることで、任意のオブジェクトが音声入力プロファイルに定義したキーワードに応答するようにできます。 SpeechInputHandler によって、ユーザーの信頼度を上げる音声確認ラベルも提供されます。


関連項目