語音輸入

語音輸入

語音是 HoloLens 輸入的其中一種主要形式。 它可讓您直接命令全像投影,而不需要使用 手勢。 語音輸入是溝通意圖的一種自然方式。 語音特別適合周遊複雜的介面,因為它可讓使用者使用一個命令來剪下巢狀功能表。

語音輸入是由支援所有通用 Windows 應用程式中語音的相同引擎所提供。 在 HoloLens 上,語音辨識一律會以裝置設定中所設定的 Windows 顯示語言運作。


語音和注視

當您使用語音命令時,頭部或眼睛注視是典型的目的機制,無論是使用游標來「選取」,還是將命令通道傳送至您正在查看的應用程式。 甚至可能不需要顯示任何注視資料指標 (「看到它,例如」) 。 某些語音命令完全不需要目標,例如「移至開始」或「Hey Cortana」。

裝置支援

功能 HoloLens (第 1 代) HoloLens 2 沉浸式頭戴裝置
語音輸入 ✔️ ✔️ ✔️ 使用麥克風) (

「select」 命令

HoloLens (第 1 代)

即使未特別將語音支援新增至您的應用程式,您的使用者只要說出系統語音命令「選取」即可啟用全像投影。 這與 HoloLens 上的空中點選行為相同、按下HoloLens 按一下器上的選取按鈕,或按下Windows Mixed Reality動作控制器上的觸發程式。 您將聽到音效,並看到工具提示,並顯示「選取」顯示為確認。 「選取」是由低電源關鍵字偵測演算法所啟用,這表示您隨時都可以以最少的電池使用時間影響來說。 您甚至可以在側邊用手說「選取」。



HoloLens 2

若要在 HoloLens 2 中使用 「select」 語音命令,您必須先顯示注視游標做為指標。 啟動的命令很容易記住,只要說「選取」即可。

若要結束模式,請再次使用手部,方法是點選、使用手指接近按鈕,或使用系統手勢。

影像:說出「選取」以使用語音命令進行選取

使用者可以說「選取」,以使用語音命令進行選取。



嗨 Cortana

您可以說「Hey Cortana」隨時啟動 Cortana。 您不需要等待她繼續詢問您的問題或提供指示。 例如,請嘗試說「Hey Cortana,天氣是什麼?」作為單一句子。 如需 Cortana 和您可以執行哪些動作的詳細資訊,請詢問她! 說「Hey Cortana,我可以說什麼?」,她將會提取工作和建議命令的清單。 如果您已經在 Cortana 應用程式中,請選取提要拉出此相同功能表的 圖示。

HoloLens 特定命令

  • 「我可以說什麼?」
  • 「Go to Start」 - 而不是 開開 ,以進入 [開始] 功能表
  • 「啟動 < 應用程式 > 」
  • 「在這裡移動 < 應用程式 > 」
  • 「拍攝圖片」
  • 「開始錄製」
  • 「停止錄製」
  • 「顯示手部光線」
  • 「隱藏手部光線」
  • 「增加亮度」
  • 「減少亮度」
  • 「增加磁片區」
  • 「減少磁片區」
  • 「Mute」 或 「Unmute」
  • 「關閉裝置」
  • 「重新開機裝置」
  • 「進入睡眠」
  • "What time is it?" (現在幾點?)
  • 「我剩下多少電池?」


「查看它,說出」

HoloLens 具有語音輸入的「查看、說出」模型,其中按鈕上的標籤會告訴使用者他們也可以說出哪些語音命令。 例如,在 HoloLens 中查看應用程式視窗 (第 1 代) 時,使用者可以說「調整」命令來調整應用程式中的位置。

影像:使用者可以說出「調整」命令,他們在應用程式行中看到以調整應用程式的位置

空間
查看應用程式視窗或全像投影時,使用者可以說出他們在應用程式行中看到的「調整」命令,以調整應用程式在世界中的位置


當應用程式遵循此規則時,使用者可以輕鬆地瞭解要說什麼來控制系統。 當 HoloLens (第 1 代) 按鈕時,您會看到一個「語音停留」工具提示,如果按鈕已啟用語音,並顯示命令以「按下」它,則會在一秒後出現。 若要在HoloLens 2中顯示語音工具提示,請透過說出「選取」或「我可以說什麼」來顯示語音游標, (查看影像) 。

影像:「See it, say it」 命令會出現在按鈕下方

查看它,假設命令出現在按鈕下方



快速全像投影操作的語音命令

在全像投影上,您可以說許多語音命令,以快速執行操作工作。 這些語音命令可在您放置於世界各地的應用程式視窗和 3D 物件上運作。

全像投影操作命令

  • 面對我
  • 較大 |提高
  • 較小

在HoloLens 2上,您也可以結合眼球注視建立更自然的互動,這隱含地提供您參考內容的內容資訊。 例如,您可以查看全像投影,並說出「放置 這個」,然後查看您要放置它的位置,然後說「 在這裡」。 或者,您可以在複雜的電腦上查看全像攝影元件,並說:「提供我 有關此專案的詳細資訊」。

探索語音命令

某些命令,例如上述快速操作的命令,可以隱藏。 若要瞭解您可以使用哪些命令,請注視物件並說「我可以說什麼?」。 可能命令的清單隨即出現。 您也可以使用頭部注視游標來查看,並顯示您前面每個按鈕的語音工具提示。

如果您想要完整清單,只要說出「顯示所有命令」即可。

聽寫

語音聽寫可以更有效率地在應用程式中輸入文字,而不是使用 空中點選來輸入。 這可大幅加速使用者較少的投入時間輸入。

從選取麥克風按鈕開始語音聽寫
語音聽寫從選取鍵盤上的麥克風按鈕開始

每當全像攝影鍵盤作用中時,您可以切換至聽寫模式,而不是輸入。 選取文字輸入方塊側邊的麥克風以開始使用。

將語音命令新增至您的應用程式

請考慮對您所建置的任何體驗新增語音命令。 語音是控制系統和應用程式的強大方式。 由於使用者以不同類型的方言和輔音說話,因此適當的語音關鍵字選擇可確保使用者的命令明確解譯。

最佳做法

以下是有助於順利辨識語音的一些做法。

  • 使用精簡的命令 - 盡可能選擇有兩個以上音節的關鍵字。 口音不同的人在說單音節的單字時往往會使用不同的元音。 範例:「播放影片」優於「播放目前選取的影片」
  • 使用簡單的詞彙 - 範例:「顯示記事」比「顯示圖格」更好
  • 請確定命令是非破壞性的 - 確定 任何語音命令動作都是非破壞性的,而且在使用者附近說話的另一個人不小心觸發命令時,可以輕鬆地復原。
  • 避免類似的音效命令 - 避免註冊多個聽起來類似的語音命令。 範例:「顯示更多」和「顯示存放區」可能類似音效。
  • 未使用時取消註冊您的應用程式 - 當應用程式不在特定語音命令有效狀態時,請考慮取消註冊它,讓其他命令不會與該命令混淆。
  • 使用不同口音進行測試 - 請使用不同口音的使用者測試應用程式。
  • 讓語音命令保持一致 - 如果 "Go back" 會回到上一頁,請在應用程式中保持這個行為。
  • 避免使用系統命令 - 下列語音命令會保留給系統,因此請避免在應用程式中使用這些命令:
    • "Hey Cortana"
    • "Select"
    • 「移至開始」

語音輸入的優點

語音輸入是傳達我們的意圖的自然方式。 語音特別適合介面 周遊 ,因為它可協助使用者剪下介面的多個步驟。 使用者可能會在查看網頁時說「返回」,而不需上移一層並點擊應用程式中的上一頁按鈕。 這小時間節省對於使用者對於體驗的認知有強大的 情緒影響 ,並讓他們擁有少量的超能力。 當我們的雙手已滿或多工時,使用語音也是一種方便 輸入方法。 在鍵盤上輸入很困難時, 語音聽寫 可能是輸入文字的有效替代方式。 最後,在某些情況下,注視和手勢 的精確度範圍 有限時,語音有助於厘清使用者的意圖。

使用語音如何造福使用者

  • 減少時間 - 應可讓最終目標變得更有效率。
  • 將投入量最小化 - 應可讓工作變得更加流暢和輕鬆。
  • 減少認知負荷 - 直覺、容易學習和記住。
  • 社會可接受 - 應符合社會的行為規範。
  • 例行 - 語音可立即成為慣常行為。

語音輸入的挑戰

雖然語音輸入非常適合許多不同的應用程式,但也面臨數個挑戰。 瞭解語音輸入的優點和挑戰,可讓應用程式開發人員更聰明地選擇使用語音輸入的方式和時機,並為其使用者建立絕佳的體驗。

連續輸入控制項的語音輸入 精細的控制是其中一個。 例如,使用者可能會想要變更其音樂應用程式中的音量。 她可以說「大聲」,但不清楚系統應該讓音量變得更大。 使用者可以說:「讓它稍微大聲」,但「稍微」很難量化。 使用語音移動或縮放全像投影很困難。

語音輸入偵測的可靠性 雖然語音輸入系統變得更好且更好,但有時候它們可能會不正確地聽到並解譯語音命令。 關鍵在於解決應用程式中的挑戰。 在系統接聽時提供意見反應給使用者,而系統瞭解的內容會厘清瞭解使用者語音的潛在問題。

共用空間中的語音輸入 在與您與他人共用的空間中,語音可能無法在社交上接受。 以下是一些範例:

  • 例如,在無訊息文件庫或共用辦公室) ,使用者可能不想干擾其他人 (
  • 使用者可能會覺得在公開與自己交談時感到很不覺,
  • 使用者可能會覺得聽聽個人或機密訊息 (包括密碼) ,而其他人正在接聽

唯一或未知文字的語音輸入 當使用者聽寫系統可能未知的字組時,語音輸入也會發生困難,例如昵稱、特定語言字組或縮寫。

學習語音命令 雖然最終目標是自然地與系統交談,但應用程式通常仍依賴特定的預先定義語音命令。 與一組重要語音命令相關聯的挑戰是如何教導他們,而不多載使用者,以及如何協助使用者保留這些命令。



語音反饋狀態

當語音正確套用時,使用者會了解他們能說什麼並獲得清楚的反饋而知道系統正確聽懂他們的語音。 這兩個訊號會讓使用者有信心,確信他們可以使用語音作為主要輸入方式。 下圖顯示的是當系統辨識到語音輸入時會有什麼情形,以及系統會如何讓使用者知道這一點。

1.一般資料指標狀態
1.一般資料指標狀態

2.傳達語音意見反應,然後消失
2.傳達語音意見反應,然後消失

*3.一般資料指標狀態
3.返回一般資料指標狀態




針對混合實境中的「語音」,使用者最應該了解的事

  • 在以按鈕為目標時說 「選取」 , (您可以使用這個位置來選取按鈕) 。
  • 在某些應用程式中,您可以說出應用程式列按鈕的標籤名稱來採取動作。 例如,在查看應用程式時,使用者可以說「移除」命令以從世界移除應用程式, (這可節省時間,讓您不必手動選取應用程式) 。
  • 您可以說 「Hey Cortana」來開始接聽 Cortana。 您可以詢問她的問題 (「Hey Cortana」、E) 、告訴她開啟應用程式 (「Hey Cortana」、開啟「) ,或告訴她顯示 「開始功能表」 (「Hey Cortana,帶我住家」) 等等。

使用者會有的語音相關常見問題和疑慮

  • 我可以說什麼?
  • 如何知道系統沒有聽錯?
    • 系統一直聽錯我的語音命令。
    • 我提供了語音命令,系統卻沒有反應。
  • 我提供了語音命令,系統卻做出錯誤反應。
  • 如何讓我的語音以特定應用程式或應用程式命令作為目標?
  • 在 HoloLens 上的全像攝影畫面外,是否可以使用語音來命令物件?

溝通

對於想要利用 HoloLens 所提供的自訂音訊輸入處理選項的應用程式,請務必瞭解應用程式可取用的各種 音訊串流類別 。 Windows 10支援數個不同的串流類別,HoloLens 會利用這三種類別來啟用自訂處理,以針對語音、通訊和其他量身打造的麥克風音訊品質優化,這可用於環境環境音訊擷取 (,也就是「camcorder」) 案例。

  • AudioCategory_Communications串流類別會針對通話品質與朗讀案例進行自訂,並提供使用者語音的 16-kHz 24 位單聲道音訊串流給用戶端
  • AudioCategory_Speech資料流程類別是針對 HoloLens (Windows) 語音引擎自訂的,並提供使用者語音的 16-kHz 24 位單聲道串流。 如有需要,協力廠商語音引擎可以使用此類別。
  • AudioCategory_Other串流類別會針對環境音訊錄製進行自訂,並提供 48-kHz 24 位的身歷聲音訊串流給用戶端。

這所有音訊處理都是加速的硬體,這表示功能會耗用比在 HoloLens CPU 上執行相同處理時的電力少很多。 避免在 CPU 上執行其他音訊輸入處理,以最大化系統電池使用時間,並利用內建的卸載音訊輸入處理。

語言

HoloLens 2支援多種語言。 請記住,即使已安裝多個鍵盤,或應用程式嘗試以不同語言建立語音辨識器,語音命令仍一律會以系統的顯示語言執行。

疑難排解

如果您使用 「選取」和「Hey Cortana」發生任何問題,請嘗試移至較無聲的空間、離開雜訊來源,或說出更大聲。 目前,HoloLens 上的所有語音辨識都會經過微調,並特別針對美國英文的原生說話者進行優化。

針對 Windows Mixed Reality Developer Edition 2017 版,音訊端點管理邏輯會在登出後永久) ) (正常運作,並在初始 HMD 連線之後回到電腦桌面。 在經過 WMR OOBE 之後,先登出/登入事件之前,使用者可能會遇到各種音訊功能問題,範圍從沒有音訊到沒有音訊切換,視系統在第一次連接 HMD 之前設定的方式而定。



適用于 Unity 的 MRTK (Mixed Reality Toolkit) 語音輸入

使用 MRTK,您可以輕鬆地在任何物件上指派語音命令。 使用 MRTK 的 語音輸入設定檔 來定義您的關鍵字。 藉由指派 SpeechInputHandler 腳本,您可以讓任何物件回應語音輸入設定檔中定義的關鍵字。 SpeechInputHandler 也提供語音確認標籤,以改善使用者信心。


另請參閱