Input suara

2023-03-21

Input suara

Voice adalah salah satu bentuk utama input di HoloLens. Ini memungkinkan Anda untuk langsung memerintahkan hologram tanpa harus menggunakan gerakan tangan. Input suara dapat menjadi cara alami untuk mengomunikasikan niat Anda. Voice sangat bagus dalam melintas antarmuka yang kompleks, karena memungkinkan pengguna memotong menu berlapis dengan satu perintah.

Input suara didukung oleh mesin yang sama yang mendukung ucapan di semua Universal Windows Apps. Di HoloLens, pengenalan ucapan akan selalu berfungsi dalam bahasa tampilan Windows yang dikonfigurasi di Pengaturan perangkat Anda.

Suara dan tatapan

Saat Anda menggunakan perintah suara, tatapan kepala atau mata adalah mekanisme penargetan umum, baik dengan kursor untuk "memilih" atau untuk menyalurkan perintah Anda ke aplikasi yang Anda lihat. Bahkan mungkin tidak diperlukan untuk menunjukkan kursor tatapan apa pun ("lihat, ucapkan"). Beberapa perintah suara tidak memerlukan target sama sekali, seperti "go to start" atau "Hey Cortana."

Dukungan perangkat

Fitur	HoloLens (generasi ke-1)	HoloLens 2	Headset imersif
Input suara	✔️	✔️	✔️ (dengan mikrofon)

Perintah "pilih"

HoloLens (generasi ke-1)

Bahkan tanpa secara khusus menambahkan dukungan suara ke aplikasi Anda, pengguna Anda dapat mengaktifkan hologram hanya dengan mengatakan perintah suara sistem "pilih". Ini bereaksi sama dengan ketukan udara pada HoloLens, menekan tombol pilih pada clicker HoloLens, atau menekan pemicu pada pengontrol gerakan Windows Mixed Reality. Anda akan mendengar suara dan melihat tipsalat dengan "pilih" muncul sebagai konfirmasi. "Pilih" diaktifkan oleh algoritma deteksi kata kunci berdaya rendah, yang berarti Anda dapat mengatakannya kapan saja dengan dampak masa pakai baterai minimal. Anda bahkan dapat mengatakan "pilih" dengan tangan Anda di sisi Anda.

HoloLens 2

Untuk menggunakan perintah suara "pilih" di HoloLens 2, Anda harus terlebih dahulu memunculkan kursor tatapan untuk digunakan sebagai penunjuk. Perintah untuk memunculkannya mudah diingat --cukup katakan, "pilih".

Untuk keluar dari mode, gunakan tangan Anda lagi dengan mengetuk udara, mendekati tombol dengan jari Anda, atau menggunakan gerakan sistem.

Gambar: Ucapkan "pilih" untuk menggunakan perintah suara untuk pemilihan

Pengguna dapat mengatakan

Hei Cortana

Anda dapat mengatakan "Hei Cortana" untuk memunculkan Cortana kapan saja. Anda tidak perlu menunggunya muncul untuk terus mengajukan pertanyaan Anda atau memberinya instruksi. Misalnya, coba katakan "Hai Cortana, apa cuacanya?" sebagai satu kalimat. Untuk informasi lebih lanjut tentang Cortana dan apa yang dapat Anda lakukan, tanyakan padanya! Katakan "Hei Cortana, apa yang bisa saya katakan?" dan dia akan menarik daftar perintah yang berfungsi dan disarankan. Jika Anda sudah berada di aplikasi Cortana, pilih ikon ? di bar samping untuk menarik menu yang sama ini.

Perintah khusus HoloLens

"Apa yang bisa kukatakan?"
"Buka Mulai" - alih-alih mekar untuk masuk ke Menu Mulai
"Luncurkan <aplikasi>"
"Pindahkan <aplikasi> ke sini"
"Ambil gambar"
"Mulai perekaman"
"Hentikan perekaman"
"Tampilkan sinar tangan"
"Sembunyikan sinar tangan"
"Tingkatkan kecerahan"
"Kurangi kecerahan"
"Tingkatkan volume"
"Kurangi volume"
"Matikan Suara" atau "Nyalakan Suara"
"Matikan perangkat"
"Mulai ulang perangkat"
"Tidurlah"
"Jam berapa sekarang?"
"Berapa banyak baterai yang tersisa?"

"Lihatlah, Katakanlah"

HoloLens memiliki model "lihat, katakanlah" untuk input suara, di mana label pada tombol memberi tahu pengguna perintah suara apa yang dapat mereka katakan juga. Misalnya, saat melihat jendela aplikasi di HoloLens (generasi ke-1), pengguna dapat mengatakan perintah "Sesuaikan" untuk menyesuaikan posisi aplikasi di dunia.

Gambar: Pengguna dapat mengatakan perintah "Sesuaikan", yang mereka lihat di bilah Aplikasi untuk menyesuaikan posisi aplikasi

Saat melihat jendela aplikasi atau hologram, pengguna dapat mengatakan perintah

Saat aplikasi mengikuti aturan ini, pengguna dapat dengan mudah memahami apa yang harus dikatakan untuk mengontrol sistem. Saat menatap tombol di HoloLens (generasi ke-1), Anda akan melihat tipsalat "tempat tinggal suara" yang muncul setelah satu detik jika tombol diaktifkan suara dan menampilkan perintah untuk berbicara untuk "menekan". Untuk mengungkapkan tipsalat suara di HoloLens 2, tampilkan kursor suara dengan mengatakan "pilih" atau "Apa yang bisa saya katakan" (Lihat gambar).

Gambar: Perintah "Lihat, katakanlah" muncul di bawah tombol

Lihat, katakanlah perintah muncul di bawah tombol

Perintah suara untuk manipulasi hologram cepat

Ada banyak perintah suara yang dapat Anda katakan sambil menatap hologram untuk melakukan tugas manipulasi dengan cepat. Perintah suara ini berfungsi pada jendela aplikasi dan objek 3D yang telah Anda tempatkan di dunia.

Perintah manipulasi hologram

Hadapi aku
Lebih besar | Meningkatkan
Lebih kecil

Di HoloLens 2, Anda juga dapat membuat interaksi yang lebih alami dalam kombinasi dengan tatapan mata, yang secara implisit memberikan informasi kontekstual tentang apa yang Anda maksudkan. Misalnya, Anda dapat melihat hologram dan mengatakan "letakkan ini" dan kemudian lihat di mana Anda ingin menempatkannya dan mengatakan " di sini". Atau Anda dapat melihat bagian holografik pada mesin yang kompleks dan mengatakan: "beri saya informasi lebih lanjut tentang ini".

Menemukan perintah suara

Beberapa perintah, seperti perintah untuk manipulasi cepat di atas, dapat disembunyikan. Untuk mempelajari tentang perintah apa yang dapat Anda gunakan, tatap objek dan katakan, "apa yang bisa saya katakan?". Daftar kemungkinan perintah muncul. Anda juga dapat menggunakan kursor tatapan kepala untuk melihat-lihat dan mengungkapkan tipsalat suara untuk setiap tombol di depan Anda.

Jika Anda menginginkan daftar lengkap, cukup katakan, "Tampilkan semua perintah" kapan saja.

Dikte

Daripada mengetik dengan ketukan udara, dikte suara bisa lebih efisien untuk memasukkan teks ke dalam aplikasi. Ini dapat sangat mempercepat input dengan lebih sedikit upaya bagi pengguna.

Dikte suara dimulai dengan memilih tombol mikrofon pada keyboard

Setiap kali keyboard holografik aktif, Anda dapat beralih ke mode dikte alih-alih mengetik. Pilih mikrofon di sisi kotak input teks untuk memulai.

Menambahkan perintah suara ke aplikasi Anda

Pertimbangkan untuk menambahkan perintah suara ke pengalaman apa pun yang Anda bangun. Voice adalah cara yang ampuh untuk mengontrol sistem dan aplikasi. Karena pengguna berbicara dengan berbagai jenis dialek dan aksen, pilihan kata kunci ucapan yang tepat akan memastikan perintah pengguna Anda ditafsirkan secara tidak ambigu.

Praktik terbaik

Di bawah ini adalah beberapa praktik yang akan membantu pengenalan ucapan yang lancar.

Gunakan perintah ringkas - Jika memungkinkan, pilih kata kunci dari dua suku kata atau lebih. Kata-kata satu suku kata cenderung menggunakan suara vokal yang berbeda ketika diucapkan oleh orang-orang dengan aksen yang berbeda. Contoh: "Putar video" lebih baik daripada "Putar video yang saat ini dipilih"
Gunakan kosakata sederhana - Contoh: "Tampilkan catatan" lebih baik daripada "Tampilkan plakat"
Pastikan perintah tidak merusak - Pastikan tindakan perintah ucapan apa pun tidak merusak dan dapat dengan mudah dibatalkan jika orang lain yang berbicara di dekat pengguna secara tidak sengaja memicu perintah.
Hindari perintah terdengar serupa - Hindari mendaftarkan beberapa perintah ucapan yang terdengar mirip. Contoh: "Tampilkan lebih banyak" dan "Tampilkan toko" bisa menjadi suara yang serupa.
Batalkan pendaftaran aplikasi Anda saat tidak digunakan - Saat aplikasi Anda tidak dalam keadaan di mana perintah ucapan tertentu valid, pertimbangkan untuk membatalkan pendaftarannya sehingga perintah lain tidak bingung untuk perintah tersebut.
Uji dengan aksen yang berbeda - Uji aplikasi Anda dengan pengguna dengan aksen yang berbeda.
Pertahankan konsistensi perintah suara - Jika "Kembali" masuk ke halaman sebelumnya, pertahankan perilaku ini di aplikasi Anda.
Hindari menggunakan perintah sistem - Perintah suara berikut disediakan untuk sistem, jadi hindari menggunakannya di aplikasi Anda:
- "Hei Cortana"
- "Pilih"
- "Pergi untuk memulai"

Keuntungan input suara

Input Voice adalah cara alami untuk mengomunikasikan niat kita. Suara sangat bagus dalam traversal antarmuka karena dapat membantu pengguna memotong beberapa langkah antarmuka. Seorang pengguna mungkin mengatakan "kembali" saat melihat halaman web, daripada harus naik dan menekan tombol kembali di aplikasi. Penghematan waktu yang kecil ini memiliki efek emosional yang kuat pada persepsi pengguna tentang pengalaman dan memberi mereka kekuatan super dalam jumlah kecil. Menggunakan suara juga merupakan metode input yang nyaman ketika kita memiliki lengan kita penuh atau multi-tugas. Pada perangkat di mana mengetik pada keyboard sulit, dikte suara dapat menjadi cara alternatif yang efisien untuk memasukkan teks. Terakhir, dalam beberapa kasus ketika rentang akurasi untuk tatapan dan gerakan terbatas, suara dapat membantu membedakan niat pengguna.

Bagaimana menggunakan suara dapat bermanfaat bagi pengguna

Menghemat waktu - suara akan membuat tujuan akhir lebih efisien.
Meminimalkan usaha - suara akan membuat tugas lebih lancar dan mudah.
Mengurangi beban kognitif - intuitif, mudah dipelajari, dan diingat.
Suara dapat diterima secara sosial - suara harus sesuai dengan norma-norma perilaku masyarakat.
Suara adalah rutinitas - suara dapat dengan mudah menjadi perilaku kebiasaan.

Tantangan untuk input suara

Meskipun input suara sangat bagus untuk banyak aplikasi yang berbeda, itu juga menghadapi beberapa tantangan. Memahami keuntungan dan tantangan untuk input suara memungkinkan pengembang aplikasi membuat pilihan yang lebih cerdas tentang bagaimana dan kapan menggunakan input suara dan untuk menciptakan pengalaman hebat bagi pengguna mereka.

Input suara untuk kontrol input berkelanjutan Kontrol halus adalah salah satunya. Misalnya, pengguna mungkin ingin mengubah volume mereka di aplikasi musik mereka. Dia bisa mengatakan "lebih keras", tetapi tidak jelas seberapa keras sistem seharusnya membuat volume. Pengguna dapat mengatakan: "Buat sedikit lebih keras", tetapi "sedikit" sulit untuk diukur. Memindahkan atau menskalakan hologram dengan suara juga sulit.

Keandalan deteksi input suara Meskipun sistem input suara menjadi lebih baik dan lebih baik, terkadang mereka mungkin salah mendengar dan menafsirkan perintah suara. Kuncinya adalah mengatasi tantangan dalam aplikasi Anda. Berikan umpan balik kepada pengguna Anda ketika sistem mendengarkan dan apa yang dipahami sistem mengklarifikasi potensi masalah memahami ucapan pengguna.

Input suara di ruang bersama Suara mungkin tidak dapat diterima secara sosial di ruang yang Anda bagikan dengan orang lain. Berikut beberapa contohnya:

Pengguna mungkin tidak ingin mengganggu orang lain (misalnya, di pustaka yang tenang atau kantor bersama)
Pengguna mungkin merasa canggung terlihat berbicara dengan diri mereka sendiri di depan umum,
Pengguna mungkin merasa tidak nyaman mendikte pesan pribadi atau rahasia (termasuk kata sandi) saat orang lain mendengarkan

Input suara kata-kata unik atau tidak dikenal Kesulitan untuk input suara juga datang ketika pengguna mendikte kata-kata yang mungkin tidak diketahui oleh sistem, seperti nama panggilan, kata gaul tertentu, atau singkatan.

Perintah suara pembelajaran Meskipun tujuan utamanya adalah untuk secara alami berkomunikasi dengan sistem Anda, seringkali aplikasi masih mengandalkan perintah suara tertentu yang telah ditentukan sebelumnya. Tantangan yang terkait dengan serangkaian perintah suara yang signifikan adalah cara mengajarkannya tanpa membebani pengguna secara berlebihan dan cara membantu pengguna untuk menyimpannya.

Status umpan balik suara

Ketika Voice diterapkan dengan benar, pengguna memahami apa yang dapat mereka katakan dan mendapatkan umpan balik yang jelas , sistem mendengarnya dengan benar. Kedua sinyal ini membuat pengguna merasa percaya diri dalam menggunakan Voice sebagai input utama. Di bawah ini adalah diagram yang menunjukkan apa yang terjadi pada kursor ketika input suara dikenali dan caranya berkomunikasi dengan pengguna.

1. Status kursor reguler

2. Mengkomunikasikan umpan balik suara dan kemudian menghilang

*3. Status kursor reguler
3. Kembali ke status kursor reguler

Hal-hal teratas yang harus diketahui pengguna tentang "ucapan" dalam realitas campuran

Ucapkan "Pilih" saat menargetkan tombol (Anda dapat menggunakannya di mana saja untuk memilih tombol).
Anda dapat mengucapkan nama label tombol bilah aplikasi di beberapa aplikasi untuk mengambil tindakan. Misalnya, saat melihat aplikasi, pengguna dapat mengatakan perintah "Hapus" untuk menghapus aplikasi dari dunia (ini menghemat waktu karena harus memilihnya dengan tangan Anda).
Anda dapat memulai Cortana mendengarkan dengan mengatakan "Hai Cortana." Anda dapat mengajukan pertanyaan padanya ("Hai Cortana, seberapa tinggi menara Eiffel"), katakan padanya untuk membuka aplikasi ("Hey Cortana, buka Netflix"), atau minta dia untuk memunculkan Menu Mulai ("Hai Cortana, bawa saya pulang") dan banyak lagi.

Pertanyaan dan kekhawatiran umum yang dimiliki pengguna tentang suara

Apa yang bisa kukatakan?
Bagaimana saya tahu sistem mendengar saya dengan benar?
- Sistem terus membuat perintah suara saya salah.
- Ini tidak bereaksi ketika saya memberikan perintah suara.
Ini bereaksi dengan cara yang salah ketika saya memberikan perintah suara.
Bagaimana cara menargetkan suara saya ke aplikasi atau perintah aplikasi tertentu?
Dapatkah saya menggunakan suara untuk memerintahkan hal-hal dari bingkai holografik di HoloLens?

Komunikasi

Untuk aplikasi yang ingin memanfaatkan opsi pemrosesan input audio yang disesuaikan yang disediakan oleh HoloLens, penting untuk memahami berbagai kategori aliran audio yang dapat digunakan aplikasi Anda. Windows 10 mendukung beberapa kategori aliran yang berbeda dan HoloLens memanfaatkan tiga hal ini untuk memungkinkan pemrosesan kustom untuk mengoptimalkan kualitas audio mikrofon yang disesuaikan untuk ucapan, komunikasi, dan lainnya, yang dapat digunakan untuk skenario tangkapan audio lingkungan sekitar (yaitu, "camcorder").

Kategori aliran AudioCategory_Communications disesuaikan untuk kualitas panggilan dan skenario narasi dan memberi klien aliran audio mono 16 kHz 24-bit dari suara pengguna
Kategori aliran AudioCategory_Speech disesuaikan untuk mesin ucapan HoloLens (Windows) dan menyediakannya dengan aliran mono 24-bit 16 kHz dari suara pengguna. Kategori ini dapat digunakan oleh mesin ucapan pihak ketiga jika diperlukan.
Kategori aliran AudioCategory_Other disesuaikan untuk perekaman audio lingkungan sekitar dan memberi klien aliran audio stereo 48-kHz 24-bit.

Semua pemrosesan audio ini dipercepat perangkat keras yang berarti fitur menguras daya yang jauh lebih sedikit daripada jika pemrosesan yang sama dilakukan pada CPU HoloLens. Hindari menjalankan pemrosesan input audio lainnya pada CPU untuk memaksimalkan masa pakai baterai sistem dan memanfaatkan pemrosesan input audio bawaan yang dilepas.

Bahasa

HoloLens 2 mendukung beberapa bahasa. Perlu diingat bahwa perintah ucapan akan selalu berjalan dalam bahasa tampilan sistem meskipun beberapa keyboard diinstal atau jika aplikasi mencoba membuat pengenal ucapan dalam bahasa yang berbeda.

Pemecahan Masalah

Jika Anda mengalami masalah menggunakan "pilih" dan "Hai Cortana", coba pindah ke ruang yang lebih tenang, berpaling dari sumber kebisingan, atau dengan berbicara lebih keras. Saat ini, semua pengenalan ucapan di HoloLens disetel dan dioptimalkan khusus untuk penutur asli Amerika Serikat Bahasa Inggris.

Untuk rilis Windows Mixed Reality Developer Edition 2017, logika manajemen titik akhir audio akan berfungsi dengan baik (selamanya) setelah keluar dan kembali ke desktop PC setelah koneksi HMD awal. Sebelum peristiwa keluar/masuk pertama setelah melalui WMR OOBE, pengguna dapat mengalami berbagai masalah fungsionalitas audio mulai dari tidak ada audio hingga tidak ada pengalihan audio tergantung pada bagaimana sistem disiapkan sebelum menghubungkan HMD untuk pertama kalinya.

Input suara di MRTK (Mixed Reality Toolkit) untuk Unity

Dengan MRTK, Anda dapat dengan mudah menetapkan perintah suara pada objek apa pun. Gunakan Profil Input Ucapan MRTK untuk menentukan kata kunci Anda. Dengan menetapkan skrip SpeechInputHandler , Anda dapat membuat objek apa pun merespons kata kunci yang ditentukan dalam Profil Input Ucapan. SpeechInputHandler juga menyediakan label konfirmasi ucapan untuk meningkatkan kepercayaan diri pengguna.

MRTK - Perintah suara

Bagikan melalui

Input suara

Suara dan tatapan

Dukungan perangkat

Perintah "pilih"

Hei Cortana

"Lihatlah, Katakanlah"

Perintah suara untuk manipulasi hologram cepat

Menemukan perintah suara

Dikte

Menambahkan perintah suara ke aplikasi Anda

Praktik terbaik

Keuntungan input suara

Tantangan untuk input suara

Status umpan balik suara

Hal-hal teratas yang harus diketahui pengguna tentang "ucapan" dalam realitas campuran

Pertanyaan dan kekhawatiran umum yang dimiliki pengguna tentang suara

Komunikasi

Bahasa

Pemecahan Masalah

Input suara di MRTK (Mixed Reality Toolkit) untuk Unity

Lihat juga

Saran dan Komentar

Sumber Daya Tambahan: