Tanya Jawab Umum ucapan ke teks

Artikel ini menjawab pertanyaan umum tentang layanan ucapan ke teks. Jika Anda tidak dapat menemukan jawaban atas pertanyaan Anda di sini, lihat opsi dukungan lainnya.

Umum

Apa perbedaan antara model dasar dan model ucapan ke teks kustom?

Model ucapan ke teks garis besar dilatih dengan data milik Microsoft dan sudah disebarkan di cloud. Anda dapat membuat dan menggunakan model kustom untuk mengadaptasi model agar lebih sesuai dengan lingkungan yang memiliki kebisingan atau bahasa sekitar tertentu. Lantai pabrik, mobil, atau jalanan yang bising akan membutuhkan model akustik yang disesuaikan. Topik seperti biologi, fisika, radiologi, nama produk, dan akronim kustom akan memerlukan model bahasa yang diadaptasi. Jika Anda ingin melatih model kustom, Anda harus memulai dengan teks terkait untuk meningkatkan pengenalan istilah dan frasa khusus.

Di mana saya mulai jika saya ingin menggunakan model dasar?

Pertama, dapatkan kunci dan wilayah sumber daya Ucapan di portal Azure. Jika Anda ingin melakukan panggilan REST ke model garis besar yang telah disebarkan, lihat dokumentasi REST API. Jika Anda ingin menggunakan WebSocket, unduh SDK Ucapan.

Apakah saya selalu perlu membangun model ucapan kustom?

Tidak. Jika aplikasi Anda menggunakan bahasa komputer generik, sehari-hari, Anda tidak perlu menyesuaikan model. Jika aplikasi Anda digunakan di lingkungan di mana ada sedikit atau tidak ada kebisingan latar belakang, Anda tidak perlu menyesuaikan model.

Anda dapat menyebarkan model garis besar dan disesuaikan di portal lalu menjalankan tes akurasi terhadapnya. Anda dapat menggunakan fitur ini untuk mengukur akurasi model dasar versus model kustom.

Bagaimana cara mengetahui kapan pemrosesan himpunan data atau model saya selesai?

Saat ini, satu-satunya cara untuk mengetahuinya adalah melihat status model atau himpunan data dalam tabel. Ketika pemrosesan selesai, status Berhasil.

Dapatkah saya membuat lebih dari satu model?

Tidak ada batasan jumlah model yang dapat Anda miliki dalam koleksi Anda.

Aku menyadari bahwa aku membuat kesalahan. Bagaimana cara membatalkan impor data atau pembuatan model yang sedang berlangsung?

Saat ini, Anda tidak dapat memutar kembali proses adaptasi akustik atau bahasa. Anda dapat menghapus data dan model yang diimpor saat berada dalam status terminal.

Saya mendapatkan beberapa hasil untuk setiap frasa dengan format output mendetail. Mana yang harus saya gunakan?

Selalu ambil hasil pertama, meskipun hasil lain ("N-Best") mungkin memiliki nilai kepercayaan diri yang lebih tinggi. Layanan Ucapan menganggap hasil pertama adalah yang terbaik. Hasilnya juga bisa berupa string kosong jika tidak ada ucapan yang dikenali.

Hasil lainnya kemungkinan lebih buruk dan mungkin tidak memiliki kapitalisasi dan tanda baca penuh yang diterapkan. Hasil ini sangat berguna dalam skenario khusus seperti memberi pengguna opsi untuk memilih koreksi dari daftar atau menangani perintah yang salah dikenali.

Mengapa ada beberapa model dasar?

Anda dapat memilih lebih dari satu model dasar dalam layanan Ucapan. Setiap nama model berisi tanggal ketika ditambahkan. Ketika Anda mulai melatih model kustom, gunakan model terbaru untuk mendapatkan akurasi terbaik. Model dasar yang lama masih tersedia untuk beberapa waktu setelah model baru tersedia. Anda dapat terus menggunakan model yang bekerja dengan Anda hingga dihentikan (lihat Model dan siklus hidup titik akhir). Kami tetap menyarankan agar Anda beralih ke model dasar terbaru untuk akurasi yang lebih baik.

Bisakah saya memperbarui model yang ada (penumpukan model)?

Anda tidak dapat memperbarui model yang sudah ada. Sebagai solusinya, gabungkan himpunan data lama dengan himpunan data baru dan adaptasi ulang.

Himpunan data lama dan himpunan data baru harus digabungkan dalam satu file .zip (untuk data akustik) atau dalam file .txt (untuk data bahasa). Ketika adaptasi selesai dilakukan, sebarkan ulang model terbaru untuk mendapatkan titik akhir baru.

Saat versi baru dari model dasar tersedia, apakah penyebaran saya diperbarui secara otomatis?

Penyebaran tidak diperbarui secara otomatis.

Jika Anda menyesuaikan dan menyebarkan model, penyebaran yang ada tetap apa adanya. Anda dapat menonaktifkan model yang disebarkan, mengadaptasinya kembali menggunakan versi model dasar yang lebih baru, dan menyebarkannya kembali untuk akurasi yang lebih baik.

Model dasar dan model kustom dihentikan setelah beberapa waktu (lihat Model dan siklus hidup titik akhir).

Dapatkah saya mengunduh model saya dan menjalankannya secara lokal?

Anda dapat menjalankan model kustom secara lokal dalam kontainer Docker.

Dapatkah saya menyalin atau memindahkan himpunan data, model, dan penyebaran saya ke wilayah atau langganan lain?

Anda dapat menggunakan Models_Copy REST API untuk menyalin model kustom ke wilayah atau langganan lain. Himpunan data dan penyebaran tidak dapat disalin. Anda dapat mengimpor himpunan data kembali di langganan lain dan membuat titik akhir di sana menggunakan salinan model.

Apakah permintaan saya dicatat?

Secara default, permintaan tidak dicatat (baik audio maupun transkripsi). Jika perlu, Anda dapat memilih opsi Catatn konten dari titik akhir ini saat Anda membuat titik akhir kustom. Anda juga dapat mengaktifkan pengelogan audio SDK Ucapan berdasarkan permintaan, tanpa membuat titik akhir kustom. Dalam kedua kasus, hasil audio dan pengenalan permintaan akan disimpan dalam penyimpanan yang aman. Langganan yang menggunakan penyimpanan milik Microsoft tersedia selama 30 hari.

Anda dapat mengekspor file yang dicatat di halaman penyebaran di Speech Studio jika Anda menggunakan titik akhir kustom dengan Konten log dari titik akhir ini diaktifkan. Jika pencatatan audio diaktifkan melalui SDK, hubungi API untuk mengakses file. Anda juga dapat menggunakan API untuk menghapus log kapan saja.

Apakah permintaan saya dibatasi?

Untuk informasi selengkapnya, lihat Kuota dan batasan layanan Ucapan.

Bagaimana cara mengisi daya untuk audio saluran ganda?

Jika Anda mengirimkan setiap saluran secara terpisah dalam file mereka sendiri, Anda akan dikenakan biaya untuk durasi audio setiap file. Jika Anda mengirimkan satu file dengan saluran yang di-multipleks bersama-sama, Anda akan dikenakan biaya selama satu file. Untuk informasi selengkapnya tentang harga, lihat halaman harga layanan Azure AI.

Penting

Jika Anda memiliki masalah privasi lebih lanjut yang mencegah Anda menggunakan layanan ucapan kustom, hubungi salah satu saluran dukungan.

Meningkatkan konkurensi

Untuk informasi selengkapnya, lihat Kuota dan batasan layanan Ucapan.

Mengimpor data

Berapa batas ukuran himpunan data, dan mengapa itu batasnya?

Batas ini disebabkan oleh pembatasan ukuran file untuk pengunggahan HTTP. Untuk batas aktual, lihat Kuota dan batasan layanan Ucapan. Anda dapat membagi data Anda menjadi beberapa himpunan data dan memilih semuanya untuk melatih model.

Dapatkah saya men-zip (mengompres) file teks saya agar saya dapat mengunggah file teks yang lebih besar?

Tidak. Saat ini, hanya file teks yang tidak dikompresi yang diperbolehkan.

Laporan data mengatakan ada ucapan yang gagal. Apa masalahnya?

Kegagalan dalam mengunggah 100 persen ucapan dalam file bukanlah masalah. Jika sebagian besar ucapan dalam himpunan data akustik atau bahasa (misalnya, lebih dari 95 persen) berhasil diimpor, himpunan data dapat digunakan. Namun, kami tetap menyarankan Anda untuk mencoba memahami alasan ucapan gagal dan memperbaiki masalahnya. Sebagian besar masalah umum, seperti kesalahan format, mudah diperbaiki.

Membuat model akustik

Berapa banyak data akustik yang saya butuhkan?

Sebaiknya mulai dengan data akustik antara 30 menit hingga 1 jam.

Data apa yang harus saya kumpulkan?

Kumpulkan data yang sedekat mungkin dengan skenario aplikasi dan gunakan kasus. Pengumpulan data harus sesuai dengan aplikasi target dan pengguna dalam hal perangkat atau beberapa perangkat, lingkungan, dan jenis pembicara. Secara umum, Anda harus mengumpulkan data dari berbagai pembicara seluas mungkin.

Bagaimana cara mengumpulkan data akustik?

Anda dapat membuat aplikasi pengumpulan data mandiri atau menggunakan perangkat lunak perekaman audio off-the-shelf. Anda juga dapat membuat versi aplikasi yang mencatat data audio lalu menggunakan data.

Apakah saya perlu menuliskan data adaptasi sendiri?

Ya. Anda dapat mentranskripsikannya sendiri atau menggunakan layanan transkripsi profesional. Beberapa pengguna lebih suka menggunakan transcriber profesional, dan yang lain menggunakan crowdsourcing atau transkripsi data mereka sendiri.

Berapa lama waktu yang diperlukan untuk melatih model kustom dengan data audio?

Melatih model dengan data audio bisa menjadi proses yang panjang. Tergantung pada jumlah data, perlu beberapa hari untuk membuat model kustom. Jika tidak dapat diselesaikan dalam waktu satu minggu, layanan mungkin membatalkan operasi pelatihan dan melaporkan model sebagai gagal.

Secara umum, layanan Ucapan memproses sekitar 10 jam data audio per hari di wilayah dengan perangkat keras khusus. Layanan Ucapan hanya dapat memproses sekitar 1 jam data audio per hari di wilayah lain. Pelatihan dengan teks saja lebih cepat dan biasanya selesai dalam hitungan menit.

Gunakan salah satu wilayah tempat perangkat keras khusus tersedia untuk pelatihan. Layanan Ucapan menggunakan audio hingga 20 jam untuk pelatihan di wilayah ini. Di wilayah lain, layanan Ucapan menggunakan hingga 8 jam.

Pengujian akurasi

Berapakah tingkat kesalahan kata (WER) dan bagaimana perhitungannya?

WER adalah metrik evaluasi untuk pengenalan suara. WER dihitung sebagai jumlah total kesalahan (penyisipan, penghapusan, dan substitusi), dibagi dengan jumlah total kata dalam transkripsi referensi. Untuk informasi selengkapnya, lihat Menguji model secara kuantitatif.

Bagaimana cara menentukan apakah hasil tes akurasi itu bagus?

Hasilnya menunjukkan perbandingan antara model dasar dan model yang Anda sesuaikan. Agar kustomisasi berguna, Anda harus bertujuan untuk mengalahkan model dasar.

Bagaimana cara menentukan WER dari model dasar agar saya dapat mengetahui apakah ada peningkatan?

Hasil tes offline menunjukkan akurasi dasar dari model kustom dan peningkatan atas garis besar.

Membuat model bahasa

Berapa banyak data teks yang perlu saya unggah?

Itu tergantung pada seberapa berbeda kosakata dan frasa yang digunakan dalam aplikasi Anda dari model bahasa awal. Untuk semua kata baru, ini bermanfaat untuk memberikan contoh sebanyak mungkin tentang penggunaan kata-kata tersebut. Frasa umum yang digunakan dalam aplikasi Anda, termasuk frasa dalam data bahasa, juga berguna karena memberi tahu sistem untuk juga mendengarkan istilah-istilah ini. Umumnya, Anda harus memiliki setidaknya 100, dan biasanya beberapa ratus atau lebih ujaran dalam kumpulan data bahasa. Selain itu, jika beberapa jenis kueri diharapkan lebih umum daripada yang lain, Anda dapat menyisipkan beberapa salinan kueri umum dalam kumpulan data.

Bisakah saya hanya mengunggah daftar kata-kata?

Mengunggah daftar kata-kata akan menambahkannya ke kosakata, tetapi tidak akan mengajarkan sistem bagaimana kata-kata tersebut biasa digunakan. Dengan memberikan ujaran penuh atau parsial (kalimat atau frasa hal-hal yang cenderung dikatakan pengguna), model bahasa dapat mempelajari kata-kata baru dan cara penggunaannya. Model bahasa kustom merupakan hal yang baik tidak hanya untuk menambahkan kata-kata baru ke sistem, tetapi juga untuk menyesuaikan kemungkinan kata-kata yang diketahui untuk aplikasi Anda. Memberikan ujaran penuh membantu sistem belajar lebih baik.