Q: Saat versi baru dari model dasar tersedia, apakah penyebaran saya diperbarui secara otomatis?

Penyebaran tidak diperbarui secara otomatis. Jika Anda menyesuaikan dan menyebarkan model, penyebaran yang ada tetap apa adanya. Anda dapat menonaktifkan model yang disebarkan, mengadaptasinya kembali menggunakan versi model dasar yang lebih baru, dan menyebarkannya kembali untuk akurasi yang lebih baik. Model dasar dan model kustom dihentikan setelah beberapa waktu (lihat Model dan siklus hidup titik akhir).

Question 1

Apa perbedaan antara model dasar dan model ucapan ke teks kustom?

Accepted Answer

Model ucapan ke teks garis besar dilatih dengan data milik Microsoft dan sudah disebarkan di cloud. Anda dapat membuat dan menggunakan model kustom untuk mengadaptasi model agar lebih sesuai dengan lingkungan yang memiliki kebisingan atau bahasa sekitar tertentu. Lantai pabrik, mobil, atau jalanan yang bising akan membutuhkan model akustik yang disesuaikan. Topik seperti biologi, fisika, radiologi, nama produk, dan akronim kustom akan memerlukan model bahasa yang diadaptasi. Jika Anda ingin melatih model kustom, Anda harus memulai dengan teks terkait untuk meningkatkan pengenalan istilah dan frasa khusus.

Question 2

Di mana saya mulai jika saya ingin menggunakan model dasar?

Accepted Answer

Pertama, dapatkan kunci dan wilayah sumber daya Ucapan di portal Azure. Jika Anda ingin melakukan panggilan REST ke model garis besar yang telah disebarkan, lihat dokumentasi REST API. Jika Anda ingin menggunakan WebSocket, unduh SDK Ucapan.

Question 3

Apakah saya selalu perlu membangun model ucapan kustom?

Accepted Answer

Tidak. Jika aplikasi Anda menggunakan bahasa komputer generik, sehari-hari, Anda tidak perlu menyesuaikan model. Jika aplikasi Anda digunakan di lingkungan di mana ada sedikit atau tidak ada kebisingan latar belakang, Anda tidak perlu menyesuaikan model.

Anda dapat menyebarkan model garis besar dan disesuaikan di portal lalu menjalankan tes akurasi terhadapnya. Anda dapat menggunakan fitur ini untuk mengukur akurasi model dasar versus model kustom.

Question 4

Bagaimana cara mengetahui kapan pemrosesan himpunan data atau model saya selesai?

Accepted Answer

Saat ini, satu-satunya cara untuk mengetahuinya adalah melihat status model atau himpunan data dalam tabel. Ketika pemrosesan selesai, status Berhasil.

Question 5

Dapatkah saya membuat lebih dari satu model?

Accepted Answer

Tidak ada batasan jumlah model yang dapat Anda miliki dalam koleksi Anda.

Question 6

Aku menyadari bahwa aku membuat kesalahan. Bagaimana cara membatalkan impor data atau pembuatan model yang sedang berlangsung?

Accepted Answer

Saat ini, Anda tidak dapat memutar kembali proses adaptasi akustik atau bahasa. Anda dapat menghapus data dan model yang diimpor saat berada dalam status terminal.

Question 7

Saya mendapatkan beberapa hasil untuk setiap frasa dengan format output mendetail. Mana yang harus saya gunakan?

Accepted Answer

Selalu ambil hasil pertama, meskipun hasil lain ("N-Best") mungkin memiliki nilai kepercayaan diri yang lebih tinggi. Layanan Ucapan menganggap hasil pertama adalah yang terbaik. Hasilnya juga bisa berupa string kosong jika tidak ada ucapan yang dikenali.

Hasil lainnya kemungkinan lebih buruk dan mungkin tidak memiliki kapitalisasi dan tanda baca penuh yang diterapkan. Hasil ini sangat berguna dalam skenario khusus seperti memberi pengguna opsi untuk memilih koreksi dari daftar atau menangani perintah yang salah dikenali.

Question 8

Mengapa ada beberapa model dasar?

Accepted Answer

Anda dapat memilih lebih dari satu model dasar dalam layanan Ucapan. Setiap nama model berisi tanggal ketika ditambahkan. Ketika Anda mulai melatih model kustom, gunakan model terbaru untuk mendapatkan akurasi terbaik. Model dasar yang lama masih tersedia untuk beberapa waktu setelah model baru tersedia. Anda dapat terus menggunakan model yang bekerja dengan Anda hingga dihentikan (lihat Model dan siklus hidup titik akhir). Kami tetap menyarankan agar Anda beralih ke model dasar terbaru untuk akurasi yang lebih baik.

Question 9

Bisakah saya memperbarui model yang ada (penumpukan model)?

Accepted Answer

Anda tidak dapat memperbarui model yang sudah ada. Sebagai solusinya, gabungkan himpunan data lama dengan himpunan data baru dan adaptasi ulang.

Himpunan data lama dan himpunan data baru harus digabungkan dalam satu file .zip (untuk data akustik) atau dalam file .txt (untuk data bahasa). Ketika adaptasi selesai dilakukan, sebarkan ulang model terbaru untuk mendapatkan titik akhir baru.

Question 10

Saat versi baru dari model dasar tersedia, apakah penyebaran saya diperbarui secara otomatis?

Accepted Answer

Penyebaran tidak diperbarui secara otomatis.

Jika Anda menyesuaikan dan menyebarkan model, penyebaran yang ada tetap apa adanya. Anda dapat menonaktifkan model yang disebarkan, mengadaptasinya kembali menggunakan versi model dasar yang lebih baru, dan menyebarkannya kembali untuk akurasi yang lebih baik.

Model dasar dan model kustom dihentikan setelah beberapa waktu (lihat Model dan siklus hidup titik akhir).

Question 11

Dapatkah saya mengunduh model saya dan menjalankannya secara lokal?

Accepted Answer

Anda dapat menjalankan model kustom secara lokal dalam kontainer Docker.

Question 12

Dapatkah saya menyalin atau memindahkan himpunan data, model, dan penyebaran saya ke wilayah atau langganan lain?

Accepted Answer

Anda dapat menggunakan Models_Copy REST API untuk menyalin model kustom ke wilayah atau langganan lain. Himpunan data dan penyebaran tidak dapat disalin. Anda dapat mengimpor himpunan data kembali di langganan lain dan membuat titik akhir di sana menggunakan salinan model.

Question 13

Apakah permintaan saya dicatat?

Accepted Answer

Secara default, permintaan tidak dicatat (baik audio maupun transkripsi). Jika perlu, Anda dapat memilih opsi Catatn konten dari titik akhir ini saat Anda membuat titik akhir kustom. Anda juga dapat mengaktifkan pengelogan audio SDK Ucapan berdasarkan permintaan, tanpa membuat titik akhir kustom. Dalam kedua kasus, hasil audio dan pengenalan permintaan akan disimpan dalam penyimpanan yang aman. Langganan yang menggunakan penyimpanan milik Microsoft tersedia selama 30 hari.

Anda dapat mengekspor file yang dicatat di halaman penyebaran di Speech Studio jika Anda menggunakan titik akhir kustom dengan Konten log dari titik akhir ini diaktifkan. Jika pencatatan audio diaktifkan melalui SDK, hubungi API untuk mengakses file. Anda juga dapat menggunakan API untuk menghapus log kapan saja.

Question 14

Apakah permintaan saya dibatasi?

Accepted Answer

Untuk informasi selengkapnya, lihat Kuota dan batasan layanan Ucapan.

Question 15

Bagaimana cara mengisi daya untuk audio saluran ganda?

Accepted Answer

Jika Anda mengirimkan setiap saluran secara terpisah dalam file mereka sendiri, Anda akan dikenakan biaya untuk durasi audio setiap file. Jika Anda mengirimkan satu file dengan saluran yang di-multipleks bersama-sama, Anda akan dikenakan biaya selama satu file. Untuk informasi selengkapnya tentang harga, lihat halaman harga layanan Azure AI.

Penting

Jika Anda memiliki masalah privasi lebih lanjut yang mencegah Anda menggunakan layanan ucapan kustom, hubungi salah satu saluran dukungan.

Meningkatkan konkurensi

Untuk informasi selengkapnya, lihat Kuota dan batasan layanan Ucapan.

Question 16

Berapa batas ukuran himpunan data, dan mengapa itu batasnya?

Accepted Answer

Batas ini disebabkan oleh pembatasan ukuran file untuk pengunggahan HTTP. Untuk batas aktual, lihat Kuota dan batasan layanan Ucapan. Anda dapat membagi data Anda menjadi beberapa himpunan data dan memilih semuanya untuk melatih model.

Question 17

Dapatkah saya men-zip (mengompres) file teks saya agar saya dapat mengunggah file teks yang lebih besar?

Accepted Answer

Tidak. Saat ini, hanya file teks yang tidak dikompresi yang diperbolehkan.

Question 18

Laporan data mengatakan ada ucapan yang gagal. Apa masalahnya?

Accepted Answer

Kegagalan dalam mengunggah 100 persen ucapan dalam file bukanlah masalah. Jika sebagian besar ucapan dalam himpunan data akustik atau bahasa (misalnya, lebih dari 95 persen) berhasil diimpor, himpunan data dapat digunakan. Namun, kami tetap menyarankan Anda untuk mencoba memahami alasan ucapan gagal dan memperbaiki masalahnya. Sebagian besar masalah umum, seperti kesalahan format, mudah diperbaiki.

Question 19

Berapa banyak data akustik yang saya butuhkan?

Accepted Answer

Sebaiknya mulai dengan data akustik antara 30 menit hingga 1 jam.

Question 20

Data apa yang harus saya kumpulkan?

Accepted Answer

Kumpulkan data yang sedekat mungkin dengan skenario aplikasi dan gunakan kasus. Pengumpulan data harus sesuai dengan aplikasi target dan pengguna dalam hal perangkat atau beberapa perangkat, lingkungan, dan jenis pembicara. Secara umum, Anda harus mengumpulkan data dari berbagai pembicara seluas mungkin.

Question 21

Bagaimana cara mengumpulkan data akustik?

Accepted Answer

Anda dapat membuat aplikasi pengumpulan data mandiri atau menggunakan perangkat lunak perekaman audio off-the-shelf. Anda juga dapat membuat versi aplikasi yang mencatat data audio lalu menggunakan data.

Question 22

Apakah saya perlu menuliskan data adaptasi sendiri?

Accepted Answer

Ya. Anda dapat mentranskripsikannya sendiri atau menggunakan layanan transkripsi profesional. Beberapa pengguna lebih suka menggunakan transcriber profesional, dan yang lain menggunakan crowdsourcing atau transkripsi data mereka sendiri.

Question 23

Berapa lama waktu yang diperlukan untuk melatih model kustom dengan data audio?

Accepted Answer

Melatih model dengan data audio bisa menjadi proses yang panjang. Tergantung pada jumlah data, perlu beberapa hari untuk membuat model kustom. Jika tidak dapat diselesaikan dalam waktu satu minggu, layanan mungkin membatalkan operasi pelatihan dan melaporkan model sebagai gagal.

Secara umum, layanan Ucapan memproses sekitar 10 jam data audio per hari di wilayah dengan perangkat keras khusus. Layanan Ucapan hanya dapat memproses sekitar 1 jam data audio per hari di wilayah lain. Pelatihan dengan teks saja lebih cepat dan biasanya selesai dalam hitungan menit.

Gunakan salah satu wilayah tempat perangkat keras khusus tersedia untuk pelatihan. Layanan Ucapan menggunakan audio hingga 20 jam untuk pelatihan di wilayah ini. Di wilayah lain, layanan Ucapan menggunakan hingga 8 jam.

Question 24

Berapakah tingkat kesalahan kata (WER) dan bagaimana perhitungannya?

Accepted Answer

WER adalah metrik evaluasi untuk pengenalan suara. WER dihitung sebagai jumlah total kesalahan (penyisipan, penghapusan, dan substitusi), dibagi dengan jumlah total kata dalam transkripsi referensi. Untuk informasi selengkapnya, lihat Menguji model secara kuantitatif.

Question 25

Bagaimana cara menentukan apakah hasil tes akurasi itu bagus?

Accepted Answer

Hasilnya menunjukkan perbandingan antara model dasar dan model yang Anda sesuaikan. Agar kustomisasi berguna, Anda harus bertujuan untuk mengalahkan model dasar.

Question 26

Bagaimana cara menentukan WER dari model dasar agar saya dapat mengetahui apakah ada peningkatan?

Accepted Answer

Hasil tes offline menunjukkan akurasi dasar dari model kustom dan peningkatan atas garis besar.

Question 27

Berapa banyak data teks yang perlu saya unggah?

Accepted Answer

Itu tergantung pada seberapa berbeda kosakata dan frasa yang digunakan dalam aplikasi Anda dari model bahasa awal. Untuk semua kata baru, ini bermanfaat untuk memberikan contoh sebanyak mungkin tentang penggunaan kata-kata tersebut. Frasa umum yang digunakan dalam aplikasi Anda, termasuk frasa dalam data bahasa, juga berguna karena memberi tahu sistem untuk juga mendengarkan istilah-istilah ini. Umumnya, Anda harus memiliki setidaknya 100, dan biasanya beberapa ratus atau lebih ujaran dalam kumpulan data bahasa. Selain itu, jika beberapa jenis kueri diharapkan lebih umum daripada yang lain, Anda dapat menyisipkan beberapa salinan kueri umum dalam kumpulan data.

Question 28

Bisakah saya hanya mengunggah daftar kata-kata?

Accepted Answer

Mengunggah daftar kata-kata akan menambahkannya ke kosakata, tetapi tidak akan mengajarkan sistem bagaimana kata-kata tersebut biasa digunakan. Dengan memberikan ujaran penuh atau parsial (kalimat atau frasa hal-hal yang cenderung dikatakan pengguna), model bahasa dapat mempelajari kata-kata baru dan cara penggunaannya. Model bahasa kustom merupakan hal yang baik tidak hanya untuk menambahkan kata-kata baru ke sistem, tetapi juga untuk menyesuaikan kemungkinan kata-kata yang diketahui untuk aplikasi Anda. Memberikan ujaran penuh membantu sistem belajar lebih baik.

Tanya Jawab Umum ucapan ke teks

Umum