Memberi label ucapan Anda di Language Studio

Setelah membangun skema untuk proyek, Anda harus menambahkan ucapan pelatihan ke proyek. Ucapan harus serupa dengan apa yang akan digunakan pengguna Anda saat berinteraksi dengan proyek. Saat menambahkan ucapan, Anda harus menetapkan niat dari ucapan itu. Setelah ucapan ditambahkan, beri label kata-kata dalam ucapan Anda yang ingin Anda ekstrak sebagai entitas.

Pelabelan data adalah langkah penting dalam siklus hidup pengembangan; data ini akan digunakan pada langkah berikutnya saat melatih model Anda sehingga model Anda dapat belajar dari data berlabel. Jika Anda sudah memiliki data berlabel, Anda dapat langsung mengimpornya ke proyek Anda, tetapi Anda perlu memastikan bahwa data Anda mengikuti format data yang diterima. Lihat membuat proyek untuk mempelajari selengkapnya tentang mengimpor data berlabel ke dalam proyek Anda. Data berlabel menginformasikan model bagaimana menafsirkan teks, dan digunakan untuk pelatihan dan evaluasi.

Prasyarat

Sebelum Anda dapat memberi label pada data Anda, Anda perlu:

  • Proyek yang berhasil dibuat.

Lihat siklus hidup pengembangan proyek untuk informasi selengkapnya.

Panduan pelabelan data

Setelah membangun skema Anda dan membuat proyek, Anda harus melabeli data Anda. Pelabelan data Anda penting sehingga model Anda mengetahui kata dan kalimat mana yang akan dikaitkan dengan niat dan entitas dalam proyek Anda. Anda akan ingin menghabiskan waktu untuk melabeli ucapan Anda - memperkenalkan dan menyempurnakan data yang akan digunakan untuk melatih model Anda.

Saat Anda menambahkan ucapan dan melabelinya, perlu diingat:

  • Model pembelajaran mesin menggeneralisasi berdasarkan contoh berlabel yang Anda berikan; semakin banyak contoh yang Anda berikan, semakin banyak poin data yang dimiliki model untuk membuat generalisasi yang lebih baik.

  • Ketepatan, konsistensi, dan kelengkapan data berlabel Anda adalah faktor kunci untuk menentukan performa model.

    • Label dengan tepat: Beri label setiap niat dan entitas ke jenis yang tepat selalu. Hanya sertakan apa yang Anda inginkan untuk diklasifikasikan dan diekstraksi, hindari data yang tidak perlu dalam label Anda.
    • Beri label secara konsisten: Entitas yang sama harus memiliki label yang sama di semua ucapan.
    • Label sepenuhnya: Berikan ucapan yang bervariasi untuk setiap niat. Beri label semua instans entitas dalam semua ucapan Anda.

Beri label ucapan dengan jelas

  • Pastikan bahwa konsep yang dirujuk entitas Anda didefinisikan dengan baik dan dapat dipisahkan. Periksa apakah Anda dapat dengan mudah menentukan perbedaannya dengan andal. Jika tidak bisa, ini mungkin merupakan indikasi bahwa komponen yang dipelajari juga akan mengalami kesulitan.

  • Jika ada kesamaan antara entitas, pastikan ada beberapa aspek data Anda yang menyediakan sinyal untuk perbedaan di antara entitas tersebut.

    Misalnya, jika Anda membuat model untuk memesan penerbangan, pengguna mungkin menggunakan ucapan seperti "Saya ingin penerbangan dari Boston ke Seattle." Kota asal dan kota tujuan untuk ucapan tersebut akan diharapkan serupa. Sinyal untuk membedakan "Kota asal" mungkin bahwa itu sering didahului oleh kata "from."

  • Pastikan Anda memberi label semua instans setiap entitas dalam data pelatihan dan pengujian Anda. Salah satu pendekatannya adalah menggunakan fungsi pencarian untuk menemukan semua contoh kata atau frasa dalam data Anda untuk memeriksa apakah mereka diberi label dengan benar.

  • Beri label data pengujian untuk entitas yang tidak memiliki komponen yang dipelajari dan juga untuk mereka yang melakukannya. Ini akan membantu memastikan bahwa metrik evaluasi Anda akurat.

  • Untuk Proyek multibahasa, menambahkan ucapan ke bahasa lain akan meningkatkan performa model dalam bahasa ini jika Anda menganggapnya tidak berjalan dengan baik, tetapi hindari duplikasi data di semua bahasa yang ingin Anda dukung. Misalnya, untuk meningkatkan performa bot kalender dengan pengguna, pengembang mungkin menambahkan contoh sebagian besar dalam bahasa Inggris, dan beberapa dalam bahasa Spanyol atau Prancis juga. Pengembang mungkin menambahkan ucapan-ucapan seperti:

    • "Atur pertemuan dengan Matt dan Kevinbesok pukul 12 siang." (Bahasa Inggris)
    • "Balas sebagai sementara ke pertemuan pembaruan mingguan." (Bahasa Inggris)
    • "Cancelar mi próxima reunión." (Bahasa Spanyol)

Cara memberi label ujaran Anda

Gunakan langkah-langkah berikut untuk memberi label pada ucapan Anda:

  1. Buka halaman proyek Anda di Language Studio.

  2. Dari menu samping, pilih Beri tag pada data. Di halaman ini, Anda dapat mulai menambahkan ucapan Anda dan melabelinya. Anda juga dapat mengunggah ucapan Anda secara langsung dengan mengklik file ucapan Unggah dari menu atas, pastikan ucapan tersebut mengikuti format yang diterima.

  3. Dari pivot teratas, Anda dapat mengubah tampilan menjadi set pelatihan atau set pengujian. Pelajari selengkapnya tentang set pelatihan dan pengujian dan bagaimana mereka digunakan untuk pelatihan dan evaluasi model.

    Cuplikan layar halaman pemberian tag ucapan di Language Studio.

    Tip

    Jika Anda berencana menggunakan Pemisahan set pengujian secara otomatis dari pemisahan data pelatihan, tambahkan semua ucapan Anda ke set pelatihan.

  4. Dari menu dropdown Pilih niat, pilih salah satu niat, bahasa ucapan (untuk proyek multibahasa), dan ucapan itu sendiri. Tekan tombol enter di kotak teks ucapan untuk menambahkan ucapan.

  5. Anda memiliki dua opsi untuk memberi label entitas dalam ucapan:

    Opsi Deskripsi
    Label menggunakan kuas Pilih ikon kuas di samping entitas di panel kanan, lalu sorot teks dalam ucapan yang ingin Anda beri label.
    Beri label menggunakan menu sebaris Sorot kata yang ingin Anda beri label sebagai entitas, dan sebuah menu akan muncul. Pilih entitas yang ingin Anda beri label kata-kata ini.
  6. Di panel sisi kanan, di bawah pivot Label, Anda dapat menemukan semua jenis entitas dalam proyek Anda dan jumlah instans berlabel per masing-masing.

  7. Di bawah pivot Distribusi, Anda dapat melihat distribusi di seluruh set pelatihan dan pengujian. Anda memiliki dua opsi untuk melihat:

    • Total instans per entitas label tempat Anda dapat menampilkan jumlah semua instans berlabel dari jenis entitas tertentu.
    • Ucapan unik per entitas berlabel di mana setiap ucapan dihitung jika berisi setidaknya satu instans berlabel entitas ini.
    • Ucapan per niat di mana Anda dapat melihat jumlah ucapan per niat.

Cuplikan layar memperlihatkan distribusi entitas di Language Studio.

Catatan

Komponen daftar dan bawaan tidak ditampilkan di halaman pelabelan data, dan semua label di sini hanya berlaku untuk komponen yang dipelajari.

Untuk menghapus label:

  1. Dari dalam ucapan Anda, pilih entitas yang ingin Anda hapus labelnya.
  2. Gulir menu yang muncul, dan pilih Hapus label.

Untuk menghapus entitas:

  1. Pilih entitas yang ingin Anda edit di panel sisi kanan.
  2. Pilih tiga titik di samping entitas, dan pilih opsi yang Anda inginkan dari menu drop-down.

Sarankan ucapan dengan Azure OpenAI

Di CLU, gunakan Azure OpenAI untuk menyarankan ucapan untuk ditambahkan ke proyek Anda menggunakan model GPT. Anda harus terlebih dahulu mendapatkan akses dan membuat sumber daya di Azure OpenAI. Anda kemudian perlu membuat penyebaran untuk model GPT. Ikuti langkah-langkah prasyarat di sini.

Sebelum Memulai, fitur saran ucapan hanya tersedia jika sumber daya Bahasa Anda berada di wilayah berikut:

  • AS Timur
  • AS Tengah Bagian Selatan
  • Eropa Barat

Di halaman Pelabelan Data:

  1. Pilih tombol Sarankan ucapan . Panel akan terbuka di sisi kanan yang meminta Anda untuk memilih sumber daya dan penyebaran Azure OpenAI Anda.
  2. Pada pemilihan sumber daya Azure OpenAI, pilih Sambungkan, yang memungkinkan sumber daya Bahasa Anda memiliki akses langsung ke sumber daya Azure OpenAI Anda. Ini menetapkan sumber daya Bahasa Anda peran Cognitive Services User ke sumber daya Azure OpenAI Anda, yang memungkinkan sumber daya Bahasa Anda saat ini memiliki akses ke layanan Azure OpenAI. Jika koneksi gagal, ikuti langkah-langkah di bawah ini untuk menambahkan peran yang tepat ke sumber daya Azure OpenAI Anda secara manual.
  3. Setelah sumber daya tersambung, pilih penyebaran. Model yang direkomendasikan untuk penyebaran Azure OpenAI adalah text-davinci-002.
  4. Pilih niat yang ingin Anda dapatkan sarannya. Pastikan niat yang Anda pilih memiliki setidaknya 5 ucapan yang disimpan untuk diaktifkan untuk saran ucapan. Saran yang diberikan oleh Azure OpenAI didasarkan pada ucapan terbaru yang telah Anda tambahkan untuk niat tersebut.
  5. Pilih Hasilkan ucapan. Setelah selesai, ucapan yang disarankan akan muncul dengan garis putus-putus di sekitarnya, dengan catatan Dihasilkan oleh AI. Saran tersebut perlu diterima atau ditolak. Menerima saran hanya menambahkannya ke proyek Anda, seolah-olah Anda telah menambahkannya sendiri. Menolaknya akan menghapus saran sepenuhnya. Hanya ucapan yang diterima yang akan menjadi bagian dari proyek Anda dan digunakan untuk pelatihan atau pengujian. Anda dapat menerima atau menolak dengan mengklik tombol centang hijau atau batalkan merah di samping setiap ucapan. Anda juga dapat menggunakan tombol Accept all dan Reject all di toolbar.

Cuplikan layar memperlihatkan saran ucapan di Language Studio.

Menggunakan fitur ini memerlukan biaya ke sumber daya Azure OpenAI Anda untuk jumlah token serupa dengan ucapan yang disarankan yang dihasilkan. Detail untuk harga Azure OpenAI dapat ditemukan di sini.

Menambahkan konfigurasi yang diperlukan ke sumber daya Azure OpenAI

Jika menyambungkan sumber daya Bahasa Anda ke sumber daya Azure OpenAI gagal, ikuti langkah-langkah berikut:

Aktifkan manajemen identitas untuk sumber daya Bahasa Anda menggunakan opsi berikut:

Sumber daya Bahasa Anda harus memiliki manajemen identitas, untuk mengaktifkannya menggunakan portal Azure:

  1. Buka sumber daya Bahasa
  2. Dari menu sebelah kiri, di bawah bagian Manajemen Sumber Daya, pilih Identitas
  3. Dari tab Sistem yang ditetapkan, pastikan untuk mengatur Status ke Aktif

Setelah mengaktifkan identitas terkelola, tetapkan peran Cognitive Services User ke sumber daya Azure OpenAI Anda menggunakan identitas terkelola sumber daya Bahasa Anda.

  1. Masuk ke portal Azure dan navigasi ke sumber daya Azure OpenAI Anda.
  2. Pilih tab Access Control (IAM) di sebelah kiri.
  3. Pilih Tambahkan > penetapan peran.
  4. Pilih "Peran fungsi pekerjaan" dan klik Berikutnya.
  5. Pilih Cognitive Services User dari daftar peran dan klik Berikutnya.
  6. Pilih Tetapkan akses ke "Identitas terkelola" dan pilih "Pilih anggota".
  7. Di bagian "Identitas terkelola" pilih "Bahasa".
  8. Cari sumber daya Anda dan pilih sumber daya tersebut. Kemudian pilih tombol Pilih di bawah ini dan di samping untuk menyelesaikan proses.
  9. Tinjau detailnya dan pilih Tinjau + Tetapkan.

Beberapa cuplikan layar memperlihatkan langkah-langkah untuk menambahkan peran yang diperlukan ke sumber daya Azure OpenAI Anda.

Setelah beberapa menit, refresh Language Studio dan Anda akan berhasil tersambung ke Azure OpenAI.

Langkah berikutnya