Cara membuat proyek klasifikasi teks kustom

Gunakan artikel ini untuk mempelajari cara menyiapkan persyaratan untuk mulai menggunakan klasifikasi teks kustom dan membuat proyek.

Prasyarat

Sebelum mulai menggunakan klasifikasi teks kustom, Anda akan memerlukan:

Membuat sumber daya Bahasa

Sebelum mulai menggunakan klasifikasi teks kustom, Anda memerlukan sumber daya Bahasa Azure AI. Disarankan untuk membuat sumber daya Bahasa dan menyambungkan akun penyimpanan ke dalamnya di portal Azure. Membuat sumber daya di portal Microsoft Azure memungkinkan Anda membuat akun penyimpanan Azure pada saat yang sama, dengan semua izin yang diperlukan telah dikonfigurasi sebelumnya. Anda juga dapat membaca lebih lanjut di artikel untuk mempelajari cara menggunakan sumber daya yang sudah ada sebelumnya, dan mengonfigurasinya untuk bekerja dengan klasifikasi teks kustom.

Anda juga akan memerlukan akun penyimpanan Azure tempat Anda akan mengunggah dokumen .txt yang akan digunakan untuk melatih model untuk mengklasifikasikan teks.

Catatan

  • Anda harus memiliki peran pemilik yang ditetapkan pada grup sumber daya untuk membuat sumber daya Bahasa.
  • Jika akan menyambungkan akun penyimpanan yang sudah ada, Anda harus memiliki peran pemilik yang ditetapkan.

Membuat sumber daya Bahasa dan menyambungkan akun penyimpanan

Catatan

Anda tidak boleh memindahkan akun penyimpanan ke grup sumber daya atau langganan yang berbeda setelah ditautkan dengan sumber daya Bahasa.

Buat sumber daya baru menggunakan portal Microsoft Azure

  1. Buka portal Azure untuk membuat sumber daya Bahasa Azure AI baru.

  2. Di jendela yang muncul, pilih Klasifikasi teks kustom & pengenalan entitas bernama kustom dari fitur kustom. Pilih Lanjutkan untuk membuat sumber daya Anda di bagian bawah layar.

    A screenshot showing the selection option for custom text classification and custom named entity recognition in Azure portal.

  3. Buat sumber daya Bahasa dengan detail berikut.

    Nama Nilai yang diperlukan
    Langganan Langganan Azure Anda.
    Grup sumber daya Grup sumber daya yang akan berisi sumber daya Anda. Anda dapat menggunakan ruang kerja yang sudah ada atau membuat baru.
    Wilayah Salah satu wilayah yang didukung. Misalnya, "US Barat 2".
    Nama Nama sumber daya Anda.
    Tingkatan harga Salah satu tingkat harga yang didukung. Anda dapat menggunakan tingkat Gratis (F0) untuk mencoba layanan.

    Jika Anda mendapatkan pesan yang mengatakan "akun masuk Anda bukan pemilik grup sumber daya akun penyimpanan yang dipilih", akun Anda harus memiliki peran pemilik yang ditetapkan pada grup sumber daya sebelum Anda dapat membuat sumber daya Bahasa. Hubungi pemilik langganan Azure Anda untuk bantuan.

    Anda dapat menentukan pemilik langganan Azure dengan mencari grup sumber daya Anda dan mengikuti tautan ke langganan terkait. lalu:

    1. Pilih tab Access Control (IAM)
    2. Pilih Penetapan peran
    3. Filter menurut Peran:Pemilik.
  4. Di bagian Klasifikasi teks kustom & pengenalan entitas bernama kustom, pilih akun penyimpanan yang sudah ada atau pilih Akun penyimpanan baru. Perhatikan bahwa nilai ini untuk membantu Anda memulai, dan belum tentu nilai akun penyimpanan yang ingin Anda gunakan di lingkungan produksi. Untuk menghindari latensi selama membangun proyek Anda, sambungkan ke akun penyimpanan di wilayah yang sama dengan sumber daya Bahasa Anda.

    Nilai akun penyimpanan Nilai yang direkomendasikan
    Nama akun penyimpanan Nama apa pun
    Jenis akun penyimpanan LRS Standar
  5. Pastikan Pemberitahuan AI yang Bertanggung Jawab diperiksa. Pilih Tinjau + buat di bagian bawah halaman.

Catatan

  • Proses menyambungkan akun penyimpanan ke sumber daya Bahasa tidak dapat dibatalkan, tidak dapat diputuskan nanti.
  • Anda hanya dapat menyambungkan sumber daya bahasa ke satu akun penyimpanan.

Menggunakan sumber daya Bahasa yang sudah ada sebelumnya

Persyaratan Deskripsi
Wilayah Pastikan sumber daya Anda yang sudah ada tersedia di salah satu wilayah yang didukung. Jika belum memiliki sumber daya, Anda harus membuat sumber daya baru di wilayah yang didukung.
Tingkatan harga Tingkat harga untuk sumber daya Anda.
Identitas Terkelola Pastikan pengaturan identitas terkelola sumber daya diaktifkan. Jika tidak, baca bagian selanjutnya.

Untuk menggunakan klasifikasi kustom, Anda harus membuat akun penyimpanan Azure jika Anda belum memilikinya.

Mengaktifkan manajemen identitas untuk sumber daya Anda

Sumber daya Bahasa harus memiliki manajemen identitas, untuk mengaktifkannya gunakan portal Azure:

  1. Buka sumber daya Bahasa
  2. Dari menu sebelah kiri, di bawah bagian Manajemen Sumber Daya, pilih Identitas
  3. Dari tab Sistem yang ditetapkan, pastikan untuk mengatur Status ke Aktif

Mengaktifkan fitur klasifikasi teks kustom

Pastikan untuk mengaktifkan fitur Klasifikasi teks kustom/Pengenalan Entitas Bernama Kustom dari portal Azure.

  1. Buka sumber daya Bahasa Anda di portal Azure
  2. Dari menu sisi kiri, di bawah bagian Manajemen Sumber Daya, pilih Fitur
  3. Aktifkan fitur Klasifikasi teks kustom/Pengenalan Entitas Bernama Kustom
  4. Sambungkan akun penyimpanan
  5. Pilih Terapkan

Penting

  • Pastikan sumber daya Bahasa Anda memiliki peran kontributor data blob penyimpanan yang ditetapkan pada akun penyimpanan yang Anda sambungkan.

Mengatur peran untuk sumber daya Bahasa Azure AI dan akun penyimpanan Anda

Gunakan langkah-langkah berikut dalam menetapkan peran yang diperlukan untuk akun penyimpanan dan sumber daya Bahasa Anda.

An animated image showing how to set roles in the Azure portal.

Peran untuk sumber daya Bahasa Azure AI Anda

  1. Buka akun penyimpanan atau sumber daya bahasa Anda di portal Azure.

  2. Pilih Access Control (IAM) di menu panel navigasi kiri.

  3. Pilih Tambahkan untuk Menambahkan Penetapan Peran, dan pilih peran yang sesuai untuk akun Anda.

    Anda harus memiliki peran pemilik atau kontributor yang ditetapkan pada sumber daya Bahasa.

  4. Dalam Tetapkan akses ke, pilih Pengguna, grup, atau perwakilan layanan

  5. Pilih opsi Pilih anggota

  6. Pilih nama pengguna Anda. Anda dapat mencari nama pengguna di bidang Pilih. Ulangi proses ini untuk semua peran.

  7. Ulangi langkah-langkah ini untuk semua akun pengguna yang memerlukan akses ke sumber daya ini.

Peran untuk akun penyimpanan Anda

  1. Buka akun penyimpanan di portal Microsoft Azure.
  2. Pilih Access Control (IAM) di menu panel navigasi kiri.
  3. Pilih Tambahkan untuk Menambahkan Penetapan Peran, dan pilih peran Kontributor data blob penyimpanan di akun penyimpanan.
  4. Dalam Tetapkan akses ke, pilih Identitas terkelola.
  5. Pilih opsi Pilih anggota
  6. Pilih langganan Anda, dan Bahasa sebagai identitas terkelola. Anda dapat mencari nama pengguna di bidang Pilih.

Penting

Jika Anda memiliki jaringan virtual atau titik akhir privat, pastikan untuk memilih Izinkan layanan Azure pada daftar layanan tepercaya untuk mengakses akun penyimpanan ini di portal Azure.

Mengaktifkan CORS untuk akun penyimpanan Anda

Pastikan untuk mengizinkan metode (GET, PUT, DELETE) saat mengaktifkan Berbagi Sumber Daya Lintas Asal (CORS). Tetapkan bidang asal yang diizinkan ke https://language.cognitive.azure.com. Izinkan semua header dengan menambahkan * ke nilai header yang diizinkan, dan tetapkan usia maksimum ke 500.

A screenshot showing how to use CORS for storage accounts.

Membuat proyek klasifikasi kustom

Setelah sumber daya serta kontainer penyimpanan Anda dikonfigurasi, buat proyek klasifikasi teks baru. Proyek adalah area kerja untuk membangun model AI kustom berdasarkan data Anda. Proyek Anda hanya dapat diakses oleh Anda dan orang lain yang memiliki akses kontributor ke sumber daya Azure yang digunakan. Jika data telah diberi label, Anda dapat mengimpornya untuk memulai.

  1. Masuk ke Studio Bahasa. Sebuah jendela akan muncul yang memungkinkan Anda memilih langganan dan sumber daya Language. Pilih sumber daya Bahasa Anda.

  2. Di bagian Klasifikasi teks di Studio Bahasa, pilih Klasifikasi teks kustom.

    A screenshot showing the location of custom text classification in the Language Studio landing page.

  3. Pilih Buat proyek baru dari menu atas di halaman proyek Anda. Membuat proyek akan memungkinkan Anda melabeli data, melatih, mengevaluasi, meningkatkan, dan menyebarkan model Anda.

    A screenshot of the custom text classification project creation page.

  4. Setelah Anda mengeklik, Buat proyek baru, layar akan muncul untuk memungkinkan Anda menghubungkan akun penyimpanan Anda. Jika Anda sudah menyambungkan akun penyimpanan, Anda akan melihat akun penyimpanan tersambung. Jika tidak, pilih akun penyimpanan Anda dari menu dropdown yang muncul dan pilih akun penyimpanan Koneksi; ini akan mengatur peran yang diperlukan untuk akun penyimpanan Anda. Langkah ini mungkin akan mengembalikan kesalahan jika Anda tidak ditetapkan sebagai pemilik di akun penyimpanan.

    Catatan

    • Cukup lakukan langkah ini sekali untuk setiap sumber daya baru yang Anda gunakan.
    • Proses ini tidak dapat diubah, jika Anda menghubungkan akun penyimpanan ke sumber daya Bahasa, Anda tidak dapat memutuskannya nanti.
    • Anda hanya dapat menghubungkan sumber daya Bahasa Anda ke satu akun penyimpanan.

    A screenshot of the storage connection screen for custom classification projects.

  5. Pilih jenis proyek. Anda dapat membuat proyek Klasifikasi multi-label yang setiap dokumennya dapat disertakan dalam satu atau beberapa kelas atau proyek Klasifikasi label tunggal yang setiap dokumennya hanya dapat disertakan dalam satu kelas. Jenis yang dipilih tidak dapat diubah nanti. Pelajari selengkapnya jenis proyek

    A screenshot of the available custom classification project types.

  6. Masukkan informasi proyek, termasuk nama, deskripsi, dan bahasa pemrogram file dalam dokumen di proyek Anda. Jika Anda menggunakan contoh himpunan data, pilih Bahasa Inggris. Anda tidak akan dapat mengubah nama proyek Anda nanti. Pilih Selanjutnya.

    Tip

    Himpunan data Anda tidak harus sepenuhnya dalam bahasa pemrogram yang sama. Anda dapat memiliki beberapa dokumen, masing-masing dengan bahasa yang didukung berbeda. Jika himpunan data Anda berisi dokumen dari bahasa yang berbeda atau jika Anda mengharapkan teks dari bahasa yang berbeda selama waktu proses, pilih opsi aktifkan himpunan data multi-bahasa saat Anda memasukkan informasi dasar untuk proyek Anda. Opsi ini dapat diaktifkan nanti dari halaman Pengaturan proyek.

  7. Pilih kontainer tempat Anda mengunggah himpunan data Anda.

    Catatan

    Jika Anda telah memberi label data Anda pastikan data mengikuti format yang didukung dan pilih Ya, dokumen saya sudah diberi label dan saya telah memformat file label JSON dan memilih file label dari menu drop-down di bawah ini.

    Jika Anda menggunakan salah satu contoh himpunan data, gunakan file yang disertakan webOfScience_labelsFile atau movieLabels json. Kemudian pilih Berikutnya.

  8. Tinjau data yang Anda masukkan dan pilih Buat Project.

Mengimpor proyek klasifikasi teks kustom

Jika Anda telah memberi label data, Anda dapat menggunakannya dengan memulai layanan. Pastikan bahwa data berlabel Anda mengikuti format data yang diterima.

  1. Masuk ke Studio Bahasa. Sebuah jendela akan muncul yang memungkinkan Anda memilih langganan dan sumber daya Language. Pilih sumber daya Bahasa Anda.

  2. Di bagian Klasifikasi teks di Studio Bahasa, pilih Klasifikasi teks kustom.

    A screenshot showing the location of custom text classification in the Language Studio landing page.

  3. Pilih Buat proyek baru dari menu atas di halaman proyek Anda. Membuat proyek akan memungkinkan Anda melabeli data, melatih, mengevaluasi, meningkatkan, dan menyebarkan model Anda.

    A screenshot of the project creation page.

  4. Setelah memilih Buat proyek baru, layar akan muncul untuk memungkinkan Anda menyambungkan akun penyimpanan Anda. Jika tidak dapat menemukan akun penyimpanan Anda, pastikan Anda membuat sumber daya menggunakan langkah-langkah yang disarankan. Jika sudah menyambungkan akun penyimpanan ke sumber daya Bahasa, Anda akan melihat akun penyimpanan Anda tersambung.

    Catatan

    • Cukup lakukan langkah ini sekali untuk setiap sumber daya baru yang Anda gunakan.
    • Proses ini tidak dapat diubah, jika Anda menghubungkan akun penyimpanan ke sumber daya Bahasa, Anda tidak dapat memutuskannya nanti.
    • Anda hanya dapat menghubungkan sumber daya Bahasa Anda ke satu akun penyimpanan.

    A screenshot of the storage connection screen for custom classification projects.

  5. Pilih jenis proyek. Anda dapat membuat proyek Klasifikasi multi-label yang setiap dokumennya dapat disertakan dalam satu atau beberapa kelas atau proyek Klasifikasi label tunggal yang setiap dokumennya hanya dapat disertakan dalam satu kelas. Jenis yang dipilih tidak dapat diubah nanti.

    A screenshot of the available custom classification project types.

  6. Masukkan informasi proyek, termasuk nama, deskripsi, dan bahasa pemrogram file dalam dokumen di proyek Anda. Anda tidak akan dapat mengubah nama proyek Anda nanti. Pilih Selanjutnya.

    Tip

    Himpunan data Anda tidak harus sepenuhnya dalam bahasa pemrogram yang sama. Anda dapat memiliki beberapa dokumen, masing-masing dengan bahasa yang didukung berbeda. Jika himpunan data Anda berisi dokumen dari bahasa yang berbeda atau jika Anda mengharapkan teks dari bahasa yang berbeda selama waktu proses, pilih opsi aktifkan himpunan data multi-bahasa saat Anda memasukkan informasi dasar untuk proyek Anda. Opsi ini dapat diaktifkan nanti dari halaman Pengaturan proyek.

  7. Pilih kontainer tempat Anda mengunggah himpunan data Anda.

  8. Pilih Ya, dokumen saya sudah diberi label dan saya telah memformat file label JSON dan memilih file label dari menu drop-down di bawah ini untuk mengimpor file label JSON Anda. Pastikan sudah mengikuti format yang didukung.

  9. Pilih Selanjutnya.

  10. Tinjau data yang Anda masukkan dan pilih Buat Project.

Mendapatkan detail proyek

  1. Buka halaman pengaturan proyek di Language Studio.

  2. Anda dapat melihat detail proyek.

  3. Di halaman ini Anda dapat memperbarui deskripsi proyek dan mengaktifkan/menonaktifkan himpunan data Multi-bahasa dalam pengaturan proyek.

  4. Anda juga dapat melihat akun penyimpanan dan kontainer yang tersambung ke sumber daya Bahasa Anda.

  5. Anda juga dapat mengambil kunci primer sumber daya dari halaman ini.

    A screenshot of the project settings page.

Menghapus proyek

Jika Anda tidak memerlukan proyek lagi, Anda dapat menghapus proyek menggunakan Language Studio. Pilih Klasifikasi teks kustom di bagian atas, lalu pilih proyek yang ingin Anda hapus. Pilih Hapus dari menu atas untuk menghapus proyek.

Langkah berikutnya

  • Anda harus memiliki gagasan tentang skema proyek yang akan digunakan untuk memberikan label pada data Anda.

  • Setelah proyek dibuat, Anda dapat memulai memberi label pada data, yang akan menginformasikan model klasifikasi teks Anda cara menafsirkan teks, dan digunakan untuk pelatihan dan evaluasi.