Menyiapkan proyek pelabelan gambar

Pelajari cara membuat dan menjalankan proyek untuk melabeli gambar di Azure Machine Learning. Gunakan pelabelan data yang dibantu pembelajaran mesin (ML) atau pelabelan human-in-the-loop untuk membantu tugas.

Siapkan label untuk klasifikasi, deteksi objek (kotak pembatas), segmentasi instans (poligon), atau segmentasi semantik (pratinjau).

Anda juga dapat menggunakan alat pelabelan data di Azure Pembelajaran Mesin untuk membuat proyek pelabelan teks.

Penting

Item yang ditandai (pratinjau) dalam artikel ini sedang dalam pratinjau publik. Versi pratinjau disediakan tanpa perjanjian tingkat layanan, dan tidak disarankan untuk beban kerja produksi. Fitur tertentu mungkin tidak didukung atau mungkin memiliki kemampuan terbatas. Untuk mengetahui informasi selengkapnya, lihat Ketentuan Penggunaan Tambahan untuk Pratinjau Microsoft Azure.

Kapabilitas pelabelan gambar

Pelabelan data Azure Pembelajaran Mesin adalah alat yang dapat Anda gunakan untuk membuat, mengelola, dan memantau proyek pelabelan data. Gunakan untuk:

  • Koordinasikan data, label, dan anggota tim untuk mengelola tugas pelabelan secara efisien.
  • Lacak kemajuan dan pertahankan antrean tugas pelabelan yang tidak lengkap.
  • Mulai dan hentikan proyek, dan kontrol kemajuan pelabelan.
  • Tinjau dan ekspor data berlabel sebagai himpunan data Azure Pembelajaran Mesin.

Penting

Gambar data yang bekerja dengan Anda di alat pelabelan data Azure Pembelajaran Mesin harus tersedia di datastore Azure Blob Storage. Jika Anda tidak memiliki datastore yang sudah ada, Anda dapat mengunggah file data ke datastore baru saat membuat proyek.

Data gambar dapat berupa file apa pun yang memiliki salah satu ekstensi file ini:

  • .Jpg
  • .jpeg
  • .png
  • .jpe
  • .jfif
  • .bmp
  • .Tif
  • .Tiff
  • .Dcm
  • .dicom

Setiap file adalah item yang akan diberi label.

Anda juga dapat menggunakan aset data MLTable sebagai input ke proyek pelabelan gambar, selama gambar dalam tabel adalah salah satu format di atas. Untuk informasi selengkapnya, lihat Cara menggunakan aset data MLTable.

Prasyarat

Anda menggunakan item ini untuk menyiapkan pelabelan gambar di Azure Pembelajaran Mesin:

  • Data yang ingin Anda beri label, baik di file lokal atau di Azure Blob Storage.
  • Kumpulan label yang ingin diterapkan.
  • Petunjuk pelabelan.
  • Langganan Azure. Jika Anda tidak memiliki langganan Azure, buat akun gratis sebelum Anda memulai.
  • Ruang kerja Azure Machine Learning. Lihat Membuat ruang kerja Azure Machine Learning.

Membuat proyek pelabelan gambar

Proyek pelabelan dikelola di Azure Pembelajaran Mesin. Gunakan halaman Pelabelan Data di Pembelajaran Mesin untuk mengelola proyek Anda.

Jika data Anda sudah ada di Azure Blob Storage, pastikan data tersebut tersedia sebagai datastore sebelum Anda membuat proyek pelabelan.

  1. Untuk membuat proyek, pilih Tambahkan proyek.

  2. Untuk Nama proyek, masukkan nama proyek.

    Anda tidak dapat menggunakan kembali nama proyek, meskipun Anda menghapus proyek.

  3. Untuk membuat proyek pelabelan gambar, untuk Jenis media, pilih Gambar.

  4. Untuk Jenis tugas Pelabelan, pilih opsi untuk skenario Anda:

    • Untuk hanya menerapkan satu label ke gambar dari sekumpulan label, pilih Klasifikasi Gambar Multi-kelas.
    • Untuk menerapkan satu atau beberapa label ke gambar dari sekumpulan label, pilih Klasifikasi Gambar Multi-label. Misalnya, foto anjing mungkin diberi label dengan anjing dan siang hari.
    • Untuk menetapkan label ke setiap objek dalam gambar dan menambahkan kotak pembatas, pilih Identifikasi Objek (Kotak Batas).
    • Untuk menetapkan label ke setiap objek dalam gambar dan menggambar poligon di sekitar setiap objek, pilih Segmentasi Instans (Poligon).
    • Untuk menggambar masker pada gambar dan menetapkan kelas label di tingkat piksel, pilih Segmentasi Semantik (Pratinjau).

    Screenshot that shows creating a labeling project to manage labeling.

  5. Untuk melanjutkan, klik Berikutnya.

Menambahkan tenaga kerja (opsional)

Pilih Gunakan perusahaan pelabelan vendor dari Marketplace Azure hanya jika Anda telah melibatkan perusahaan pelabelan data dari Marketplace Azure. Kemudian pilih vendor. Jika vendor Anda tidak muncul dalam daftar, kosongkan opsi ini.

Pastikan Anda terlebih dahulu menghubungi vendor dan menandatangani kontrak. Untuk informasi selengkapnya, lihat Bekerja dengan perusahaan vendor pelabelan data (pratinjau).

Untuk melanjutkan, klik Berikutnya.

Menentukan data yang akan diberi label

Jika Anda sudah membuat himpunan data yang berisi data Anda, pilih himpunan data di menu dropdown Pilih himpunan data yang sudah ada.

Anda juga dapat memilih Buat himpunan data untuk menggunakan datastore Azure yang sudah ada atau untuk mengunggah file lokal.

Catatan

Proyek tidak boleh berisi lebih dari 500.000 file. Jika himpunan data Anda melebihi jumlah file ini, hanya 500.000 file pertama yang dimuat.

Pemetaan kolom data (pratinjau)

Jika Anda memilih aset data MLTable, langkah Pemetaan Kolom Data tambahan muncul bagi Anda untuk menentukan kolom yang berisi URL gambar.

Anda harus menentukan kolom yang memetakan ke bidang Gambar . Anda juga dapat secara opsional memetakan kolom lain yang ada dalam data. Misalnya, jika data Anda berisi kolom Label , Anda bisa memetakannya ke bidang Kategori . Jika data Anda berisi kolom Keyakinan , Anda bisa memetakannya ke bidang Keyakinan .

Jika Anda mengimpor label dari proyek sebelumnya, label harus dalam format yang sama dengan label yang Anda buat. Misalnya, jika Anda membuat label kotak pembatas, label yang Anda impor juga harus berupa label kotak pembatas.

Opsi impor (pratinjau)

Saat Anda menyertakan kolom Kategori dalam langkah Pemetaan Kolom Data, gunakan Opsi Impor untuk menentukan cara memperlakukan data berlabel.

Anda harus menentukan kolom yang memetakan ke bidang Gambar . Anda juga dapat secara opsional memetakan kolom lain yang ada dalam data. Misalnya, jika data Anda berisi kolom Label , Anda bisa memetakannya ke bidang Kategori . Jika data Anda berisi kolom Keyakinan , Anda bisa memetakannya ke bidang Keyakinan .

Jika Anda mengimpor label dari proyek sebelumnya, label harus dalam format yang sama dengan label yang Anda buat. Misalnya, jika Anda membuat label kotak pembatas, label yang Anda impor juga harus berupa label kotak pembatas.

Membuat himpunan data dari penyimpanan data Azure

Dalam banyak kasus, Anda dapat mengunggah file lokal. Namun, Azure Storage Explorer menyediakan cara yang lebih cepat dan lebih kuat untuk mentransfer sejumlah besar data. Kami menyarankan Storage Explorer sebagai cara default untuk memindahkan file.

Untuk membuat himpunan data dari data yang sudah disimpan di Blob Storage:

  1. Pilih Buat.
  2. Untuk Nama, masukkan nama untuk himpunan data Anda. Secara opsional, masukkan deskripsi.
  3. Pastikan jenis Himpunan Data diatur ke File. Hanya jenis himpunan data file yang didukung untuk gambar.
  4. Pilih Selanjutnya.
  5. Pilih Dari penyimpanan Azure, lalu pilih Berikutnya.
  6. Pilih datastore, lalu pilih Berikutnya.
  7. Jika data Anda berada di subfolder dalam Blob Storage, pilih Telusuri untuk memilih jalur.
    • Untuk menyertakan semua file dalam subfolder jalur yang dipilih, tambahkan /** ke jalur.
    • Untuk menyertakan semua data dalam kontainer saat ini dan subfoldernya, tambahkan **/*.* ke jalur .
  8. Pilih Buat.
  9. Pilih aset data yang Anda buat.

Membuat himpunan data dari data yang diunggah

Untuk mengunggah data secara langsung:

  1. Pilih Buat.
  2. Untuk Nama, masukkan nama untuk himpunan data Anda. Secara opsional, masukkan deskripsi.
  3. Pastikan jenis Himpunan Data diatur ke File. Hanya jenis himpunan data file yang didukung untuk gambar.
  4. Pilih Selanjutnya.
  5. Pilih Dari file lokal, lalu pilih Berikutnya.
  6. (Opsional) Pilih datastore. Anda juga dapat membiarkan default untuk diunggah ke penyimpanan blob default (workspaceblobstore) untuk ruang kerja Pembelajaran Mesin Anda.
  7. Pilih Selanjutnya.
  8. Pilih Unggah>Unggah file atau Unggah folder unggah>untuk memilih file atau folder lokal yang akan diunggah.
  9. Di jendela browser, temukan file atau folder Anda, lalu pilih Buka.
  10. Lanjutkan untuk memilih Unggah hingga Anda menentukan semua file dan folder Anda.
  11. Secara opsional, Anda dapat memilih untuk memilih kotak centang Timpa jika sudah ada . Verifikasi daftar file dan folder.
  12. Pilih Selanjutnya.
  13. Konfirmasi detailnya. Pilih Kembali untuk mengubah pengaturan atau pilih Buat untuk membuat himpunan data.
  14. Terakhir, pilih aset data yang Anda buat.

Mengonfigurasi refresh inkremental

Jika Anda berencana untuk menambahkan file data baru ke himpunan data Anda, gunakan refresh bertahap untuk menambahkan file ke proyek Anda.

Saat Aktifkan refresh bertahap pada interval reguler diatur, himpunan data dicentang secara berkala agar file baru ditambahkan ke proyek berdasarkan tingkat penyelesaian pelabelan. Pemeriksaan data baru berhenti jika proyek berisi maksimum 500.000 file.

Pilih Aktifkan refresh bertambah bertahap dengan interval reguler jika ingin proyek Anda terus memantau data baru di penyimpanan data.

Hapus pilihan jika Anda tidak ingin file baru di datastore ditambahkan secara otomatis ke proyek Anda.

Penting

Jangan membuat versi baru untuk himpunan data yang ingin Anda perbarui. Jika Anda melakukannya, pembaruan tidak akan terlihat karena proyek pelabelan data disematkan ke versi awal. Sebagai gantinya, gunakan Azure Storage Explorer untuk memodifikasi data Anda di folder yang sesuai di Blob Storage.

Selain itu, jangan hapus data. Menghapus data dari himpunan data yang digunakan proyek Anda menyebabkan kesalahan dalam proyek.

Setelah proyek dibuat, gunakan tab Detail untuk mengubah refresh bertahap, lihat stempel waktu untuk refresh terakhir, dan minta refresh data segera.

Menentukan kelas label

Pada halaman Kategori label , tentukan sekumpulan kelas untuk mengategorikan data Anda.

Akurasi dan kecepatan pelabel Anda dipengaruhi oleh kemampuan mereka untuk memilih di antara kelas. Misalnya, alih-alih mengeja genus dan spesies lengkap tanaman atau hewan, gunakan kode bidang atau singkat genus.

Anda dapat menggunakan daftar datar atau membuat grup label.

  • Untuk membuat daftar datar, pilih Tambahkan kategori label untuk membuat setiap label.

    Screenshot that shows how to add a flat structure of labels.

  • Untuk membuat label di grup yang berbeda, pilih Tambahkan kategori label untuk membuat label tingkat atas. Kemudian pilih tanda plus (+) di bawah setiap tingkat atas untuk membuat tingkat label berikutnya untuk kategori tersebut. Anda dapat membuat hingga enam tingkat untuk pengelompokan apa pun.

    Screenshot that shows how to add groups of labels.

Anda dapat memilih label di tingkat apa pun selama proses pemberian tag. Misalnya, label Animal, , Animal/Cat, Animal/DogColor, Color/Black, Color/White, dan Color/Silver adalah semua pilihan yang tersedia untuk label. Dalam proyek multi-label, tidak ada persyaratan untuk memilih salah satu dari setiap kategori. Jika itu adalah niat Anda, pastikan untuk menyertakan informasi ini dalam instruksi Anda.

Menjelaskan tugas pelabelan data

Tugas pelabelan perlu dijelaskan secara mendetail. Pada halaman Instruksi pelabelan, Anda bisa menambahkan tautan ke situs eksternal yang memiliki instruksi pelabelan, atau Anda bisa memberikan instruksi dalam kotak edit di halaman. Pertahankan petunjuk tetap berorientasi pada tugas dan sesuai untuk audiens. Pertimbangkan pertanyaan berikut:

  • Apa saja label yang akan dilihat pelabel, dan bagaimana mereka akan memilih di antara mereka? Apakah ada teks referensi untuk dirujuk?
  • Apa yang harus mereka lakukan jika tidak ada label yang tampaknya sesuai?
  • Apa yang harus mereka lakukan jika beberapa label tampaknya sesuai?
  • Ambang batas keyakinan apa yang harus mereka terapkan pada label? Apakah Anda ingin tebakan terbaik pelabel jika mereka tidak yakin?
  • Apa yang harus mereka lakukan dengan objek ketertarikan yang tumpang tindih atau tertutup sebagian?
  • Apa yang harus mereka lakukan jika objek ketertarikan terpotong oleh tepi gambar?
  • Apa yang harus mereka lakukan jika mereka merasa melakukan kesalahan setelah mengirimkan label?
  • Apa yang harus mereka lakukan jika menemukan masalah kualitas gambar, termasuk kondisi pencahayaan yang buruk, pantulan, hilangnya fokus, latar belakang yang tidak diinginkan termasuk, sudut kamera abnormal, dan sebagainya?
  • Apa yang harus mereka lakukan jika beberapa peninjau memiliki pendapat yang berbeda tentang menerapkan label?

Untuk kotak pembatas, pertanyaan penting meliputi:

  • Bagaimana kotak pembatas ditentukan untuk tugas ini? Haruskah tetap sepenuhnya pada interior objek atau harus berada di eksterior? Haruskah dipotong sedekat mungkin, atau apakah beberapa penghapusan diizinkan?
  • Tingkat perhatian dan konsistensi apa yang Anda harapkan untuk diterapkan oleh pelabel dalam menentukan kotak pembatas?
  • Apa definisi visual dari setiap kelas label? Dapatkah Anda memberikan daftar kasus normal, tepi, dan penghitung untuk setiap kelas?
  • Apa yang harus dilakukan pelabel jika objek kecil? Haruskah diberi label sebagai objek atau haruskah mereka mengabaikan objek tersebut sebagai latar belakang?
  • Bagaimana pelabel harus menangani objek yang hanya ditampilkan sebagian dalam gambar?
  • Bagaimana pelabel harus menangani objek yang sebagian dicakup oleh objek lain?
  • Bagaimana pelabel harus menangani objek yang tidak memiliki batas yang jelas?
  • Bagaimana pelabel harus menangani objek yang bukan merupakan kelas objek yang menarik tetapi memiliki kesamaan visual dengan jenis objek yang relevan?

Catatan

Pelabel dapat memilih sembilan label pertama dengan menggunakan tombol angka 1 hingga 9.

Kontrol kualitas (pratinjau)

Untuk mendapatkan label yang lebih akurat, gunakan halaman Kontrol kualitas untuk mengirim setiap item ke beberapa pelabel.

Penting

Pelabelan konensus saat ini dalam pratinjau publik.

Versi pratinjau disediakan tanpa perjanjian tingkat layanan, dan tidak disarankan untuk beban kerja produksi. Fitur tertentu mungkin tidak didukung atau mungkin memiliki kemampuan terbatas.

Untuk mengetahui informasi selengkapnya, lihat Ketentuan Penggunaan Tambahan untuk Pratinjau Microsoft Azure.

Untuk meminta setiap item dikirim ke beberapa pelabel, pilih Aktifkan pelabelan konsekuensi (pratinjau). Kemudian atur nilai untuk Pelabel minimum dan Pelabel maksimum untuk menentukan berapa banyak pelabel yang akan digunakan. Pastikan Anda memiliki pelabel sebanyak yang tersedia sebagai jumlah maksimum Anda. Anda tidak dapat mengubah pengaturan ini setelah proyek dimulai.

Jika konsekuensi tercapai dari jumlah minimum pelabel, item akan diberi label. Jika konsekuensi tidak tercapai, item dikirim ke lebih banyak pelabel. Jika tidak ada konensi setelah item masuk ke jumlah maksimum pelabel, statusnya adalah Perlu Ditinjau, dan pemilik proyek bertanggung jawab untuk memberi label item.

Catatan

Proyek Segmentasi Instans tidak dapat menggunakan pelabelan konensus.

Menggunakan pelabelan data terbantu ML

Untuk mempercepat tugas pelabelan, pada halaman pelabelan yang dibantu ML, Anda dapat memicu model pembelajaran mesin otomatis. Gambar medis (file yang memiliki ekstensi .dcm ) tidak disertakan dalam pelabelan berbantuan. Jika jenis proyek adalah Segmentasi Semantik (Pratinjau), pelabelan yang dibantu ML tidak tersedia.

Pada awal proyek pelabelan Anda, item diacak ke dalam urutan acak untuk mengurangi potensi bias. Namun, model terlatih mencerminkan bias apa pun yang ada dalam himpunan data. Misalnya, jika 80 persen item Anda berasal dari satu kelas, maka sekitar 80 persen dari data yang digunakan untuk melatih model mendarat di kelas tersebut.

Untuk mengaktifkan pelabelan terbantu, pilih Aktifkan pelabelan terbantu ML dan tentukan GPU. Jika Anda tidak memiliki GPU di ruang kerja Anda, kluster GPU (nama sumber daya: DefLabelNC6v3, vmsize: Standard_NC6s_v3) dibuat untuk Anda dan ditambahkan ke ruang kerja Anda. Kluster dibuat dengan minimal nol simpul, yang berarti tidak ada biaya ketika tidak digunakan.

Pelabelan terbantu ML terdiri dari dua fase:

  • Pengklusteran
  • Pra-pelabelan

Jumlah item data berlabel yang diperlukan untuk memulai pelabelan terbantu bukanlah angka tetap. Jumlah ini dapat bervariasi secara signifikan dari satu proyek pelabelan ke proyek pelabelan lainnya. Untuk beberapa proyek, terkadang dimungkinkan untuk melihat tugas pra-label atau kluster setelah 300 item diberi label secara manual. Pelabelan yang dibantu ML menggunakan teknik yang disebut pembelajaran transfer. Pembelajaran transfer menggunakan model yang telah dilatih sebelumnya untuk memulai proses pelatihan. Jika kelas himpunan data Anda menyerupai kelas dalam model yang telah dilatih sebelumnya, pra-label mungkin tersedia setelah hanya beberapa ratus item berlabel manual. Jika himpunan data Anda secara signifikan berbeda dari data yang digunakan untuk melatih model sebelumnya, prosesnya mungkin membutuhkan lebih banyak waktu.

Saat Anda menggunakan pelabelan konensus, label konensus digunakan untuk pelatihan.

Karena label akhir masih mengandalkan input dari pelabel, teknologi ini terkadang disebut pelabelan human-in-the-loop .

Catatan

Pelabelan data yang dibantu ML tidak mendukung akun penyimpanan default yang diamankan di belakang jaringan virtual. Anda harus menggunakan akun penyimpanan non-default untuk pelabelan data yang dibantu ML. Akun penyimpanan non-default dapat diamankan di belakang jaringan virtual.

Pengklusteran

Setelah Anda mengirimkan beberapa label, model klasifikasi mulai mengelompokkan item serupa. Gambar serupa ini disajikan kepada pelabel di halaman yang sama untuk membantu membuat pemberian tag manual lebih efisien. Pengklusteran sangat berguna ketika pelabel melihat kisi empat, enam, atau sembilan gambar.

Setelah model pembelajaran mesin dilatih pada data berlabel manual Anda, model dipotong ke lapisan terakhir yang sepenuhnya terhubung. Gambar yang tidak berlabel kemudian diteruskan melalui model terpotong dalam proses yang disebut penyematan atau fiturisasi. Proses ini menyematkan setiap gambar dalam ruang dimensi tinggi yang ditentukan lapisan model. Gambar lain di ruang yang terdekat dengan gambar digunakan untuk tugas pengklusteran.

Fase pengklusteran tidak muncul untuk model deteksi objek atau klasifikasi teks.

Pra-pelabelan

Setelah Anda mengirimkan label yang cukup untuk pelatihan, model klasifikasi memprediksi tag atau model deteksi objek memprediksi kotak pembatas. Pelabel kini melihat halaman yang berisi label yang diprediksi yang sudah ada pada setiap item. Untuk deteksi objek, kotak yang diprediksi juga ditampilkan. Tugas ini melibatkan peninjauan prediksi ini dan memperbaiki gambar yang salah diberi label sebelum pengiriman halaman.

Setelah model pembelajaran mesin dilatih pada data berlabel manual Anda, model dievaluasi pada serangkaian pengujian item berlabel manual. Evaluasi membantu menentukan akurasi model pada ambang keyakinan yang berbeda. Proses evaluasi menetapkan ambang batas keyakinan di mana model cukup akurat untuk menampilkan pra-label. Model kemudian dievaluasi terhadap data yang tidak berlabel. Item dengan prediksi yang lebih yakin daripada ambang batas digunakan untuk pra-pelabelan.

Menginisialisasi proyek pelabelan data

Setelah proyek pelabelan diinisialisasi, beberapa aspek proyek tidak dapat diubah. Anda tidak bisa mengubah jenis tugas atau himpunan data. Anda dapat mengubah label dan URL untuk deskripsi tugas. Tinjau pengaturan secara seksama sebelum membuat proyek. Setelah mengirimkan proyek, Anda kembali ke halaman gambaran umum Pelabelan Data, yang memperlihatkan proyek sebagai Inisialisasi.

Catatan

Halaman ini mungkin tidak otomatis di-refresh. Setelah jeda, refresh halaman secara manual untuk melihat status proyek sebagai Dibuat.

Pemecahan Masalah

Untuk masalah dalam membuat proyek atau mengakses data, lihat Memecahkan masalah pelabelan data.

Langkah berikutnya