Bagikan melalui


Menyiapkan proyek pelabelan gambar

Pelajari cara membuat dan menjalankan proyek untuk melabeli gambar di Azure Machine Learning. Gunakan pelabelan data yang dibantu pembelajaran mesin (ML) atau pelabelan human-in-the-loop untuk membantu tugas.

Siapkan label untuk klasifikasi, deteksi objek (kotak pembatas), segmentasi instans (poligon), atau segmentasi semantik (pratinjau).

Anda juga dapat menggunakan alat pelabelan data di Azure Pembelajaran Mesin untuk membuat proyek pelabelan teks.

Penting

Item yang ditandai (pratinjau) dalam artikel ini sedang dalam pratinjau publik. Versi pratinjau disediakan tanpa perjanjian tingkat layanan, dan tidak disarankan untuk beban kerja produksi. Fitur tertentu mungkin tidak didukung atau mungkin memiliki kemampuan terbatas. Untuk mengetahui informasi selengkapnya, lihat Ketentuan Penggunaan Tambahan untuk Pratinjau Microsoft Azure.

Kapabilitas pelabelan gambar

Pelabelan data Azure Pembelajaran Mesin adalah alat yang dapat Anda gunakan untuk membuat, mengelola, dan memantau proyek pelabelan data. Gunakan untuk:

  • Koordinasikan data, label, dan anggota tim untuk mengelola tugas pelabelan secara efisien.
  • Lacak kemajuan dan pertahankan antrean tugas pelabelan yang tidak lengkap.
  • Mulai dan hentikan proyek, dan kontrol kemajuan pelabelan.
  • Tinjau dan ekspor data berlabel sebagai himpunan data Azure Pembelajaran Mesin.

Penting

Gambar data yang bekerja dengan Anda di alat pelabelan data Azure Pembelajaran Mesin harus tersedia di datastore Azure Blob Storage. Jika Anda tidak memiliki datastore yang sudah ada, Anda dapat mengunggah file data ke datastore baru saat membuat proyek.

Data gambar dapat berupa file apa pun yang memiliki salah satu ekstensi file ini:

  • .jpg
  • .jpeg
  • .png
  • .jpe
  • .jfif
  • .bmp
  • .tif
  • .tiff
  • .dcm
  • .dicom

Setiap file adalah item untuk diberi label.

Anda juga dapat menggunakan aset MLTable data sebagai input ke proyek pelabelan gambar, selama gambar dalam tabel adalah salah satu format di atas. Untuk informasi selengkapnya, lihat Cara menggunakan MLTable aset data.

Prasyarat

Gunakan item berikut untuk menyiapkan pelabelan gambar di Azure Machine Learning:

  • Data yang ingin Anda beri label, baik di file lokal atau di Azure Blob Storage.
  • Kumpulan label yang ingin diterapkan.
  • Petunjuk pelabelan.
  • Langganan Azure. Jika Anda tidak memiliki langganan Azure, buat akun gratis sebelum Anda memulai.
  • Ruang kerja Azure Machine Learning. Lihat Membuat ruang kerja Azure Machine Learning.

Membuat proyek pelabelan gambar

Proyek pelabelan dikelola di Azure Pembelajaran Mesin. Gunakan halaman Pelabelan Data di Pembelajaran Mesin untuk mengelola proyek Anda.

Jika data Anda sudah ada di Azure Blob Storage, pastikan data tersebut tersedia sebagai datastore sebelum Anda membuat proyek pelabelan.

  1. Pilih Tambahkan proyek untuk membuat proyek.

  2. Masukkan nama untuk proyek dalam Nama proyek.

    Anda tidak dapat menggunakan kembali nama proyek, meskipun Anda menghapus proyek.

  3. Pilih Gambar untuk Jenis media untuk membuat proyek pelabelan gambar.

  4. Pilih opsi untuk skenario Anda untuk jenis tugas Pelabelan:

    • Untuk hanya menerapkan satu label ke gambar dari sekumpulan label, pilih Klasifikasi Gambar Multi-kelas.
    • Untuk menerapkan satu atau beberapa label ke gambar dari sekumpulan label, pilih Klasifikasi Gambar Multi-label. Misalnya, foto anjing mungkin diberi label dengan anjing dan siang hari.
    • Untuk menetapkan label ke setiap objek dalam gambar dan menambahkan kotak pembatas, pilih Identifikasi Objek (Kotak Batas).
    • Untuk menetapkan label ke setiap objek dalam gambar dan menggambar poligon di setiap objek, pilih Poligon (Segmentasi Instans).
    • Untuk menggambar masker pada gambar dan menetapkan kelas label di tingkat piksel, pilih Segmentasi Semantik (Pratinjau).

    Cuplikan layar yang memperlihatkan pembuatan proyek pelabelan untuk mengelola tugas pelabelan.

  5. Untuk melanjutkan, klik Berikutnya.

Menambahkan tenaga kerja (opsional)

Pilih Gunakan perusahaan pelabelan vendor dari Marketplace Azure hanya jika Anda telah melibatkan perusahaan pelabelan data dari Marketplace Azure. Kemudian pilih vendor. Jika vendor Anda tidak muncul dalam daftar, kosongkan opsi ini.

Pastikan Anda terlebih dahulu menghubungi vendor dan menandatangani kontrak. Untuk informasi selengkapnya, lihat Bekerja dengan perusahaan vendor pelabelan data (pratinjau).

Untuk melanjutkan, klik Berikutnya.

Menentukan data yang akan diberi label

Jika Anda sudah membuat himpunan data yang berisi data Anda, pilih himpunan data di menu dropdown Pilih himpunan data yang sudah ada.

Anda juga dapat memilih Buat himpunan data untuk menggunakan datastore Azure yang sudah ada atau untuk mengunggah file lokal.

Catatan

Proyek tidak boleh berisi lebih dari 500.000 file. Jika himpunan data Anda melebihi jumlah file ini, hanya 500.000 file pertama yang dimuat.

Pemetaan kolom data (pratinjau)

Jika Anda memilih aset data MLTable, langkah Pemetaan Kolom Data lain akan muncul bagi Anda untuk menentukan kolom yang berisi URL gambar.

Anda harus menentukan kolom yang memetakan ke bidang Gambar . Anda juga dapat secara opsional memetakan kolom lain yang ada dalam data. Misalnya, jika data Anda berisi kolom Label , Anda bisa memetakannya ke bidang Kategori . Jika data Anda berisi kolom Keyakinan , Anda bisa memetakannya ke bidang Keyakinan .

Jika Anda mengimpor label dari proyek sebelumnya, label harus dalam format yang sama dengan label yang Anda buat. Misalnya, jika Anda membuat label kotak pembatas, label yang Anda impor juga harus berupa label kotak pembatas.

Opsi impor (pratinjau)

Saat Anda menyertakan kolom Kategori dalam langkah Pemetaan Kolom Data, gunakan Opsi Impor untuk menentukan cara memperlakukan data berlabel.

Anda harus menentukan kolom yang memetakan ke bidang Gambar . Anda juga dapat secara opsional memetakan kolom lain yang ada dalam data. Misalnya, jika data Anda berisi kolom Label , Anda bisa memetakannya ke bidang Kategori . Jika data Anda berisi kolom Keyakinan , Anda bisa memetakannya ke bidang Keyakinan .

Jika Anda mengimpor label dari proyek sebelumnya, label harus dalam format yang sama dengan label yang Anda buat. Misalnya, jika Anda membuat label kotak pembatas, label yang Anda impor juga harus berupa label kotak pembatas.

Membuat himpunan data dari penyimpanan data Azure

Dalam banyak kasus, Anda dapat mengunggah file lokal. Namun, Azure Storage Explorer menyediakan cara yang lebih cepat dan lebih kuat untuk mentransfer sejumlah besar data. Gunakan Storage Explorer sebagai cara default untuk memindahkan file.

Untuk membuat himpunan data dari data yang sudah disimpan di Blob Storage:

  1. Pilih Buat.
  2. Untuk Nama, masukkan nama untuk himpunan data Anda. Secara opsional, masukkan deskripsi.
  3. Pastikan jenis Himpunan Data diatur ke File. Hanya jenis himpunan data file yang didukung untuk gambar.
  4. Pilih Selanjutnya.
  5. Pilih Dari penyimpanan Azure, lalu pilih Berikutnya.
  6. Pilih datastore, lalu pilih Berikutnya.
  7. Jika data Anda berada di subfolder dalam Blob Storage, pilih Telusuri untuk memilih jalur.
    • Untuk menyertakan semua file dalam subfolder jalur yang dipilih, tambahkan /** ke jalur.
    • Untuk menyertakan semua data dalam kontainer saat ini dan subfoldernya, tambahkan **/*.* ke jalur .
  8. Pilih Buat.
  9. Pilih aset data yang Anda buat.

Membuat himpunan data dari data yang diunggah

Untuk mengunggah data secara langsung:

  1. Pilih Buat.
  2. Untuk Nama, masukkan nama untuk himpunan data Anda. Secara opsional, masukkan deskripsi.
  3. Pastikan jenis Himpunan Data diatur ke File. Hanya jenis himpunan data file yang didukung untuk gambar.
  4. Pilih Selanjutnya.
  5. Pilih Dari file lokal, lalu pilih Berikutnya.
  6. (Opsional) Pilih datastore. Anda juga dapat membiarkan default untuk diunggah ke penyimpanan blob default (workspaceblobstore) untuk ruang kerja Pembelajaran Mesin Anda.
  7. Pilih Selanjutnya.
  8. Pilih Unggah>Unggah file atau Unggah folder unggah>untuk memilih file atau folder lokal yang akan diunggah.
  9. Di jendela browser, temukan file atau folder Anda, lalu pilih Buka.
  10. Lanjutkan untuk memilih Unggah hingga Anda menentukan semua file dan folder Anda.
  11. Secara opsional, Anda dapat memilih untuk memilih kotak centang Timpa jika sudah ada . Verifikasi daftar file dan folder.
  12. Pilih Selanjutnya.
  13. Konfirmasi detailnya. Pilih Kembali untuk mengubah pengaturan atau pilih Buat untuk membuat himpunan data.
  14. Terakhir, pilih aset data yang Anda buat.

Mengonfigurasi refresh inkremental

Jika Anda berencana untuk menambahkan file data baru ke himpunan data Anda, gunakan refresh bertahap untuk menambahkan file ke proyek Anda.

Saat Aktifkan refresh bertahap pada interval reguler diatur, himpunan data dicentang secara berkala agar file baru ditambahkan ke proyek berdasarkan tingkat penyelesaian pelabelan. Pemeriksaan data baru berhenti jika proyek berisi maksimum 500.000 file.

Pilih Aktifkan refresh bertambah bertahap dengan interval reguler jika ingin proyek Anda terus memantau data baru di penyimpanan data.

Hapus pilihan jika Anda tidak ingin file baru di datastore ditambahkan secara otomatis ke proyek Anda.

Penting

Saat refresh bertahap diaktifkan, jangan buat versi baru untuk himpunan data yang ingin Anda perbarui. Jika Anda melakukannya, pembaruan tidak akan terlihat karena proyek pelabelan data disematkan ke versi awal. Sebagai gantinya, gunakan Azure Storage Explorer untuk memodifikasi data Anda di folder yang sesuai di Blob Storage.

Selain itu, jangan hapus data. Menghapus data dari himpunan data yang digunakan proyek Anda menyebabkan kesalahan dalam proyek.

Setelah proyek dibuat, gunakan tab Detail untuk mengubah refresh bertahap, lihat stempel waktu untuk refresh terakhir, dan minta refresh data segera.

Menentukan kelas label

Pada halaman Kategori label , tentukan sekumpulan kelas untuk mengategorikan data Anda.

Akurasi dan kecepatan pelabel Anda dipengaruhi oleh kemampuan mereka untuk memilih di antara kelas. Misalnya, alih-alih mengeja genus dan spesies lengkap tanaman atau hewan, gunakan kode bidang atau singkat genus.

Anda dapat menggunakan daftar datar atau membuat grup label.

  • Untuk membuat daftar datar, pilih Tambahkan kategori label untuk membuat setiap label.

    Cuplikan layar yang memperlihatkan cara menambahkan struktur label datar.

  • Untuk membuat label di grup yang berbeda, pilih Tambahkan kategori label untuk membuat label tingkat atas. Kemudian pilih tanda plus (+) di bawah setiap tingkat atas untuk membuat tingkat label berikutnya untuk kategori tersebut. Anda dapat membuat hingga enam tingkat untuk pengelompokan apa pun.

    Cuplikan layar yang memperlihatkan cara menambahkan grup label.

Anda dapat memilih label di tingkat apa pun selama proses pemberian tag. Misalnya, label Animal, , Animal/Cat, Animal/DogColor, Color/Black, Color/White, dan Color/Silver adalah semua pilihan yang tersedia untuk label. Dalam proyek multi-label, tidak ada persyaratan untuk memilih salah satu dari setiap kategori. Jika itu adalah niat Anda, pastikan untuk menyertakan informasi ini dalam instruksi Anda.

Menjelaskan tugas pelabelan data

Tugas pelabelan perlu dijelaskan secara mendetail. Pada halaman Instruksi pelabelan, Anda bisa menambahkan tautan ke situs eksternal yang memiliki instruksi pelabelan, atau Anda bisa memberikan instruksi dalam kotak edit di halaman. Pertahankan petunjuk tetap berorientasi pada tugas dan sesuai untuk audiens. Pertimbangkan pertanyaan berikut:

  • Apa saja label yang akan dilihat pelabel, dan bagaimana mereka akan memilih di antara mereka? Apakah ada teks referensi untuk dirujuk?
  • Apa yang harus mereka lakukan jika tidak ada label yang tampaknya sesuai?
  • Apa yang harus mereka lakukan jika beberapa label tampaknya sesuai?
  • Ambang batas keyakinan apa yang harus mereka terapkan pada label? Apakah Anda ingin tebakan terbaik pelabel jika mereka tidak yakin?
  • Apa yang harus mereka lakukan dengan objek ketertarikan yang tumpang tindih atau tertutup sebagian?
  • Apa yang harus mereka lakukan jika objek ketertarikan terpotong oleh tepi gambar?
  • Apa yang harus mereka lakukan jika mereka merasa melakukan kesalahan setelah mengirimkan label?
  • Apa yang harus mereka lakukan jika menemukan masalah kualitas gambar, termasuk kondisi pencahayaan yang buruk, pantulan, hilangnya fokus, latar belakang yang tidak diinginkan termasuk, sudut kamera abnormal, dan sebagainya?
  • Apa yang harus mereka lakukan jika beberapa peninjau memiliki pendapat yang berbeda tentang menerapkan label?

Untuk kotak pembatas, pertanyaan penting meliputi:

  • Bagaimana Anda menentukan kotak pembatas untuk tugas ini? Haruskah tetap sepenuhnya pada interior objek atau harus berada di eksterior? Haruskah dipotong sedekat mungkin, atau apakah beberapa penghapusan diizinkan?
  • Tingkat perhatian dan konsistensi apa yang Anda harapkan untuk diterapkan oleh pelabel dalam menentukan kotak pembatas?
  • Apa definisi visual dari setiap kelas label? Dapatkah Anda memberikan daftar kasus normal, tepi, dan penghitung untuk setiap kelas?
  • Apa yang harus dilakukan pelabel jika objek kecil? Haruskah mereka melabelinya sebagai objek atau harus mengabaikan objek tersebut sebagai latar belakang?
  • Bagaimana pelabel harus menangani objek yang hanya ditampilkan sebagian dalam gambar?
  • Bagaimana pelabel harus menangani objek yang sebagian dicakup oleh objek lain?
  • Bagaimana pelabel harus menangani objek yang tidak memiliki batas yang jelas?
  • Bagaimana pelabel harus menangani objek yang bukan merupakan kelas objek yang menarik tetapi memiliki kesamaan visual dengan jenis objek yang relevan?

Catatan

Pelabel dapat memilih sembilan label pertama dengan menggunakan tombol angka 1 hingga 9. Anda mungkin ingin menyertakan informasi ini dalam instruksi Anda.

Kontrol kualitas (pratinjau)

Untuk mendapatkan label yang lebih akurat, gunakan halaman Kontrol kualitas untuk mengirim setiap item ke beberapa pelabel.

Penting

Pelabelan konensus saat ini dalam pratinjau publik.

Versi pratinjau disediakan tanpa perjanjian tingkat layanan, dan tidak disarankan untuk beban kerja produksi. Fitur tertentu mungkin tidak didukung atau mungkin memiliki kemampuan terbatas.

Untuk mengetahui informasi selengkapnya, lihat Ketentuan Penggunaan Tambahan untuk Pratinjau Microsoft Azure.

Untuk meminta setiap item dikirim ke beberapa pelabel, pilih Aktifkan pelabelan konsekuensi (pratinjau). Kemudian atur nilai untuk Pelabel minimum dan Pelabel maksimum untuk menentukan berapa banyak pelabel yang akan digunakan. Pastikan Anda memiliki pelabel sebanyak yang tersedia sebagai jumlah maksimum Anda. Anda tidak dapat mengubah pengaturan ini setelah proyek dimulai.

Jika konsekuensi tercapai dari jumlah minimum pelabel, item akan diberi label. Jika konsekuensi tidak tercapai, item dikirim ke lebih banyak pelabel. Jika tidak ada konensi setelah item masuk ke jumlah maksimum pelabel, statusnya adalah Perlu Ditinjau, dan pemilik proyek bertanggung jawab untuk memberi label item.

Catatan

Proyek Segmentasi Instans tidak dapat menggunakan pelabelan konensus.

Menggunakan pelabelan data terbantu ML

Untuk mempercepat tugas pelabelan, gunakan halaman pelabelan terbantu ML untuk memulai model pembelajaran mesin otomatis. Gambar medis (file dengan .dcm ekstensi) tidak disertakan dalam pelabelan yang dibantu. Jika jenis proyek adalah Segmentasi Semantik (Pratinjau), pelabelan yang dibantu ML tidak tersedia.

Pada awal proyek pelabelan Anda, sistem mengacak item ke dalam urutan acak untuk mengurangi potensi bias. Namun, model terlatih mencerminkan bias apa pun yang ada dalam himpunan data. Misalnya, jika 80% item Anda berasal dari satu kelas, maka sekitar 80% data yang digunakan untuk melatih model milik kelas tersebut.

Untuk mengaktifkan pelabelan terbantu, pilih Aktifkan pelabelan terbantu ML dan tentukan GPU. Jika Anda tidak memiliki GPU di ruang kerja Anda, layanan membuat kluster GPU (nama sumber daya: DefLabelNC6v3, vmsize: Standard_NC6s_v3) dan menambahkannya ke ruang kerja Anda. Kluster dibuat dengan minimal nol simpul, yang berarti tidak ada biaya ketika tidak digunakan.

Pelabelan terbantu ML terdiri dari dua fase:

  • Pengklusteran
  • Pelabelan sebelumnya

Jumlah item data berlabel yang diperlukan untuk memulai pelabelan terbantu bukanlah angka tetap. Jumlah ini dapat bervariasi secara signifikan dari satu proyek pelabelan ke proyek pelabelan lainnya. Untuk beberapa proyek, terkadang mungkin untuk melihat tugas prelabel atau kluster setelah 300 item diberi label secara manual. Pelabelan yang dibantu ML menggunakan teknik yang disebut pembelajaran transfer. Pembelajaran transfer menggunakan model yang telah dilatih sebelumnya untuk memulai proses pelatihan. Jika kelas himpunan data Anda menyerupai kelas dalam model yang telah dilatih sebelumnya, prelabel mungkin tersedia setelah hanya beberapa ratus item berlabel manual. Jika himpunan data Anda secara signifikan berbeda dari data yang digunakan untuk melatih model sebelumnya, prosesnya mungkin membutuhkan lebih banyak waktu.

Saat Anda menggunakan pelabelan konsensus, pelatihan menggunakan label konsensus.

Karena label akhir masih mengandalkan input dari pelabel, teknologi ini terkadang disebut pelabelan human-in-the-loop .

Catatan

Pelabelan data yang dibantu ML tidak mendukung akun penyimpanan default yang diamankan di belakang jaringan virtual. Anda harus menggunakan akun penyimpanan non-default untuk pelabelan data yang dibantu ML. Anda dapat mengamankan akun penyimpanan non-default di belakang jaringan virtual.

Pengklusteran

Setelah Anda mengirimkan beberapa label, model klasifikasi mulai mengelompokkan item serupa. Model ini menyajikan gambar serupa ini kepada pelabel di halaman yang sama untuk membantu membuat pemberian tag manual lebih efisien. Pengklusteran sangat berguna ketika pelabel melihat kisi empat, enam, atau sembilan gambar.

Setelah model pembelajaran mesin dilatih dengan data berlabel manual Anda, model dipangkas hingga ke lapisan terhubung penuh terakhirnya. Proses yang disebut penyematan atau fiturisasi meneruskan gambar yang tidak berlabel melalui model yang dipotong. Proses ini menyematkan setiap gambar dalam ruang dimensi tinggi yang ditentukan lapisan model. Gambar lain di ruang yang terdekat dengan gambar digunakan untuk tugas pengklusteran.

Fase pengklusteran tidak muncul untuk model deteksi objek atau klasifikasi teks.

Pelabelan sebelumnya

Setelah Anda mengirimkan label yang cukup untuk pelatihan, model klasifikasi memprediksi tag, atau model deteksi objek memprediksi kotak pembatas. Pelabel kini melihat halaman yang berisi label yang diprediksi yang sudah ada pada setiap item. Untuk deteksi objek, kotak yang diprediksi juga ditampilkan. Tugas ini melibatkan peninjauan prediksi ini dan memperbaiki gambar yang salah diberi label sebelum pengiriman halaman.

Setelah model pembelajaran mesin melatih data berlabel manual Anda, model tersebut mengevaluasi model pada serangkaian pengujian item berlabel manual. Evaluasi membantu menentukan akurasi model pada ambang keyakinan yang berbeda. Proses evaluasi menetapkan ambang batas keyakinan di mana model cukup akurat untuk menunjukkan prelabel. Model kemudian dievaluasi terhadap data yang tidak berlabel. Item dengan prediksi yang lebih yakin daripada ambang batas digunakan untuk pelabelan sebelumnya.

Menginisialisasi proyek pelabelan data

Setelah proyek pelabelan diinisialisasi, beberapa aspek proyek tidak dapat diubah. Anda tidak bisa mengubah jenis tugas atau himpunan data. Anda dapat mengubah label dan URL untuk deskripsi tugas. Tinjau pengaturan secara seksama sebelum membuat proyek. Setelah mengirimkan proyek, Anda kembali ke halaman gambaran umum Pelabelan Data, yang memperlihatkan proyek sebagai Inisialisasi.

Catatan

Halaman gambaran umum mungkin tidak di-refresh secara otomatis. Setelah jeda, refresh halaman secara manual untuk melihat status proyek sebagai Dibuat.

Pemecahan Masalah

Untuk masalah dalam membuat proyek atau mengakses data, lihat Memecahkan masalah pelabelan data.