Bagikan melalui


Siapkan data untuk tugas visi komputer dengan pembelajaran mesin otomatis v1

BERLAKU UNTUK: Python SDK azureml v1

Penting

Beberapa perintah CLI Azure dalam artikel ini menggunakan ekstensi azure-cli-ml, atau v1, untuk Azure Machine Learning. Dukungan untuk ekstensi v1 akan berakhir pada 30 September 2025. Anda dapat memasang dan menggunakan ekstensi v1 hingga tanggal tersebut.

Kami menyarankan agar Anda beralih ke ekstensi ml, atau v2 sebelum 30 September 2025. Untuk informasi selengkapnya mengenai ekstensi v2, lihat Ekstensi Azure ML CLI dan Python SDK v2.

Penting

Dukungan untuk pelatihan model visi komputer dengan ML otomatis di Azure Machine Learning adalah fitur pratinjau publik eksperimental. Fitur tertentu mungkin tidak didukung atau mungkin memiliki kemampuan terbatas. Untuk mengetahui informasi selengkapnya, lihat Ketentuan Penggunaan Tambahan untuk Pratinjau Microsoft Azure.

Dalam artikel ini, Anda mempelajari cara menyiapkan data gambar untuk melatih model visi komputer dengan pembelajaran mesin otomatis di Azure Machine Learning.

Untuk menghasilkan model untuk tugas visi komputer dengan AutoML, Anda perlu membawa data gambar berlabel sebagai input untuk pelatihan model dalam bentuk Azure Pembelajaran Mesin TabularDataset.

Untuk memastikan TabularDataset Anda berisi skema yang diterima untuk konsumsi dalam ML otomatis, Anda dapat menggunakan alat pelabelan data Azure Machine Learning atau menggunakan skrip konversi.

Prasyarat

Pelabelan data Azure Machine Learning

Jika Anda tidak memiliki data berlabel, Anda dapat menggunakan alat pelabelan data Azure Machine Learning untuk melabeli gambar secara manual. Alat ini secara otomatis menghasilkan data yang diperlukan untuk pelatihan dalam format yang diterima.

Alat tersebut membantu untuk membuat, mengelola, dan memantau tugas pelabelan data untuk

  • Klasifikasi gambar (multi-kelas dan multi-label)
  • Deteksi objek (kotak pembatas)
  • Segmentasi instans (poligon)

Jika Anda sudah memiliki proyek pelabelan data dan ingin menggunakan data tersebut, Anda dapat mengekspor data berlabel Anda sebagai Azure Machine Learning TabularDataset, yang kemudian dapat digunakan secara langsung dengan ML otomatis untuk melatih model visi komputer.

Gunakan skrip konversi

Jika Anda telah memberi label data dalam format data visi komputer populer, seperti VOC atau COCO, skrip pembantu untuk menghasilkan file JSONL untuk melatih dan validasi data tersedia dalam contoh buku catatan.

Jika data Anda tidak mengikuti salah satu format yang disebutkan sebelumnya, Anda dapat menggunakan skrip Anda sendiri untuk membuat file JSON Lines. Untuk menghasilkan file JSON Lines, gunakan skema yang ditentukan dalam Skema untuk file JSONL untuk eksperimen gambar AutoML.

Setelah file data Anda dikonversi ke format JSONL yang diterima, Anda dapat mengunggahnya ke akun penyimpanan Anda di Azure.

Unggah file dan gambar JSONL ke penyimpanan

Untuk menggunakan data untuk pelatihan ML otomatis, unggah data ke ruang kerja Azure Machine Learning Anda melalui penyimpanan data. Penyimpanan data menyediakan mekanisme bagi Anda untuk mengunggah/mengunduh data ke penyimpanan di Azure, dan berinteraksi dengannya dari target komputasi jarak jauh Anda.

Unggah seluruh direktori induk yang terdiri dari gambar dan file JSONL ke penyimpanan data default yang dibuat secara otomatis setelah pembuatan ruang kerja. Penyimpanan data ini tersambung ke kontainer penyimpanan blob Azure default yang dibuat sebagai bagian dari pembuatan ruang kerja.

# Retrieve default datastore that's automatically created when we setup a workspace
ds = ws.get_default_datastore()
ds.upload(src_dir='./fridgeObjects', target_path='fridgeObjects')

Setelah pengunggahan data selesai, Anda dapat membuat Azure Pembelajaran Mesin TabularDataset. Kemudian, daftarkan himpunan data ke ruang kerja Anda untuk digunakan di masa mendatang sebagai input ke eksperimen ML otomatis Anda untuk model visi komputer.

from azureml.core import Dataset
from azureml.data import DataType

training_dataset_name = 'fridgeObjectsTrainingDataset'
# create training dataset
training_dataset = Dataset.Tabular.from_json_lines_files(path=ds.path("fridgeObjects/train_annotations.jsonl"),
                                                         set_column_types={"image_url": DataType.to_stream(ds.workspace)}
                                                        )
training_dataset = training_dataset.register( workspace=ws,name=training_dataset_name)

print("Training dataset name: " + training_dataset.name)

Langkah berikutnya