Buat dan jelajahi set data Azure Machine Learning dengan label
Dalam artikel ini, Anda akan mempelajari cara mengekspor label data dari proyek pelabelan data Azure Machine Learning dan memuatnya ke dalam format populer seperti, dataframe pandas untuk eksplorasi data.
Apa itu himpunan data dengan label
Himpunan data Azure Machine Learning dengan label disebut himpunan data berlabel. Himpunan data khusus ini merupakan TabularDatasets dengan kolom label khusus dan hanya dibuat sebagai output dari proyek pelabelan data Azure Machine Learning. Membuat proyek pelabelan data untuk pelabelan gambar atau pelabelan teks. Azure Machine Learning mendukung proyek pelabelan data untuk klasifikasi gambar, baik multi-label atau multi-kelas, dan identifikasi objek bersama dengan kotak berbatas.
Prasyarat
- Langganan Azure. Jika Anda tidak memiliki langganan Azure, buat akun gratis sebelum memulai.
- Azure Machine Learning SDK for Python, atau akses ke Azure Machine Learning studio.
- Ruang kerja Azure Machine Learning. Lihat Membuat sumber daya ruang kerja.
- Akses ke proyek pelabelan data Azure Machine Learning. Jika Anda tidak memiliki proyek pelabelan, pertama-tama buatlah pelabelan gambar atau pelabelan teks.
Ekspor label data
Saat menyelesaikan proyek pelabelan data, Anda dapat mengekspor data label dari proyek pelabelan. Melakukannya, memungkinkan Anda untuk menangkap referensi ke data dan labelnya, dan mengekspornya dalam format COCO atau sebagai himpunan data Azure Machine Learning.
Gunakan tombol Ekspor pada halaman Detail proyek pelabelan Anda.
COCO
File COCO dibuat di penyimpanan blob default ruang kerja Azure Machine Learning dalam folder dalam ekspor/coco.
Catatan
Dalam proyek deteksi objek, nilai "bbox": [x,y,width,height]" yang diekspor dalam file COCO dinormalisasi. Mereka diskalakan ke 1. Contoh : kotak pembatas di lokasi (10, 10), dengan lebar 30 piksel , tinggi 60 piksel, dalam gambar 640x480 piksel akan diberi keterangan sebagai (0,015625. 0,02083, 0,046875, 0,125). Karena koordinat dinormalisasi, itu akan ditampilkan sebagai '0,0' sebagai "lebar" dan "tinggi" untuk semua gambar. Lebar dan tinggi sebenarnya dapat diperoleh dengan menggunakan pustaka Python seperti OpenCV atau Pillow(PIL).
Himpunan data Azure Machine Learning
Anda dapat mengakses himpunan data Azure Machine Learning yang diekspor di bagian Himpunan data di studio Azure Machine Learning Anda. Halaman Detail himpunan data juga menyediakan kode contoh untuk mengakses label Anda dari Python.
Tip
Setelah mengekspor data berlabel ke himpunan data Azure Machine Learning, Anda dapat menggunakan AutoML untuk membangun model visi komputer yang terlatih pada data berlabel Anda. Pelajari selengkapnya di Menyiapkan AutoML untuk melatih model visi komputer dengan Python
Menjelajahi himpunan data berlabel melalui dataframe pandas
Muat kumpulan data berlabel Anda ke dalam dataframe pandas untuk memanfaatkan pustaka sumber terbuka populer untuk eksplorasi data dengan metode to_pandas_dataframe()
dari kelas azureml-dataprep
.
Pasang kelas dengan perintah shell berikut:
pip install azureml-dataprep
Dalam kode berikut, himpunan data animal_labels
adalah keluaran dari proyek pelabelan yang sebelumnya disimpan ke ruang kerja.
Himpunan data yang diekspor adalah TabularDataset.
BERLAKU UNTUK: Python SDK azureml v1
import azureml.core
from azureml.core import Dataset, Workspace
# get animal_labels dataset from the workspace
animal_labels = Dataset.get_by_name(workspace, 'animal_labels')
animal_pd = animal_labels.to_pandas_dataframe()
import matplotlib.pyplot as plt
import matplotlib.image as mpimg
#read images from dataset
img = mpimg.imread(animal_pd['image_url'].iloc(0).open())
imgplot = plt.imshow(img)
Langkah berikutnya
Saran dan Komentar
https://aka.ms/ContentUserFeedback.
Segera hadir: Sepanjang tahun 2024 kami akan menghentikan penggunaan GitHub Issues sebagai mekanisme umpan balik untuk konten dan menggantinya dengan sistem umpan balik baru. Untuk mengetahui informasi selengkapnya, lihat:Kirim dan lihat umpan balik untuk