Bagikan melalui


Buat dan jelajahi set data Azure Machine Learning dengan label

Penting

Artikel ini memberikan informasi tentang penggunaan Azure Machine Learning SDK v1. SDK v1 tidak digunakan lagi per 31 Maret 2025. Dukungan untuk itu akan berakhir pada 30 Juni 2026. Anda dapat menginstal dan menggunakan SDK v1 hingga tanggal tersebut.

Kami merekomendasikan agar Anda beralih ke SDK v2 sebelum 30 Juni 2026. Untuk informasi selengkapnya tentang SDK v2, lihat Apa itu Azure Machine Learning CLI dan Python SDK v2? dan referensi SDK v2.

Dalam artikel ini, Anda mempelajari cara mengekspor label data dari proyek pelabelan data Azure Machine Learning dan memuatnya ke dalam format populer, seperti kerangka data pandas untuk eksplorasi data.

Apa itu himpunan data dengan label

Himpunan data Azure Machine Learning dengan label disebut himpunan data berlabel. Himpunan data khusus ini merupakan TabularDatasets dengan kolom label khusus dan hanya dibuat sebagai output dari proyek pelabelan data Azure Machine Learning. Membuat proyek pelabelan data untuk pelabelan gambar atau pelabelan teks. Azure Machine Learning mendukung proyek pelabelan data untuk klasifikasi gambar, baik multi-label atau multi-kelas, dan identifikasi objek bersama dengan kotak berbatas.

Prasyarat

Ekspor label data

Saat menyelesaikan proyek pelabelan data, Anda dapat mengekspor data label dari proyek pelabelan. Melakukannya, memungkinkan Anda untuk menangkap referensi ke data dan labelnya, dan mengekspornya dalam format COCO atau sebagai himpunan data Azure Machine Learning.

Gunakan tombol Ekspor pada halaman Detail proyek pelabelan Anda.

Tombol ekspor di antarmuka pengguna studio

COCO

File COCO dibuat di penyimpanan blob default ruang kerja Azure Machine Learning dalam folder dalam ekspor/coco.

Catatan

Dalam proyek deteksi objek, nilai yang diekspor bbox: [x,y,width,height] dalam file COCO dinormalisasi. Mereka diskalakan ke 1. Misalnya, kotak pembatas di lokasi (10, 10), dengan lebar 30 piksel, tinggi 60 piksel, dalam gambar piksel 640x480 dianomasikan sebagai (0,015625. 0,02083, 0,046875, 0,125). Karena koordinat dinormalisasi, koordinat menunjukkan sebagai '0,0' sebagai "lebar" dan "tinggi" untuk semua gambar. Lebar dan tinggi sebenarnya dapat diperoleh dengan menggunakan pustaka Python seperti OpenCV atau Pillow(PIL).

Himpunan data Azure Machine Learning

Anda dapat mengakses himpunan data Azure Machine Learning yang diekspor di bagian Himpunan data di studio Azure Machine Learning Anda. Halaman Detail himpunan data juga menyediakan kode contoh untuk mengakses label Anda dari Python.

Kumpulan data yang diekspor

Petunjuk / Saran

Setelah mengekspor data berlabel ke himpunan data Azure Machine Learning, Anda dapat menggunakan AutoML untuk membangun model visi komputer yang dilatih pada data berlabel Anda. Pelajari selengkapnya di Menyiapkan AutoML untuk melatih model visi komputer dengan Python

Menjelajahi himpunan data berlabel melalui dataframe pandas

Muat himpunan data berlabel Anda ke dalam kerangka data panda untuk menggunakan pustaka sumber terbuka populer untuk eksplorasi data dengan to_pandas_dataframe() metode dari azureml-dataprep kelas .

Pasang kelas dengan perintah shell berikut:

pip install azureml-dataprep

Dalam kode berikut, himpunan data animal_labels adalah keluaran dari proyek pelabelan yang sebelumnya disimpan ke ruang kerja. Himpunan data yang diekspor adalah TabularDataset.

BERLAKU UNTUK:Azure Machine Learning SDK v1 untuk Python

import azureml.core
from azureml.core import Dataset, Workspace

# get animal_labels dataset from the workspace
animal_labels = Dataset.get_by_name(workspace, 'animal_labels')
animal_pd = animal_labels.to_pandas_dataframe()

Langkah berikutnya