Data dalam Azure Machine Learning v1
BERLAKU UNTUK: Ekstensi ml Azure CLI v1
BERLAKU UNTUK: Python SDK azureml v1
Azure Machine Learning memudahkan Anda tersambung ke data Anda di cloud. Ini menyediakan lapisan abstraksi atas layanan penyimpanan yang mendasar, sehingga Anda dapat mengakses dan bekerja dengan aman dengan data Anda tanpa perlu menulis kode khusus untuk jenis penyimpanan Anda. Azure Pembelajaran Mesin juga menyediakan kemampuan data ini:
- Interoperabilitas dengan Panda dan Spark DataFrame
- Penerapan versi dan pelacakan silsilah data
- Pelabelan data
- Pemantauan penyimpangan data
Alur kerja data
Untuk menggunakan data dalam solusi penyimpanan berbasis cloud Anda, kami merekomendasikan alur kerja pengiriman data ini. Alur kerja mengasumsikan bahwa Anda memiliki akun penyimpanan Azure, dan data dalam layanan penyimpanan berbasis cloud Azure.
Membuat datastore Azure Pembelajaran Mesin untuk menyimpan informasi koneksi ke penyimpanan Azure Anda
Dari datastore tersebut, buat himpunan data Azure Pembelajaran Mesin untuk menunjuk ke file atau file tertentu di penyimpanan yang mendasar
Untuk menggunakan himpunan data tersebut dalam eksperimen pembelajaran mesin, Anda dapat
Pasang himpunan data ke target komputasi eksperimen Anda, untuk pelatihan model
ATAU
Gunakan himpunan data langsung di solusi Azure Pembelajaran Mesin - misalnya, eksperimen pembelajaran mesin otomatis (ML otomatis), alur pembelajaran mesin, atau perancang Azure Pembelajaran Mesin.
Membuat monitor himpunan data untuk himpunan data output model Anda untuk mendeteksi penyimpangan data
Untuk penyimpangan data yang terdeteksi, perbarui himpunan data input Anda dan latih kembali model Anda dengan sesuai
Cuplikan layar ini memperlihatkan alur kerja yang direkomendasikan:
Menyambungkan ke penyimpanan dengan penyimpanan data
Azure Pembelajaran Mesin datastore menghosting informasi koneksi penyimpanan data Anda dengan aman di Azure, sehingga Anda tidak perlu menempatkan informasi tersebut dalam skrip Anda. Untuk informasi selengkapnya tentang menyambungkan ke akun penyimpanan dan akses data di layanan penyimpanan yang mendasar, kunjungi Mendaftar dan membuat datastore.
Layanan penyimpanan berbasis cloud Azure yang didukung ini dapat mendaftar sebagai penyimpanan data:
- Azure Blob Container
- Azure File Share
- Azure Data Lake
- Azure Data Lake Gen2
- Database Azure SQL
- Azure Database untuk PostgreSQL
- Sistem File Databricks
- Azure Database untuk MySQL
Tip
Anda dapat membuat datastore dengan autentikasi berbasis kredensial untuk mengakses layanan penyimpanan, misalnya perwakilan layanan atau token tanda tangan akses bersama (SAS). Pengguna dengan akses Pembaca ke ruang kerja dapat mengakses kredensial ini.
Jika ini menjadi perhatian, kunjungi membuat datastore yang menggunakan akses data berbasis identitas untuk informasi selengkapnya tentang koneksi ke layanan penyimpanan.
Mereferensikan data dalam penyimpanan dengan himpunan data
Himpunan data Azure Machine Learning bukanlah salinan data Anda. Pembuatan himpunan data itu sendiri membuat referensi ke data dalam layanan penyimpanannya, bersama dengan salinan metadatanya.
Karena himpunan data jarang dievaluasi, dan data tetap berada di lokasi yang ada, Anda
- Tidak dikenai biaya penyimpanan tambahan
- Jangan ambil risiko perubahan yang tidak disengaja pada sumber data asli Anda
- Meningkatkan kecepatan performa alur kerja ML
Untuk berinteraksi dengan data Anda di penyimpanan, buat himpunan data mengemas data Anda ke dalam objek yang dapat dikonsumsi untuk tugas pembelajaran mesin. Daftarkan himpunan data ke ruang kerja Anda, untuk berbagi dan menggunakannya kembali di berbagai eksperimen tanpa kompleksitas penyerapan data.
Anda dapat membuat himpunan data dari file lokal, url publik, Azure Open Datasets, atau layanan penyimpanan Azure melalui penyimpanan data.
Ada dua jenis himpunan data:
FileDataset adalah satu atau beberapa file di penyimpanan data atau URL publik Anda. Jika data Anda sudah dibersihkan dan siap untuk eksperimen pelatihan, Anda dapat mengunduh atau memasang file yang direferensikan oleh FileDatasets ke target komputasi Anda
TabularDataset mewakili data dalam format tabular, dengan mengurai file atau daftar file yang disediakan. Anda dapat memuat TabularDataset ke Pandas atau Spark DataFrame untuk manipulasi dan pembersihan lebih lanjut. Untuk daftar lengkap format data tempat Anda dapat membuat TabularDatasets, kunjungi kelas TabularDatasetFactory
Sumber daya ini menawarkan informasi selengkapnya tentang kemampuan himpunan data:
- Versi dan lacak silsilah data
- Memantau himpunan data Anda untuk membantu deteksi penyimpangan data
Bekerja dengan data Anda
Dengan himpunan data, Anda dapat menyelesaikan tugas pembelajaran mesin melalui integrasi yang mulus dengan fitur Azure Pembelajaran Mesin.
- Membuat proyek pelabelan data
- Melatih model pembelajaran mesin:
- Mengakses himpunan data untuk penilaian dengan inferensi batch dalam alur pembelajaran mesin
- Menyiapkan monitor himpunan data untuk deteksi penyimpangan data
Memberi label data dengan proyek pelabelan data
Pelabelan data dalam volume besar dalam proyek pembelajaran mesin dapat menjadi sakit kepala. Proyek yang melibatkan komponen visi komputer, seperti klasifikasi gambar atau deteksi objek, sering memerlukan ribuan gambar dan label yang sesuai.
Azure Pembelajaran Mesin menyediakan lokasi pusat untuk membuat, mengelola, dan memantau proyek pelabelan. Proyek pelabelan membantu mengoordinasikan data, label, dan anggota tim, sehingga Anda dapat mengelola tugas pelabelan dengan lebih efisien. Tugas yang saat ini didukung melibatkan klasifikasi gambar, baik multi-label atau multi-kelas, dan identifikasi objek menggunakan kotak terikat.
Buat proyek pelabelan gambar dan proyek pelabelan teks, lalu hasilkan himpunan data untuk digunakan dalam eksperimen pembelajaran mesin.
Memantau performa model dengan penyimpangan data
Dalam konteks pembelajaran mesin, penyimpangan data melibatkan perubahan data input model yang menyebabkan penurunan performa model. Ini adalah alasan utama bahwa akurasi model terdegradasi dari waktu ke waktu, dan pemantauan penyimpangan data membantu mendeteksi masalah performa model.
Untuk informasi selengkapnya, kunjungi Membuat monitor himpunan data untuk mempelajari cara mendeteksi dan memperingatkan penyimpangan data pada data baru dalam himpunan data.
Langkah berikutnya
- Membuat himpunan data di studio Azure Pembelajaran Mesin atau dengan Python SDK
- Mencoba contoh pelatihan himpunan data dengan buku catatan sampel kami