Data di Azure Machine Learning v1

BERLAKU UNTUK:Ekstensi ml Azure CLI v1

BERLAKU UNTUK:Python SDK azureml v1

Azure Machine Learning memudahkan Anda tersambung ke data Anda di cloud. Ini menyediakan lapisan abstraksi atas layanan penyimpanan utama, sehingga Anda dapat mengakses dan mengerjakan data Anda dengan aman tanpa harus menulis kode khusus untuk jenis penyimpanan Anda. Azure Machine Learning juga memiliki kapabilitas data berikut:

  • Interoperabilitas dengan Panda dan Spark DataFrame
  • Penerapan versi dan pelacakan silsilah data
  • Pelabelan data
  • Pemantauan penyimpangan data

Alur kerja data

Jika Anda siap menggunakan data dalam solusi penyimpanan berbasis cloud, kami merekomendasikan alur kerja pengiriman data berikut. Alur kerja ini mengasumsikan bahwa Anda memiliki akun penyimpanan Azure dan data dalam layanan penyimpanan berbasis cloud di Azure.

  1. Buat penyimpanan data Azure Machine Learning untuk menyimpan informasi koneksi ke penyimpanan Azure.

  2. Dari penyimpanan data tersebut, buat himpunan data Azure Machine Learning untuk mengarahkan ke file tertentu di penyimpanan utama Anda.

  3. Untuk menggunakan himpunan data tersebut dalam eksperimen pembelajaran mesin, Anda dapat

    • Memasangnya ke target komputasi eksperimen guna pelatihan model.

      ATAU

    • Menggunakannya langsung di solusi Azure Machine Learning seperti, eksekusi eksperimen pembelajaran mesin otomatis (ML otomatis), alur pembelajaran mesin, atau perancang Azure Machine Learning.

  4. Buat monitor himpunan data untuk output model Anda untuk mendeteksi penyimpangan data.

  5. Jika penyimpangan data terdeteksi, perbarui himpunan data input dan latih kembali model.

Diagram berikut menyajikan demonstrasi visual alur kerja yang direkomendasikan ini.

Diagram memperlihatkan Layanan Azure Storage yang mengalir ke penyimpanan data, yang mengalir ke dalam himpunan data.

Menyambungkan ke penyimpanan dengan penyimpanan data

Penyimpanan data Azure Machine Learning menyimpan informasi koneksi dengan aman ke penyimpanan data Anda di Azure, sehingga Anda tidak perlu mengodekannya dalam skrip Anda. Daftarkan dan buat penyimpanan data untuk tersambung dengan mudah ke akun penyimpanan Anda, dan akses data di layanan penyimpanan utama Anda.

Layanan penyimpanan berbasis cloud yang didukung di Azure yang dapat didaftarkan sebagai penyimpanan data:

  • Azure Blob Container
  • Azure File Share
  • Azure Data Lake
  • Azure Data Lake Gen2
  • Azure SQL Database
  • Azure Database untuk PostgreSQL
  • Sistem File Databricks
  • Azure Database untuk MySQL

Tip

Anda dapat membuat penyimpanan data dengan autentikasi berbasis info masuk untuk mengakses layanan penyimpanan, seperti perwakilan layanan atau token tanda tangan akses bersama (SAS). Informasi masuk ini dapat diakses oleh pengguna yang memiliki akses Pembaca ke ruang kerja.

Jika ini menjadi masalah, buat penyimpanan data yang menggunakan akses data berbasis identitas untuk menghubungkan ke layanan penyimpanan.

Mereferensikan data dalam penyimpanan dengan himpunan data

Himpunan data Azure Machine Learning bukanlah salinan data Anda. Dengan membuat himpunan data, Anda membuat referensi ke data di layanan penyimpanannya, beserta salinan metadatanya.

Karena himpunan data jarang dievaluasi, dan data tetap berada di lokasi yang ada, Anda

  • Tidak dikenakan biaya penyimpanan tambahan.
  • Tidak berisiko mengubah sumber data asli Anda secara tidak sengaja.
  • Meningkatkan kecepatan performa alur kerja ML.

Untuk berinteraksi dengan data Anda di penyimpanan, buat himpunan data mengemas data Anda ke dalam objek yang dapat dikonsumsi untuk tugas pembelajaran mesin. Daftarkan himpunan data ke ruang kerja Anda untuk membagikan dan menggunakannya kembali di berbagai eksperimen tanpa kompleksitas penyerapan data.

Himpunan data dapat dibuat dari file lokal, url publik, Azure Open Datasets, atau layanan penyimpanan Azure melalui penyimpanan data.

Ada 2 jenis himpunan data:

  • FileDataset adalah satu atau beberapa file di penyimpanan data atau URL publik Anda. Jika data Anda sudah dibersihkan dan siap digunakan dalam eksperimen pelatihan, Anda dapat mengunduh atau memasang file direferensikan oleh FileDataset ke target komputasi Anda.

  • TabularDataset adalah data dalam format tabular dengan mengurai file atau daftar file yang disediakan. Anda dapat memuat TabularDataset ke Pandas atau Spark DataFrame untuk manipulasi dan pembersihan lebih lanjut. Untuk daftar lengkap format data tempat Anda dapat membuat TabularDatasets, lihat kelas TabularDatasetFactory.

Kapabilitas himpunan data lainnya dapat ditemukan dalam dokumentasi berikut:

Bekerja dengan data Anda

Dengan himpunan data, Anda dapat menyelesaikan sejumlah tugas pembelajaran mesin melalui integrasi yang lancar dengan fitur Azure Machine Learning.

Memberi label data dengan proyek pelabelan data

Pelabelan data dalam jumlah besar sering membingungkan dalam proyek pembelajaran mesin. Mereka yang memiliki komponen visi komputer, seperti klasifikasi gambar atau deteksi objek, umumnya memerlukan ribuan gambar dan label yang sesuai.

Azure Machine Learning memberi Anda lokasi terpusat untuk membuat, mengelola, dan memantau proyek pelabelan. Proyek pelabelan membantu mengoordinasikan data, label, dan anggota tim, sehingga Anda dapat mengelola tugas pelabelan secara lebih efisien. Tugas yang didukung saat ini adalah klasifikasi gambar, baik multi-label atau multi-kelas, dan identifikasi objek menggunakan kotak terikat.

Buat proyek pelabelan gambar dan proyek pelabelan teks, lalu hasilkan himpunan data untuk digunakan dalam eksperimen pembelajaran mesin.

Memantau performa model dengan penyimpangan data

Dalam konteks pembelajaran mesin, penyimpangan adalah perubahan data input model yang menyebabkan penurunan performa model. Ini adalah salah satu alasan utama penurunan akurasi model dari waktu ke waktu, sehingga memantau penyimpangan data akan membantu mendeteksi masalah performa model.

Lihat artikel Membuat monitor himpunan data, untuk mempelajari lebih lanjut cara mendeteksi dan memberi tahu tentang penyimpangan pada data baru dalam himpunan data.

Langkah berikutnya