Bagikan melalui


Menyambungkan ke data dengan studio Pembelajaran Mesin Microsoft Azure

Artikel ini memperlihatkan cara mengakses data Anda dengan studio Azure Pembelajaran Mesin. Sambungkan ke data Anda di layanan penyimpanan Azure dengan penyimpanan data Azure Pembelajaran Mesin. Kemudian, kemas data tersebut untuk tugas alur kerja ML dengan himpunan data Azure Pembelajaran Mesin.

Tabel ini menentukan dan meringkas manfaat penyimpanan data dan himpunan data.

Objek Deskripsi Keuntungan
Datastore Untuk menyambungkan dengan aman ke layanan penyimpanan Anda di Azure, simpan informasi koneksi Anda (ID langganan, otorisasi token, dll.) di Key Vault yang terkait dengan ruang kerja Karena informasi Anda disimpan dengan aman, Anda tidak membahayakan kredensial autentikasi atau sumber data asli, dan Anda tidak perlu lagi membuat kode keras nilai-nilai ini dalam skrip Anda
Himpunan data Pembuatan himpunan data juga membuat referensi ke lokasi sumber data, bersama dengan salinan metadatanya. Dengan himpunan data, Anda dapat mengakses data selama pelatihan model, berbagi data, dan berkolaborasi dengan pengguna lain, dan menggunakan pustaka sumber terbuka, seperti panda, untuk eksplorasi data. Karena himpunan data dievaluasi dengan malas, dan data tetap berada di lokasi yang ada, Anda menyimpan satu salinan data di penyimpanan Anda. Selain itu, Anda tidak dikenakan biaya penyimpanan tambahan, Anda menghindari perubahan yang tidak disengaja pada sumber data asli Anda, dan meningkatkan kecepatan performa alur kerja ML.

Untuk mempelajari di mana datastore dan himpunan data sesuai dengan keseluruhan alur kerja akses data Azure Pembelajaran Mesin, kunjungi Mengakses data dengan aman.

Untuk informasi selengkapnya tentang Azure Pembelajaran Mesin Python SDK dan pengalaman pertama kode, lihat:

Prasyarat

  • Langganan Azure. Jika Anda tidak memiliki langganan Azure, buat akun gratis sebelum Anda memulai. Coba versi gratis atau berbayar Azure Pembelajaran Mesin

  • Akses ke studio Azure Pembelajaran Mesin

  • Ruang kerja Azure Machine Learning. Membuat sumber daya ruang kerja

    • Saat Anda membuat ruang kerja, kontainer blob Azure dan berbagi file Azure secara otomatis didaftarkan ke ruang kerja sebagai penyimpanan data. Mereka dinamai workspaceblobstore dan workspacefilestore, masing-masing. Untuk sumber daya penyimpanan blob yang workspaceblobstore memadai, diatur sebagai datastore default, sudah dikonfigurasi untuk digunakan. Jika Anda memerlukan lebih banyak sumber daya penyimpanan blob, Anda memerlukan akun penyimpanan Azure, dengan jenis penyimpanan yang didukung.

Membuat datastore

Anda dapat membuat datastore dari solusi penyimpanan Azure ini. Untuk solusi penyimpanan yang tidak didukung, dan untuk menghemat biaya keluar data selama eksperimen Pembelajaran Mesin, Anda harus memindahkan data Anda ke solusi penyimpanan Azure yang didukung. Untuk informasi selengkapnya tentang datastore, kunjungi sumber daya ini.

Anda dapat membuat penyimpanan data dengan akses berbasis info masuk atau akses berbasis identitas.

Buat datastore baru dengan studio Azure Pembelajaran Mesin.

Penting

Jika akun penyimpanan data Anda terletak di jaringan virtual, langkah-langkah konfigurasi tambahan diperlukan untuk memastikan bahwa studio dapat mengakses data Anda. Kunjungi Isolasi jaringan & privasi untuk informasi selengkapnya tentang langkah-langkah konfigurasi yang sesuai.

  1. Masuk ke Studio Azure Machine Learning.
  2. Pilih Data di panel kiri di bawah Aset.
  3. Di bagian atas, pilih Penyimpanan data.
  4. Pilih +Buat.
  5. Lengkapi formulir untuk membuat dan mendaftarkan datastore baru. Formulir diperbarui dengan cerdas berdasarkan pilihan Anda untuk jenis penyimpanan Azure dan jenis autentikasi. Untuk informasi selengkapnya tentang tempat menemukan kredensial autentikasi yang diperlukan untuk mengisi formulir ini, kunjungi bagian akses penyimpanan dan izin.

Cuplikan layar ini memperlihatkan panel pembuatan datastore blob Azure:

Cuplikan layar memperlihatkan panel pembuatan datastore blob Azure.

Membuat aset data

Setelah Anda membuat datastore, buat himpunan data untuk berinteraksi dengan data Anda. Himpunan data mengemas data Anda ke dalam objek yang dapat dikonsumsi dengan malas untuk tugas pembelajaran mesin - misalnya, pelatihan. Kunjungi Membuat himpunan data Azure Pembelajaran Mesin untuk informasi selengkapnya tentang himpunan data.

Himpunan data memiliki dua jenis: FileDataset dan TabularDataset. FileDatasets membuat referensi ke satu atau beberapa file, atau URL publik. TabularDatasets mewakili data dalam format tabular. Anda dapat membuat TabularDatasets dari

  • .csv
  • .tsv
  • .parquet
  • .json file, dan dari hasil kueri SQL.

Langkah-langkah berikut menjelaskan cara membuat himpunan data di azure Pembelajaran Mesin studio.

Catatan

Himpunan data yang dibuat melalui studio Azure Machine Learning secara otomatis didaftarkan ke ruang kerja.

  1. Menavigasi ke studio Azure Pembelajaran Mesin

  2. Di bawah Aset di navigasi kiri, pilih Data. Pada tab Aset data, pilih Buat Cuplikan layar memperlihatkan Buat di tab Aset data.

  3. Beri nama aset data dan deskripsi opsional. Kemudian, di bawah Jenis, pilih jenis Himpunan Data, baik File atau Tabular. Cuplikan layar memperlihatkan pengaturan nama, deskripsi, dan jenis aset data.

  4. Panel Sumber data terbuka berikutnya, seperti yang diperlihatkan dalam cuplikan layar ini:

Cuplikan layar ini memperlihatkan panel pemilihan sumber data.

Anda memiliki opsi yang berbeda untuk sumber data Anda. Untuk data yang sudah disimpan di Azure, pilih "Dari penyimpanan Azure." Untuk mengunggah data dari drive lokal Anda, pilih "Dari file lokal." Untuk data yang disimpan di lokasi web publik, pilih "Dari file web." Anda juga dapat membuat aset data dari database SQL, atau dari Azure Open Datasets.

  1. Pada langkah pemilihan file, pilih lokasi tempat Azure harus menyimpan data Anda, dan file data yang ingin Anda gunakan.

    1. Aktifkan lewati validasi jika data Anda berada dalam jaringan virtual. Pelajari selengkapnya tentang isolasi dan privasi jaringan virtual.
  2. Ikuti langkah-langkah untuk mengatur pengaturan penguraian data dan skema untuk aset data Anda. Pengaturan telah diisi sebelumnya berdasarkan jenis file, dan Anda dapat mengonfigurasi pengaturan anda lebih lanjut sebelum pembuatan aset data.

  3. Setelah Anda mencapai langkah Tinjau, pilih Buat di halaman terakhir

Pratinjau dan profil data

Setelah membuat himpunan data, verifikasi bahwa Anda dapat melihat pratinjau dan profil di studio:

  1. Masuk ke Studio Pembelajaran Mesin Microsoft Azure
  2. Di bawah Aset di navigasi kiri, pilih Data. Cuplikan layar menyoroti Buat di tab Aset data.
  3. Pilih nama himpunan data yang ingin Anda tampilkan.
  4. Pilih tab Jelajahi.
  5. Pilih tab Pratinjau . Cuplikan layar memperlihatkan pratinjau himpunan data.
  6. Pilih tab Profil . Cuplikan layar memperlihatkan metadata kolom himpunan data di tab Profil.

Anda dapat menggunakan statistik ringkasan di seluruh himpunan data Anda untuk memverifikasi apakah himpunan data Anda siap untuk ML. Untuk kolom non-numerik, statistik ini hanya menyertakan statistik dasar - misalnya, jumlah min, maks, dan kesalahan. Kolom numerik menawarkan momen statistik dan perkiraan kuantil.

Profil data himpunan data Azure Pembelajaran Mesin meliputi:

Catatan

Entri kosong muncul untuk fitur dengan jenis yang tidak relevan.

Statistik Deskripsi
Fitur Nama kolom ringkasan
Profil Visualisasi dalam baris berdasarkan jenis yang disimpulkan. String, boolean, dan tanggal memiliki jumlah nilai. Desimal (numerik) memiliki perkiraan histogram. Visualisasi ini menawarkan pemahaman cepat tentang distribusi data
Distribusi jenis Jumlah nilai dalam baris dari jenis dalam kolom. Null adalah jenisnya sendiri, sehingga visualisasi ini dapat mendeteksi nilai ganjil atau hilang
Jenis Jenis kolom yang disimpulkan. Nilai yang mungkin termasuk: string, boolean, tanggal, dan desimal
Min Nilai minimum kolom. Entri kosong muncul untuk fitur yang jenisnya tidak memiliki urutan yang melekat (misalnya, boolean)
Maks Nilai maksimum kolom.
Hitung Jumlah total entri yang hilang dan tidak aktif dalam kolom
Jumlah yang tidak hilang Jumlah entri dalam kolom yang tidak hilang. String dan kesalahan kosong diperlakukan sebagai nilai, sehingga tidak berkontribusi pada "jumlah tidak hilang."
Kuantil Perkiraan nilai pada setiap kuantil, untuk memberikan rasa distribusi data
Rata-rata Rata-rata aritmatika atau rata-rata kolom
Simpangan baku Mengukur jumlah dispersi atau variasi untuk data kolom ini
Varian Mengukur seberapa jauh data kolom ini tersebar dari nilai rata-ratanya
Kemiringan Mengukur perbedaan data kolom ini dari distribusi normal
Kurtosis Mengukur tingkat "keekor" data kolom ini, dibandingkan dengan distribusi normal

Akses dan izin penyimpanan

Untuk memastikan bahwa Anda terhubung dengan aman ke layanan penyimpanan Azure, Azure Pembelajaran Mesin mengharuskan Anda memiliki izin untuk mengakses penyimpanan data yang sesuai. Akses ini bergantung pada kredensial autentikasi yang digunakan untuk mendaftarkan datastore.

Jaringan virtual

Jika akun penyimpanan data Anda berada di jaringan virtual, langkah-langkah konfigurasi tambahan diperlukan untuk memastikan bahwa Azure Pembelajaran Mesin memiliki akses ke data Anda. Lihat Menggunakan studio Azure Machine Learning dalam jaringan virtual untuk memastikan langkah-langkah konfigurasi yang sesuai telah diterapkan saat Anda membuat dan mendaftarkan penyimpanan data Anda.

Validasi akses

Peringatan

Akses antar penyewa ke akun penyimpanan tidak didukung. Jika skenario Anda memerlukan akses lintas penyewa, silakan hubungi alias tim Dukungan Data Azure Pembelajaran Mesin di amldatasupport@microsoft.com untuk bantuan dengan solusi kode kustom.

Sebagai bagian dari proses pembuatan dan pendaftaran datastore awal, Azure Pembelajaran Mesin secara otomatis memvalidasi bahwa layanan penyimpanan yang mendasar ada dan bahwa prinsipal yang disediakan pengguna (nama pengguna, perwakilan layanan, atau token SAS) memiliki akses ke penyimpanan yang ditentukan.

Setelah pembuatan datastore, validasi ini hanya dilakukan untuk metode yang memerlukan akses ke kontainer penyimpanan yang mendasar. Validasi tidak dilakukan setiap kali objek datastore diambil. Misalnya, validasi terjadi saat Anda mengunduh file dari datastore Anda. Namun, jika Anda ingin mengubah datastore default Anda, validasi tidak terjadi.

Untuk mengautentikasi akses Anda ke layanan penyimpanan yang mendasar, berikan kunci akun Anda, token tanda tangan akses bersama (SAS), atau perwakilan layanan, sesuai dengan jenis datastore yang ingin Anda buat. Daftar matriks jenis penyimpanan mencantumkan jenis autentikasi yang didukung yang sesuai dengan setiap jenis datastore.

Anda dapat menemukan kunci akun, token SAS, dan informasi perwakilan layanan di portal Azure Anda.

  • Untuk mendapatkan kunci akun untuk autentikasi, pilih Akun Penyimpanan di panel kiri, dan pilih akun penyimpanan yang ingin Anda daftarkan

    • Halaman Ringkasan menyediakan informasi seperti nama akun, kontainer, dan nama berbagi file.
    • Perluas node Keamanan + jaringan di navigasi kiri
    • Pilih Kunci akses
    • Nilai kunci yang tersedia berfungsi sebagai nilai kunci Akun
  • Untuk mendapatkan token SAS untuk autentikasi, pilih Akun Penyimpanan di panel kiri, dan pilih akun penyimpanan yang Anda inginkan

    • Untuk mendapatkan nilai kunci Access, perluas node Keamanan + jaringan di navigasi kiri
    • Pilih Tanda tangan akses bersama
    • Selesaikan proses untuk menghasilkan nilai SAS
  • Untuk menggunakan perwakilan layanan untuk autentikasi, buka Pendaftaran aplikasi Anda dan pilih aplikasi mana yang ingin Anda gunakan.

    • Halaman Gambaran Umum yang sesuai berisi informasi yang diperlukan seperti ID penyewa dan ID klien.

Penting

  • Untuk mengubah kunci akses Anda untuk akun Azure Storage (kunci akun atau token SAS), pastikan untuk menyinkronkan kredensial baru dengan ruang kerja Anda dan datastore yang terhubung ke dalamnya. Untuk informasi selengkapnya, kunjungi menyinkronkan kredensial yang diperbarui.
  • Jika Anda membatalkan pendaftaran lalu mendaftarkan ulang datastore dengan nama yang sama, dan pendaftaran ulang tersebut gagal, Azure Key Vault untuk ruang kerja Anda mungkin tidak mengaktifkan penghapusan sementara. Secara default, penghapusan sementara diaktifkan untuk instans brankas kunci yang dibuat oleh ruang kerja Anda, tetapi mungkin tidak diaktifkan jika Anda menggunakan brankas kunci yang sudah ada atau memiliki ruang kerja yang dibuat sebelum Oktober 2020. Untuk informasi selengkapnya tentang cara mengaktifkan penghapusan sementara, kunjungi Mengaktifkan Penghapusan Sementara untuk brankas kunci yang ada.

Izin

Untuk kontainer blob Azure dan penyimpanan Azure Data Lake Gen 2, pastikan kredensial autentikasi Anda memiliki akses Pembaca Data Blob Penyimpanan. Pelajari selengkapnya tentang Storage Blob Data Reader. Secara default, token SAS akun tidak memiliki izin.

  • Untuk akses baca data, kredensial autentikasi Anda harus memiliki minimal izin daftar dan baca untuk kontainer dan objek.

  • Untuk akses tulis data, izin tulis dan tambahkan juga diperlukan.

Latih dengan set data

Gunakan himpunan data Anda dalam eksperimen pembelajaran mesin untuk melatih model ML. Pelajari selengkapnya tentang cara berlatih dengan himpunan data.

Langkah berikutnya