Menyambungkan ke data dengan studio Pembelajaran Mesin Microsoft Azure
Dalam artikel ini, pelajari cara mengakses data Anda dengan studio Pembelajaran Mesin Microsoft Azure. Sambungkan ke data Anda di layanan penyimpanan di Azure dengan datastore Pembelajaran Mesin Microsoft Azure, lalu ke paketkan data tersebut untuk tugas di alur kerja Pembelajaran Mesin Anda dengan himpunan data Pembelajaran Mesin Microsoft Azure.
Tabel berikut menentukan dan meringkas manfaat datastore dan himpunan data.
Objek | Deskripsi | Keuntungan |
---|---|---|
Datastore | Sambungkan dengan aman ke layanan penyimpanan Anda di Azure, dengan menyimpan informasi koneksi Anda, seperti ID langganan dan otorisasi token di Key Vault yang terkait dengan ruang kerja | Karena informasi Anda disimpan dengan aman, Anda |
Himpunan data | Dengan membuat kumpulan data, Anda membuat referensi ke lokasi sumber data, bersama dengan salinan metadatanya. Dengan himpunan data, Anda dapat, |
Karena himpunan data dievaluasi dengan malas, dan data tetap berada di lokasi yang ada, Anda |
Untuk memahami tempat yang sesuai bagi penyimpanan data dan himpunan data di alur kerja akses data keseluruhan pada Azure Machine Learning, lihat artikel Mengakses data dengan aman.
Untuk pengalaman pertama terkait kode, lihat artikel berikut ini untuk menggunakan Pembelajaran Mesin Microsoft Azure Python SDK untuk:
- Menyambung ke layanan penyimpanan Azure dengan datastore.
- Membuat himpunan data Pembelajaran Mesin Microsoft Azure.
Prasyarat
Langganan Azure. Jika Anda tidak memiliki langganan Azure, buat akun gratis sebelum Anda memulai. Coba versi gratis atau berbayar Azure Machine Learning.
Ruang kerja Azure Machine Learning. Membuat sumber daya ruang kerja.
- Saat Anda membuat ruang kerja, kontainer blob Azure dan pembagian file Azure secara otomatis terdaftar sebagai datastore ke ruang kerja. Mereka dinamai
workspaceblobstore
danworkspacefilestore
, masing-masing. Jika penyimpanan blob cukup untuk kebutuhan Anda,workspaceblobstore
diatur sebagai datastore default, dan sudah dikonfigurasi untuk digunakan. Jika tidak, Anda memerlukan akun penyimpanan di Azure dengan jenis penyimpanan yang didukung.
- Saat Anda membuat ruang kerja, kontainer blob Azure dan pembagian file Azure secara otomatis terdaftar sebagai datastore ke ruang kerja. Mereka dinamai
Membuat datastore
Anda dapat membuat datastore dari solusi penyimpanan Azure ini. Untuk solusi penyimpanan yang tidak didukung, dan untuk menghemat biaya keluar data selama eksperimen Pembelajaran Mesin, Anda harus memindahkan data Anda ke solusi penyimpanan Azure yang didukung. Pelajari selengkapnya tentang datastore.
Anda dapat membuat penyimpanan data dengan akses berbasis info masuk atau akses berbasis identitas.
Buat datastore baru dalam beberapa langkah dengan studio Pembelajaran Mesin Microsoft Azure.
Penting
Jika akun penyimpanan data Anda berada dalam jaringan virtual, langkah-langkah konfigurasi tambahan diperlukan untuk memastikan studio memiliki akses ke data Anda. Lihat Isolasi jaringan & privasi untuk memastikan langkah konfigurasi yang sesuai telah diterapkan.
- Masuk ke Studio Azure Machine Learning.
- Pilih Data di panel kiri di bawah Aset.
- Di bagian atas, pilih Penyimpanan data.
- Pilih +Buat.
- Lengkapi formulir untuk membuat dan mendaftarkan datastore baru. Formulir diperbarui dengan cerdas berdasarkan pilihan Anda untuk jenis penyimpanan Azure dan jenis autentikasi. Lihat bagian akses penyimpanan dan izin untuk memahami tempat menemukan kredensial autentikasi yang Anda perlukan untuk mengisi formulir ini.
Contoh berikut menunjukkan seperti apa formulir saat Anda membuat datastore blob Azure:
Membuat aset data
Setelah Anda membuat datastore, buat himpunan data untuk berinteraksi dengan data Anda. Himpunan data mengemas data Anda ke dalam objek habis pakai yang dievaluasi dengan malas untuk tugas pembelajaran mesin, seperti pelatihan. Pelajari selengkapnya tentang himpunan data.
Ada dua jenis himpunan data, FileDataset dan TabularDataset. FileDataset membuat referensi ke satu atau beberapa file atau URL publik. Sedangkan, TabularDatasets mewakili data Anda dalam format tabular. Anda dapat membuat TabularDatasets dari file .csv, .tsv, .parquet, .jsonl, dan dari hasil kueri SQL.
Langkah-langkah berikut menjelaskan cara membuat himpunan data di azure Pembelajaran Mesin studio.
Catatan
Himpunan data yang dibuat melalui studio Azure Machine Learning secara otomatis didaftarkan ke ruang kerja.
Menavigasi ke studio Azure Pembelajaran Mesin
Di bawah Aset di navigasi kiri, pilih Data. Pada tab Aset data, pilih Buat
Beri nama aset data Anda dan deskripsi opsional. Kemudian, di bawah Jenis, pilih salah satu jenis Himpunan Data, baik File atau Tabular.
Anda memiliki beberapa opsi untuk sumber data Anda. Jika data Anda sudah disimpan di Azure, pilih "Dari penyimpanan Azure". Jika Anda ingin mengunggah data dari drive lokal, pilih "Dari file lokal". Jika data Anda disimpan di lokasi web publik, pilih "Dari file web". Anda juga dapat membuat aset data dari database SQL, atau dari Azure Open Datasets.
Untuk langkah pemilihan file, pilih di mana Anda ingin data Anda disimpan di Azure, dan file data apa yang ingin Anda gunakan.
- Aktifkan lewati validasi jika data Anda berada dalam jaringan virtual. Pelajari selengkapnya tentang isolasi dan privasi jaringan virtual.
Ikuti langkah-langkah untuk mengatur pengaturan penguraian data dan skema untuk aset data Anda. Pengaturan akan diisi sebelumnya berdasarkan jenis file dan Anda dapat mengonfigurasi pengaturan anda lebih lanjut sebelum membuat aset data.
Setelah Anda mencapai langkah Tinjau, klik Buat di halaman terakhir
Pratinjau dan profil data
Setelah membuat himpunan data, verifikasi bahwa Anda dapat melihat pratinjau dan profil di studio dengan langkah-langkah berikut:
- Masuk ke Studio Pembelajaran Mesin Microsoft Azure
- Di bawah Aset di navigasi kiri, pilih Data.
- Pilih nama himpunan data yang ingin Anda tampilkan.
- Pilih tab Jelajahi.
- Pilih tab Pratinjau .
- Pilih tab Profil .
Anda bisa mendapatkan berbagai statistik ringkasan di seluruh himpunan data Anda untuk memverifikasi apakah himpunan data Anda siap untuk Pembelajaran Mesin. Untuk kolom nonnumerik, kolom hanya menyertakan statistik dasar seperti minimum, maksimum, dan jumlah kesalahan. Untuk kolom numerik, Anda juga dapat meninjau momen statistik dan perkiraan kuantitasinya.
Secara khusus, profil data himpunan data Pembelajaran Mesin Microsoft Azure meliputi:
Catatan
Entri kosong muncul untuk fitur dengan jenis yang tidak relevan.
Statistik | Deskripsi |
---|---|
Fitur | Nama kolom yang sedang diringkas. |
Profil | Visualisasi sejajar berdasarkan jenis yang disimpulkan. Misalnya, string, boolean, dan tanggal akan memiliki jumlah nilai, sementara desimal (numerik) memiliki perkiraan histogram. Ini memungkinkan Anda untuk mendapatkan pemahaman yang cepat tentang distribusi data. |
Distribusi jenis | Jumlah nilai dalam baris dari jenis dalam kolom. Null adalah jenisnya sendiri, sehingga visualisasi ini berguna untuk mendeteksi nilai yang ganjil atau hilang. |
Jenis | Jenis kolom yang disimpulkan. Nilai yang mungkin termasuk: string, boolean, tanggal, dan desimal. |
Min | Nilai minimum kolom. Entri kosong muncul untuk fitur yang jenisnya tidak memiliki urutan yang melekat (seperti, boolean). |
Maks | Nilai maksimum kolom. |
Hitung | Jumlah total entri yang hilang dan tidak hilang dalam kolom. |
Jumlah yang tidak hilang | Jumlah entri dalam kolom yang tidak hilang. Kesalahan dan string kosong diperlakukan sebagai nilai, sehingga tidak akan berkontribusi pada "jumlah yang tidak hilang". |
Kuantil | Perkiraan nilai pada setiap kuantil untuk memberikan nuansa distribusi data. |
Rata-rata | Nilai rata-rata aritmetika dari kolom. |
Simpangan baku | Mengukur jumlah dispersi atau variasi data kolom ini. |
Varian | Mengukur seberapa jauh penyebaran data kolom ini dari nilai rata-ratanya. |
Kemiringan | Mengukur seberapa berbeda data kolom ini dari distribusi normal. |
Kurtosis | Mengukur seberapa mengekor data kolom ini dibandingkan dengan distribusi normal. |
Akses dan izin penyimpanan
Untuk memastikan Anda tersambung dengan aman ke layanan penyimpanan Azure Anda, Azure Machine Learning mengharuskan Anda memiliki izin untuk mengakses penyimpanan data terkait. Akses ini bergantung pada kredensial autentikasi yang digunakan untuk mendaftarkan datastore.
Jaringan virtual
Jika akun penyimpanan data Anda berada dalam jaringan virtual, langkah konfigurasi tambahan diperlukan untuk memastikan Azure Machine Learning memiliki akses ke data Anda. Lihat Menggunakan studio Azure Machine Learning dalam jaringan virtual untuk memastikan langkah-langkah konfigurasi yang sesuai telah diterapkan saat Anda membuat dan mendaftarkan penyimpanan data Anda.
Validasi akses
Peringatan
Akses antar penyewa ke akun penyimpanan tidak didukung. Jika akses lintas penyewa diperlukan untuk skenario Anda, silakan hubungi alias tim Dukungan Data Azure Pembelajaran Mesin di amldatasupport@microsoft.com untuk bantuan dengan solusi kode kustom.
Sebagai bagian dari proses pembuatan dan pendaftaran datastore awal, Pembelajaran Mesin Microsoft Azure secara otomatis memvalidasi bahwa layanan penyimpanan yang mendasarinya tersedia dan hal-hal utama yang disediakan pengguna (nama pengguna, perwakilan layanan, atau token SAS) memiliki akses ke penyimpanan yang ditentukan.
Setelah pembuatan datastore, validasi ini hanya dilakukan untuk metode yang memerlukan akses ke kontainer penyimpanan yang mendasarinya, bukan setiap kali objek datastore diambil. Misalnya, validasi terjadi jika Anda ingin mengunduh file dari datastore Anda; tetapi jika Anda hanya ingin mengubah datastore default Anda, validasi tidak terjadi.
Untuk mengautentikasi akses Anda ke layanan penyimpanan yang mendasarinya, Anda dapat menyediakan kunci akun, token tanda tangan akses bersama (SAS), atau perwakilan layanan sesuai dengan jenis datastore yang ingin Anda buat. Daftar matriks jenis penyimpanan mencantumkan jenis autentikasi yang didukung yang sesuai dengan setiap jenis datastore.
Anda dapat menemukan informasi kunci akun, token SAS, dan perwakilan layanan di portal Microsoft Azure Anda.
Jika Anda berencana menggunakan kunci akun atau token SAS untuk autentikasi, pilih Akun Penyimpanan di panel kiri, dan pilih akun penyimpanan yang ingin Anda daftarkan.
- Halaman Ringkasan menyediakan informasi seperti nama akun, kontainer, dan nama berbagi file.
- Untuk kunci akun, masuk ke Tombol akses di panel Pengaturan.
- Untuk token SAS, buka Tanda tangan akses bersama di panel Pengaturan.
- Halaman Ringkasan menyediakan informasi seperti nama akun, kontainer, dan nama berbagi file.
Jika Anda berencana menggunakan perwakilan layanan untuk autentikasi, buka Pendaftaran aplikasi dan pilih aplikasi mana yang ingin Anda gunakan.
- Halaman Ringkasan terkait akan berisi informasi yang diperlukan seperti ID penyewa dan ID klien.
Penting
- Jika Anda perlu mengubah kunci akses untuk akun Azure Storage (kunci akun atau token SAS), pastikan untuk menyinkronkan kredensial baru dengan ruang kerja Anda dan datastore yang terhubung dengannya. Pelajari cara menyinkronkan kredensial yang diperbarui.
- Jika Anda membatalkan pendaftaran dan mendaftarkan ulang datastore dengan nama yang sama, kemudian gagal, Azure Key Vault untuk ruang kerja Anda mungkin tidak mengaktifkan penghapusan sementara. Secara default, penghapusan sementara diaktifkan untuk instans brankas kunci yang dibuat oleh ruang kerja Anda, tetapi mungkin tidak diaktifkan jika Anda menggunakan brankas kunci yang sudah ada atau memiliki ruang kerja yang dibuat sebelum Oktober 2020. Untuk informasi tentang cara mengaktifkan penghapusan sementara, lihat Mengaktifkan Penghapusan Sementara untuk key vault yang ada.
Izin
Untuk kontainer blob Azure dan penyimpanan Azure Data Lake Gen 2, pastikan kredensial autentikasi Anda memiliki akses Storage Blob Data Reader. Pelajari selengkapnya tentang Storage Blob Data Reader. Pengaturan default token SAS akun adalah tidak memiliki izin.
Untuk akses baca data, kredensial autentikasi Anda harus memiliki minimal izin daftar dan baca untuk kontainer dan objek.
Untuk akses tulis data, izin tulis dan tambahkan juga diperlukan.
Latih dengan set data
Gunakan himpunan data Anda dalam eksperimen pembelajaran mesin untuk melatih model ML. Pelajari selengkapnya tentang cara berlatih dengan himpunan data.
Langkah berikutnya
Contoh pelatihan langkah demi langkah terkait TabularDatasets dan pembelajaran mesin otomatis.
Untuk contoh pelatihan himpunan data lainnya, lihat buku catatan sampel.
Saran dan Komentar
https://aka.ms/ContentUserFeedback.
Segera hadir: Sepanjang tahun 2024 kami akan menghentikan penggunaan GitHub Issues sebagai mekanisme umpan balik untuk konten dan menggantinya dengan sistem umpan balik baru. Untuk mengetahui informasi selengkapnya, lihat:Kirim dan lihat umpan balik untuk