Konsep data di Azure Pembelajaran Mesin
Dengan Azure Pembelajaran Mesin, Anda dapat mengimpor data dari komputer lokal atau sumber daya penyimpanan berbasis cloud yang ada. Artikel ini menjelaskan konsep data Pembelajaran Mesin Azure utama.
Penyimpanan data
Datastore Azure Pembelajaran Mesin berfungsi sebagai referensi ke akun penyimpanan Azure yang sudah ada. Datastore Azure Pembelajaran Mesin menawarkan manfaat berikut:
- API umum yang mudah digunakan yang berinteraksi dengan jenis penyimpanan yang berbeda (Blob/Files/ADLS).
- Penemuan penyimpanan data yang berguna yang lebih mudah dalam operasi tim.
- Untuk akses berbasis kredensial (perwakilan layanan/SAS/kunci), datastore Azure Pembelajaran Mesin mengamankan informasi koneksi. Dengan cara ini, Anda tidak perlu menempatkan informasi tersebut dalam skrip Anda.
Saat Anda membuat datastore dengan akun penyimpanan Azure yang sudah ada, Anda memiliki dua opsi metode autentikasi yang berbeda:
- Berbasis kredensial - mengautentikasi akses data dengan perwakilan layanan, token tanda tangan akses bersama (SAS), atau kunci akun. Pengguna dengan akses ruang kerja Pembaca dapat mengakses kredensial.
- Berbasis identitas - gunakan identitas Microsoft Entra atau identitas terkelola Anda untuk mengautentikasi akses data.
Tabel ini meringkas layanan penyimpanan berbasis cloud Azure yang dapat dibuat oleh datastore Azure Pembelajaran Mesin. Selain itu, tabel meringkas jenis autentikasi yang dapat mengakses layanan tersebut:
Layanan penyimpanan yang didukung | Autentikasi berbasis informasi masuk | Autentikasi berbasis identitas |
---|---|---|
Azure Blob Container | ✓ | ✓ |
Azure File Share | ✓ | |
Azure Data Lake Gen1 | ✓ | ✓ |
Azure Data Lake Gen2 | ✓ | ✓ |
Untuk informasi selengkapnya tentang penyimpanan data, kunjungi Membuat penyimpanan data.
Penyimpanan data default
Setiap ruang kerja Azure Pembelajaran Mesin memiliki akun penyimpanan default (akun penyimpanan Azure) yang berisi datastore ini:
Tip
Untuk menemukan ID untuk ruang kerja Anda, buka ruang kerja di portal Azure. Perluas Pengaturan, lalu pilih Properti. ID Ruang Kerja muncul.
Nama datastore | Jenis penyimpanan data | Nama penyimpanan data | Deskripsi |
---|---|---|---|
workspaceblobstore |
Kontainer blob | azureml-blobstore-{workspace-id} |
Menyimpan unggahan data, rekam jepret kode pekerjaan, dan cache data alur. |
workspaceworkingdirectory |
Berbagi file | code-{GUID} |
Menyimpan data untuk notebook, instans komputasi, dan alur prompt. |
workspacefilestore |
Berbagi file | azureml-filestore-{workspace-id} |
Kontainer alternatif untuk unggahan data. |
workspaceartifactstore |
Kontainer blob | azureml |
Penyimpanan untuk aset seperti metrik, model, dan komponen. |
Jenis data
URI (lokasi penyimpanan) dapat mereferensikan file, folder, atau tabel data. Definisi input dan output pekerjaan pembelajaran mesin memerlukan salah satu dari tiga jenis data ini:
Jenis | V2 API | V1 API | Skenario Kanonis | Perbedaan API V2/V1 |
---|---|---|---|---|
File Mereferensikan satu file |
uri_file |
FileDataset |
Baca/tulis satu file - file dapat memiliki format apa pun. | Jenis baru untuk API V2. Di API V1, file selalu dipetakan ke folder pada sistem file target komputasi; pemetaan ini memerlukan os.path.join . Di API V2, file tunggal dipetakan. Dengan cara ini, Anda dapat merujuk ke lokasi tersebut dalam kode Anda. |
Folder Mereferensikan satu folder |
uri_folder |
FileDataset |
Anda harus membaca/menulis folder file parket/CSV ke Pandas/Spark. Pembelajaran mendalam dengan file gambar, teks, audio, video yang terletak di folder. |
Di API V1, FileDataset memiliki mesin terkait yang dapat mengambil sampel file dari folder. Di API V2, folder adalah pemetaan sederhana ke sistem file target komputasi. |
Table Mereferensikan tabel data |
mltable |
TabularDataset |
Anda memiliki skema kompleks yang sering mengalami perubahan, atau Anda memerlukan subset data tabular besar. AutoML dengan Tabel. |
Di API V1, Azure Pembelajaran Mesin back-end menyimpan cetak biru materialisasi data. Akibatnya, TabularDataset hanya berfungsi jika Anda memiliki ruang kerja Azure Pembelajaran Mesin. mltable menyimpan cetak biru materialisasi data di penyimpanan Anda . Lokasi penyimpanan ini berarti Anda dapat menggunakannya terputus ke Azure Pembelajaran Mesin - misalnya, secara lokal dan lokal. Di API V2, lebih mudah untuk beralih dari pekerjaan lokal ke jarak jauh. Untuk informasi selengkapnya, kunjungi Bekerja dengan tabel di Azure Pembelajaran Mesin. |
URI
Pengidentifikasi Sumber Daya Seragam (URI) mewakili lokasi penyimpanan di komputer lokal, penyimpanan Azure, atau lokasi http yang tersedia untuk umum. Contoh-contoh ini menunjukkan URI untuk opsi penyimpanan yang berbeda:
Lokasi penyimpanan | Contoh URI |
---|---|
Azure Pembelajaran Mesin Datastore | azureml://datastores/<data_store_name>/paths/<folder1>/<folder2>/<folder3>/<file>.parquet |
Komputer lokal | ./home/username/data/my_data |
Server http publik | https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/titanic.csv |
Penyimpanan Blob | wasbs://<containername>@<accountname>.blob.core.windows.net/<folder>/ |
Azure Data Lake (gen2) | abfss://<file_system>@<account_name>.dfs.core.windows.net/<folder>/<file>.csv |
Azure Data Lake (gen1) | adl://<accountname>.azuredatalakestore.net/<folder1>/<folder2> |
Pekerjaan Azure Pembelajaran Mesin memetakan URI ke sistem file target komputasi. Pemetaan ini berarti bahwa untuk perintah yang menggunakan atau menghasilkan URI, URI tersebut berfungsi seperti file atau folder. URI menggunakan autentikasi berbasis identitas untuk menyambungkan ke layanan penyimpanan, dengan ID Microsoft Entra (default) atau Identitas Terkelola Anda. URI Azure Pembelajaran Mesin Datastore dapat menerapkan autentikasi berbasis identitas, atau berbasis kredensial (misalnya, Perwakilan Layanan, token SAS, kunci akun), tanpa paparan rahasia.
URI dapat berfungsi sebagai input atau output ke pekerjaan Azure Pembelajaran Mesin, dan dapat memetakan ke sistem file target komputasi dengan salah satu dari empat opsi mode yang berbeda:
- Pemasangan baca-saja (
ro_mount
): URI mewakili lokasi penyimpanan yang dipasang ke sistem file target komputasi. Lokasi data yang dipasang secara eksklusif mendukung output baca-saja. - Pemasangan baca-tulis (
rw_mount
): URI mewakili lokasi penyimpanan yang dipasang ke sistem file target komputasi. Lokasi data yang dipasang mendukung output baca darinya dan penulisan data ke dalamnya. - Unduh (
download
): URI mewakili lokasi penyimpanan yang berisi data yang diunduh ke sistem file target komputasi. - Unggah (
upload
): Semua data yang ditulis ke lokasi target komputasi diunggah ke lokasi penyimpanan yang diwakili oleh URI.
Selain itu, Anda dapat meneruskan URI sebagai string input pekerjaan dengan mode langsung . Tabel ini meringkas kombinasi mode yang tersedia untuk input dan output:
Tugas Input atau Output |
upload |
download |
ro_mount |
rw_mount |
direct |
---|---|---|---|---|---|
Input | ✓ | ✓ | ✓ | ||
Output | ✓ | ✓ |
Untuk informasi selengkapnya, kunjungi Mengakses data dalam pekerjaan.
Kemampuan runtime data
Azure Pembelajaran Mesin menggunakan runtime datanya sendiri untuk salah satu dari tiga tujuan:
- untuk pemasangan/unggahan/unduhan
- untuk memetakan URI penyimpanan ke sistem file target komputasi
- untuk mewujudkan data tabular ke dalam panda/spark dengan tabel Azure Pembelajaran Mesin (
mltable
)
Runtime data Azure Pembelajaran Mesin dirancang untuk kecepatan tinggi dan efisiensi tugas pembelajaran mesin yang tinggi. Ini menawarkan manfaat utama ini:
- Arsitektur bahasa karat . Bahasa Rust dikenal dengan kecepatan tinggi dan efisiensi memori yang tinggi.
- Ringan; runtime data Azure Pembelajaran Mesin tidak memiliki dependensi pada teknologi lain - JVM, misalnya - sehingga runtime menginstal dengan cepat pada target komputasi.
- Pemuatan data multi-proses (paralel).
- Pra-pengambilan data beroperasi sebagai tugas latar belakang pada CPU, untuk meningkatkan pemanfaatan GPU dalam operasi pembelajaran mendalam.
- Autentikasi tanpa hambatan ke penyimpanan cloud.
Aset data
Aset data Azure Pembelajaran Mesin menyerupan bookmark browser web (favorit). Alih-alih mengingat jalur penyimpanan panjang (URI) yang menunjuk ke data yang paling sering digunakan, Anda dapat membuat aset data, lalu mengakses aset tersebut dengan nama yang mudah diingat.
Pembuatan aset data juga membuat referensi ke lokasi sumber data, bersama dengan salinan metadatanya. Karena data tetap berada di lokasi yang ada, Anda tidak dikenakan biaya penyimpanan tambahan, dan Anda tidak berisiko integritas sumber data. Anda dapat membuat aset Data dari azure Pembelajaran Mesin datastore, Azure Storage, URL publik, atau file lokal.
Untuk informasi selengkapnya tentang aset data, kunjungi Membuat aset data.