Konsep data di Azure Pembelajaran Mesin

Artikel
04/13/2024

Dengan Azure Pembelajaran Mesin, Anda dapat mengimpor data dari komputer lokal atau sumber daya penyimpanan berbasis cloud yang ada. Artikel ini menjelaskan konsep data Pembelajaran Mesin Azure utama.

Penyimpanan data

Datastore Azure Pembelajaran Mesin berfungsi sebagai referensi ke akun penyimpanan Azure yang sudah ada. Datastore Azure Pembelajaran Mesin menawarkan manfaat berikut:

API umum yang mudah digunakan yang berinteraksi dengan jenis penyimpanan yang berbeda (Blob/Files/ADLS).
Penemuan penyimpanan data yang berguna yang lebih mudah dalam operasi tim.
Untuk akses berbasis kredensial (perwakilan layanan/SAS/kunci), azure Pembelajaran Mesin datastore mengamankan informasi koneksi. Dengan cara ini, Anda tidak perlu menempatkan informasi tersebut dalam skrip Anda.

Saat membuat datastore dengan akun penyimpanan Azure yang sudah ada, Anda dapat memilih di antara dua metode autentikasi yang berbeda:

Berbasis kredensial - mengautentikasi akses data dengan perwakilan layanan, token tanda tangan akses bersama (SAS), atau kunci akun. Pengguna dengan akses ruang kerja Pembaca dapat mengakses kredensial.
Berbasis identitas - gunakan identitas Microsoft Entra atau identitas terkelola Anda untuk mengautentikasi akses data.

Tabel berikut ini meringkas layanan penyimpanan berbasis cloud Azure yang dapat dibuat oleh datastore Azure Pembelajaran Mesin. Selain itu, tabel meringkas jenis autentikasi yang dapat mengakses layanan tersebut:

Layanan penyimpanan yang didukung	Autentikasi berbasis informasi masuk	Autentikasi berbasis identitas
Azure Blob Container	✓	✓
Azure File Share	✓
Azure Data Lake Gen1	✓	✓
Azure Data Lake Gen2	✓	✓

Lihat Membuat penyimpanan data untuk informasi selengkapnya tentang penyimpanan data.

Penyimpanan data default

Setiap ruang kerja Azure Pembelajaran Mesin memiliki akun penyimpanan default (akun penyimpanan Azure) yang berisi datastore berikut:

Tip

Untuk menemukan ID untuk ruang kerja Anda, buka ruang kerja di portal Azure. Perluas Pengaturan lalu pilih Properti. ID Ruang Kerja ditampilkan.

Nama datastore	Jenis penyimpanan data	Nama penyimpanan data	Deskripsi
`workspaceblobstore`	Kontainer blob	`azureml-blobstore-{workspace-id}`	Menyimpan unggahan data, rekam jepret kode pekerjaan, dan cache data alur.
`workspaceworkingdirectory`	Berbagi file	`code-{GUID}`	Menyimpan data untuk notebook, instans komputasi, dan alur prompt.
`workspacefilestore`	Berbagi file	`azureml-filestore-{workspace-id}`	Kontainer alternatif untuk unggahan data.
`workspaceartifactstore`	Kontainer blob	`azureml`	Penyimpanan untuk aset seperti metrik, model, dan komponen.

Jenis data

URI (lokasi penyimpanan) dapat mereferensikan file, folder, atau tabel data. Definisi input dan output pekerjaan pembelajaran mesin memerlukan salah satu dari tiga jenis data berikut:

Jenis	V2 API	V1 API	Skenario Kanonis	Perbedaan API V2/V1
File Mereferensikan satu file	`uri_file`	`FileDataset`	Baca/tulis satu file - file dapat memiliki format apa pun.	Jenis baru untuk API V2. Di API V1, file selalu dipetakan ke folder pada sistem file target komputasi; pemetaan ini memerlukan `os.path.join`. Di API V2, file tunggal dipetakan. Dengan cara ini, Anda dapat merujuk ke lokasi tersebut dalam kode Anda.
Folder Mereferensikan satu folder	`uri_folder`	`FileDataset`	Anda harus membaca/menulis folder file parket/CSV ke Pandas/Spark. Pembelajaran mendalam dengan file gambar, teks, audio, video yang terletak di folder.	Di API V1, `FileDataset` memiliki mesin terkait yang dapat mengambil sampel file dari folder. Di API V2, Folder adalah pemetaan sederhana ke sistem file target komputasi.
Table Mereferensikan tabel data	`mltable`	`TabularDataset`	Anda memiliki skema kompleks yang sering mengalami perubahan, atau Anda memerlukan subset data tabular besar. AutoML dengan Tabel.	Di API V1, Azure Pembelajaran Mesin back-end menyimpan cetak biru materialisasi data. Akibatnya, `TabularDataset` hanya berfungsi jika Anda memiliki ruang kerja Azure Pembelajaran Mesin. `mltable` menyimpan cetak biru materialisasi data di penyimpanan Anda . Lokasi penyimpanan ini berarti Anda dapat menggunakannya terputus ke AzureML - misalnya, secara lokal dan lokal. Di API V2, Anda akan merasa lebih mudah untuk beralih dari pekerjaan lokal ke jarak jauh. Lihat Bekerja dengan tabel di Azure Pembelajaran Mesin untuk informasi selengkapnya.

URI

Pengidentifikasi Sumber Daya Seragam (URI) mewakili lokasi penyimpanan di komputer lokal, penyimpanan Azure, atau lokasi http yang tersedia untuk umum. Contoh-contoh ini menunjukkan URI untuk opsi penyimpanan yang berbeda:

Lokasi penyimpanan	Contoh URI
Azure Pembelajaran Mesin Datastore	`azureml://datastores/<data_store_name>/paths/<folder1>/<folder2>/<folder3>/<file>.parquet`
Komputer lokal	`./home/username/data/my_data`
Server http publik	`https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/titanic.csv`
Penyimpanan Blob	`wasbs://<containername>@<accountname>.blob.core.windows.net/<folder>/`
Azure Data Lake (gen2)	`abfss://<file_system>@<account_name>.dfs.core.windows.net/<folder>/<file>.csv`
Azure Data Lake (gen1)	`adl://<accountname>.azuredatalakestore.net/<folder1>/<folder2>`

Pekerjaan Azure Pembelajaran Mesin memetakan URI ke sistem file target komputasi. Pemetaan ini berarti bahwa dalam perintah yang menggunakan atau menghasilkan URI, URI tersebut berfungsi seperti file atau folder. URI menggunakan autentikasi berbasis identitas untuk menyambungkan ke layanan penyimpanan, dengan ID Microsoft Entra Anda (default), atau Identitas Terkelola. URI Azure Pembelajaran Mesin Datastore dapat menerapkan autentikasi berbasis identitas, atau berbasis kredensial (misalnya, Perwakilan Layanan, token SAS, kunci akun), tanpa paparan rahasia.

URI dapat berfungsi sebagai input atau output ke pekerjaan Azure Pembelajaran Mesin, dan dapat memetakan ke sistem file target komputasi dengan salah satu dari empat opsi mode yang berbeda:

Pemasangan baca-saja (ro_mount): URI mewakili lokasi penyimpanan yang dipasang ke sistem file target komputasi. Lokasi data yang dipasang mendukung output baca-saja secara eksklusif.
Pemasangan baca-tulis (rw_mount): URI mewakili lokasi penyimpanan yang dipasang ke sistem file target komputasi. Lokasi data yang dipasang mendukung output baca darinya dan penulisan data ke dalamnya.
Unduh (download): URI mewakili lokasi penyimpanan yang berisi data yang diunduh ke sistem file target komputasi.
Unggah (upload): Semua data yang ditulis ke lokasi target komputasi diunggah ke lokasi penyimpanan yang diwakili oleh URI.

Selain itu, Anda dapat meneruskan URI sebagai string input pekerjaan dengan mode langsung . Tabel ini meringkas kombinasi mode yang tersedia untuk input dan output:

Tugas Input atau Output	`upload`	`download`	`ro_mount`	`rw_mount`	`direct`
Input		✓	✓		✓
Output	✓			✓

Lihat Mengakses data dalam pekerjaan untuk informasi selengkapnya.

Kemampuan runtime data

Azure Pembelajaran Mesin menggunakan runtime datanya sendiri untuk salah satu dari tiga tujuan:

untuk pemasangan/unggahan/unduhan
untuk memetakan URI penyimpanan ke sistem file target komputasi
untuk mewujudkan data tabular ke dalam panda/spark dengan tabel Azure Pembelajaran Mesin (mltable)

Runtime data Azure Pembelajaran Mesin dirancang untuk kecepatan tinggi dan efisiensi tugas pembelajaran mesin yang tinggi. Ini menawarkan manfaat utama ini:

Arsitektur bahasa karat . Bahasa Rust dikenal dengan kecepatan tinggi dan efisiensi memori yang tinggi.
Ringan; runtime data Azure Pembelajaran Mesin tidak memiliki dependensi pada teknologi lain - JVM, misalnya - sehingga runtime menginstal dengan cepat pada target komputasi.
Pemuatan data multi-proses (paralel).
Pra-pengambilan data beroperasi sebagai tugas latar belakang pada CPU, untuk meningkatkan pemanfaatan GPU dalam operasi pembelajaran mendalam.
Autentikasi tanpa hambatan ke penyimpanan cloud.

Aset data

Aset data Azure Pembelajaran Mesin menyerupan bookmark browser web (favorit). Alih-alih mengingat jalur penyimpanan panjang (URI) yang menunjuk ke data yang paling sering digunakan, Anda dapat membuat aset data, lalu mengakses aset tersebut dengan nama yang mudah diingat.

Pembuatan aset data juga membuat referensi ke lokasi sumber data, bersama dengan salinan metadatanya. Karena data tetap berada di lokasi yang ada, Anda tidak dikenakan biaya penyimpanan tambahan, dan Anda tidak berisiko integritas sumber data. Anda dapat membuat aset Data dari azure Pembelajaran Mesin datastore, Azure Storage, URL publik, atau file lokal.

Lihat Membuat aset data untuk informasi selengkapnya tentang aset data.