Konsep data di Azure Pembelajaran Mesin

Dengan Azure Pembelajaran Mesin, Anda dapat mengimpor data dari komputer lokal atau sumber daya penyimpanan berbasis cloud yang ada. Artikel ini menjelaskan konsep data Pembelajaran Mesin Azure utama.

Penyimpanan data

Datastore Azure Pembelajaran Mesin berfungsi sebagai referensi ke akun penyimpanan Azure yang sudah ada. Datastore Azure Pembelajaran Mesin menawarkan manfaat berikut:

  • API umum yang mudah digunakan yang berinteraksi dengan jenis penyimpanan yang berbeda (Blob/Files/ADLS).
  • Penemuan penyimpanan data yang berguna yang lebih mudah dalam operasi tim.
  • Untuk akses berbasis kredensial (perwakilan layanan/SAS/kunci), azure Pembelajaran Mesin datastore mengamankan informasi koneksi. Dengan cara ini, Anda tidak perlu menempatkan informasi tersebut dalam skrip Anda.

Saat membuat datastore dengan akun penyimpanan Azure yang sudah ada, Anda dapat memilih di antara dua metode autentikasi yang berbeda:

  • Berbasis kredensial - mengautentikasi akses data dengan perwakilan layanan, token tanda tangan akses bersama (SAS), atau kunci akun. Pengguna dengan akses ruang kerja Pembaca dapat mengakses kredensial.
  • Berbasis identitas - gunakan identitas Microsoft Entra atau identitas terkelola Anda untuk mengautentikasi akses data.

Tabel berikut ini meringkas layanan penyimpanan berbasis cloud Azure yang dapat dibuat oleh datastore Azure Pembelajaran Mesin. Selain itu, tabel meringkas jenis autentikasi yang dapat mengakses layanan tersebut:

Layanan penyimpanan yang didukung Autentikasi berbasis informasi masuk Autentikasi berbasis identitas
Azure Blob Container
Azure File Share
Azure Data Lake Gen1
Azure Data Lake Gen2

Lihat Membuat penyimpanan data untuk informasi selengkapnya tentang penyimpanan data.

Penyimpanan data default

Setiap ruang kerja Azure Pembelajaran Mesin memiliki akun penyimpanan default (akun penyimpanan Azure) yang berisi datastore berikut:

Tip

Untuk menemukan ID untuk ruang kerja Anda, buka ruang kerja di portal Azure. Perluas Pengaturan lalu pilih Properti. ID Ruang Kerja ditampilkan.

Nama datastore Jenis penyimpanan data Nama penyimpanan data Deskripsi
workspaceblobstore Kontainer blob azureml-blobstore-{workspace-id} Menyimpan unggahan data, rekam jepret kode pekerjaan, dan cache data alur.
workspaceworkingdirectory Berbagi file code-{GUID} Menyimpan data untuk notebook, instans komputasi, dan alur prompt.
workspacefilestore Berbagi file azureml-filestore-{workspace-id} Kontainer alternatif untuk unggahan data.
workspaceartifactstore Kontainer blob azureml Penyimpanan untuk aset seperti metrik, model, dan komponen.

Jenis data

URI (lokasi penyimpanan) dapat mereferensikan file, folder, atau tabel data. Definisi input dan output pekerjaan pembelajaran mesin memerlukan salah satu dari tiga jenis data berikut:

Jenis V2 API V1 API Skenario Kanonis Perbedaan API V2/V1
File
Mereferensikan satu file
uri_file FileDataset Baca/tulis satu file - file dapat memiliki format apa pun. Jenis baru untuk API V2. Di API V1, file selalu dipetakan ke folder pada sistem file target komputasi; pemetaan ini memerlukan os.path.join. Di API V2, file tunggal dipetakan. Dengan cara ini, Anda dapat merujuk ke lokasi tersebut dalam kode Anda.
Folder
Mereferensikan satu folder
uri_folder FileDataset Anda harus membaca/menulis folder file parket/CSV ke Pandas/Spark.

Pembelajaran mendalam dengan file gambar, teks, audio, video yang terletak di folder.
Di API V1, FileDataset memiliki mesin terkait yang dapat mengambil sampel file dari folder. Di API V2, Folder adalah pemetaan sederhana ke sistem file target komputasi.
Table
Mereferensikan tabel data
mltable TabularDataset Anda memiliki skema kompleks yang sering mengalami perubahan, atau Anda memerlukan subset data tabular besar.

AutoML dengan Tabel.
Di API V1, Azure Pembelajaran Mesin back-end menyimpan cetak biru materialisasi data. Akibatnya, TabularDataset hanya berfungsi jika Anda memiliki ruang kerja Azure Pembelajaran Mesin. mltable menyimpan cetak biru materialisasi data di penyimpanan Anda . Lokasi penyimpanan ini berarti Anda dapat menggunakannya terputus ke AzureML - misalnya, secara lokal dan lokal. Di API V2, Anda akan merasa lebih mudah untuk beralih dari pekerjaan lokal ke jarak jauh. Lihat Bekerja dengan tabel di Azure Pembelajaran Mesin untuk informasi selengkapnya.

URI

Pengidentifikasi Sumber Daya Seragam (URI) mewakili lokasi penyimpanan di komputer lokal, penyimpanan Azure, atau lokasi http yang tersedia untuk umum. Contoh-contoh ini menunjukkan URI untuk opsi penyimpanan yang berbeda:

Lokasi penyimpanan Contoh URI
Azure Pembelajaran Mesin Datastore azureml://datastores/<data_store_name>/paths/<folder1>/<folder2>/<folder3>/<file>.parquet
Komputer lokal ./home/username/data/my_data
Server http publik https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/titanic.csv
Penyimpanan Blob wasbs://<containername>@<accountname>.blob.core.windows.net/<folder>/
Azure Data Lake (gen2) abfss://<file_system>@<account_name>.dfs.core.windows.net/<folder>/<file>.csv
Azure Data Lake (gen1) adl://<accountname>.azuredatalakestore.net/<folder1>/<folder2>

Pekerjaan Azure Pembelajaran Mesin memetakan URI ke sistem file target komputasi. Pemetaan ini berarti bahwa dalam perintah yang menggunakan atau menghasilkan URI, URI tersebut berfungsi seperti file atau folder. URI menggunakan autentikasi berbasis identitas untuk menyambungkan ke layanan penyimpanan, dengan ID Microsoft Entra Anda (default), atau Identitas Terkelola. URI Azure Pembelajaran Mesin Datastore dapat menerapkan autentikasi berbasis identitas, atau berbasis kredensial (misalnya, Perwakilan Layanan, token SAS, kunci akun), tanpa paparan rahasia.

URI dapat berfungsi sebagai input atau output ke pekerjaan Azure Pembelajaran Mesin, dan dapat memetakan ke sistem file target komputasi dengan salah satu dari empat opsi mode yang berbeda:

  • Pemasangan baca-saja (ro_mount): URI mewakili lokasi penyimpanan yang dipasang ke sistem file target komputasi. Lokasi data yang dipasang mendukung output baca-saja secara eksklusif.
  • Pemasangan baca-tulis (rw_mount): URI mewakili lokasi penyimpanan yang dipasang ke sistem file target komputasi. Lokasi data yang dipasang mendukung output baca darinya dan penulisan data ke dalamnya.
  • Unduh (download): URI mewakili lokasi penyimpanan yang berisi data yang diunduh ke sistem file target komputasi.
  • Unggah (upload): Semua data yang ditulis ke lokasi target komputasi diunggah ke lokasi penyimpanan yang diwakili oleh URI.

Selain itu, Anda dapat meneruskan URI sebagai string input pekerjaan dengan mode langsung . Tabel ini meringkas kombinasi mode yang tersedia untuk input dan output:

Tugas
Input atau Output
upload download ro_mount rw_mount direct
Input
Output

Lihat Mengakses data dalam pekerjaan untuk informasi selengkapnya.

Kemampuan runtime data

Azure Pembelajaran Mesin menggunakan runtime datanya sendiri untuk salah satu dari tiga tujuan:

  • untuk pemasangan/unggahan/unduhan
  • untuk memetakan URI penyimpanan ke sistem file target komputasi
  • untuk mewujudkan data tabular ke dalam panda/spark dengan tabel Azure Pembelajaran Mesin (mltable)

Runtime data Azure Pembelajaran Mesin dirancang untuk kecepatan tinggi dan efisiensi tugas pembelajaran mesin yang tinggi. Ini menawarkan manfaat utama ini:

  • Arsitektur bahasa karat . Bahasa Rust dikenal dengan kecepatan tinggi dan efisiensi memori yang tinggi.
  • Ringan; runtime data Azure Pembelajaran Mesin tidak memiliki dependensi pada teknologi lain - JVM, misalnya - sehingga runtime menginstal dengan cepat pada target komputasi.
  • Pemuatan data multi-proses (paralel).
  • Pra-pengambilan data beroperasi sebagai tugas latar belakang pada CPU, untuk meningkatkan pemanfaatan GPU dalam operasi pembelajaran mendalam.
  • Autentikasi tanpa hambatan ke penyimpanan cloud.

Aset data

Aset data Azure Pembelajaran Mesin menyerupan bookmark browser web (favorit). Alih-alih mengingat jalur penyimpanan panjang (URI) yang menunjuk ke data yang paling sering digunakan, Anda dapat membuat aset data, lalu mengakses aset tersebut dengan nama yang mudah diingat.

Pembuatan aset data juga membuat referensi ke lokasi sumber data, bersama dengan salinan metadatanya. Karena data tetap berada di lokasi yang ada, Anda tidak dikenakan biaya penyimpanan tambahan, dan Anda tidak berisiko integritas sumber data. Anda dapat membuat aset Data dari azure Pembelajaran Mesin datastore, Azure Storage, URL publik, atau file lokal.

Lihat Membuat aset data untuk informasi selengkapnya tentang aset data.

Langkah berikutnya