Bagikan melalui


Ekspor ke Azure Blob Storage

Penting

Dukungan untuk Studio Azure Machine Learning (klasik) akan berakhir pada 31 Agustus 2024. Sebaiknya Anda transisi ke Azure Machine Learning sebelum tanggal tersebut.

Mulai 1 Desember 2021, Anda tidak akan dapat membuat sumber daya Studio Azure Machine Learning (klasik) baru. Hingga 31 Agustus 2024, Anda dapat terus menggunakan sumber daya Pembelajaran Mesin Studio (klasik) yang ada.

ML Dokumentasi Studio (klasik) sedang berhenti dan mungkin tidak diperbarui di masa mendatang.

Artikel ini menjelaskan cara menggunakan opsi Ekspor ke Azure Blob Storage, dalam modul Ekspor Data di Pembelajaran Mesin Studio (klasik).

Catatan

Berlaku untuk: Pembelajaran Mesin Studio (klasik) saja

Modul drag-and-drop serupa tersedia di Azure Machine Learning desainer.

Opsi ini berguna saat Anda ingin mengekspor data dari eksperimen pembelajaran mesin ke Azure Blob Storage. Misalnya, Anda mungkin ingin berbagi output data pembelajaran mesin dengan aplikasi lain, atau menyimpan data perantara atau data data yang dibersihkan untuk digunakan dalam eksperimen lain.

Blob Azure dapat diakses dari mana saja, dengan menggunakan HTTP atau HTTPS. Karena Azure Blob Storage adalah penyimpanan data yang tidak terstruktur, Anda dapat mengekspor data dalam berbagai format. Saat ini, format CSV, TSV, dan ARFF didukung.

Untuk mengekspor data ke blob Azure untuk digunakan oleh aplikasi lain, Anda menggunakan modul Ekspor Data untuk menyimpan data ke Azure Blob Storage. Kemudian, gunakan alat apa pun yang dapat membaca data dari penyimpanan Azure (seperti Excel, utilitas penyimpanan cloud, atau layanan cloud lainnya), untuk memuat dan menggunakan data.

Catatan

Modul Impor Data dan Ekspor Data dapat membaca dan menulis data hanya dari penyimpanan Azure yang dibuat menggunakan model penyebaran Klasik. Dengan kata lain, jenis akun Azure Blob Storage baru yang menawarkan tingkat akses penyimpanan panas dan dingin belum didukung.

Umumnya, setiap akun penyimpanan Azure yang mungkin telah Anda buat sebelum opsi layanan ini tersedia tidak boleh terpengaruh.

Namun, jika Anda perlu membuat akun baru untuk digunakan dengan Pembelajaran Mesin, kami sarankan Anda memilih Classic untuk model Deployment, atau menggunakan Resource manager dan untuk jenis Akun, pilih Tujuan umum daripada penyimpanan Blob.

Cara mengekspor data ke Azure Blob Storage

Layanan blob Azure adalah untuk menyimpan data dalam jumlah besar, termasuk data biner. Ada dua jenis penyimpanan blob: blob publik, dan blob yang memerlukan kredensial login.

  1. Tambahkan modul Ekspor Data ke eksperimen Anda. Anda dapat menemukan modul ini dalam kategori Input dan Output Data di Studio (klasik).

  2. Koneksi Ekspor Data ke modul yang menghasilkan data yang ingin Anda ekspor ke Azure Blob Storage.

  3. Buka panel Properti Dari Data Ekspor. Untuk tujuan data, pilih Azure Blob Storage.

  4. Untuk Jenis Autentikasi, pilih Publik (URL SAS) jika Anda tahu bahwa penyimpanan mendukung akses melalui URL SAS.

    URL SAS adalah jenis URL khusus yang dapat dihasilkan dengan menggunakan utilitas penyimpanan Azure, dan hanya tersedia untuk waktu yang terbatas. Ini berisi semua informasi yang diperlukan untuk otentikasi dan unduhan.

    Untuk URI, ketik atau tempelkan URI penuh yang menentukan akun dan blob publik.

  5. Untuk akun pribadi, pilih Akun, dan berikan nama akun dan kunci akun, sehingga eksperimen dapat menulis ke akun penyimpanan.

    • Nama akun: Ketik atau tempelkan nama akun tempat Anda ingin menyimpan data. Misalnya, jika URL lengkap akun penyimpanan adalah https://myshared.blob.core.windows.net, Anda akan mengetik myshared.

    • Kunci akun: Tempel kunci akses penyimpanan yang terkait dengan akun.

  6. Jalur ke kontainer, direktori, atau blob: Ketik nama blob tempat data yang diekspor akan disimpan. Misalnya, untuk menyimpan hasil eksperimen Anda ke blob baru bernama results01.csv dalam prediksi kontainer di akun bernama mymldata, URL lengkap untuk blob https://mymldata.blob.core.windows.net/predictions/results01.csvadalah .

    Oleh karena itu, di bidang Path ke container, directory, atau blob, Anda akan menentukan nama kontainer dan blob sebagai berikut: predictions/results01.csv

  7. Jika Anda menentukan nama blob yang belum ada, Azure akan membuat blob untuk Anda.

    Saat menulis ke blob yang ada, Anda dapat menentukan bahwa konten blob saat ini ditimpa dengan mengatur properti, Azure Blob Storage mode tulis. Secara default, properti ini diatur ke Kesalahan, yang berarti bahwa kesalahan dinaikkan setiap kali file blob yang ada dengan nama yang sama ditemukan.

  8. Untuk Format file untuk file blob, pilih format di mana data harus disimpan.

    • CSV: Nilai yang dipisahkan koma (CSV) adalah format penyimpanan default. Untuk mengekspor judul kolom bersama dengan data, pilih opsi, Tulis baris header blob. Untuk informasi selengkapnya tentang format yang dibatasi koma yang digunakan dalam Pembelajaran Mesin, lihat Mengonversi ke CSV.

    • TSV: Format nilai yang dipisahkan tab (TSV) kompatibel dengan banyak alat pembelajaran mesin. Untuk mengekspor judul kolom bersama dengan data, pilih opsi, Tulis baris header blob. Untuk informasi selengkapnya tentang format terpisah tab yang digunakan dalam Pembelajaran Mesin, lihat Mengonversi ke TSV.

    • ARFF: Format ini mendukung penyimpanan file dalam format yang digunakan oleh toolset Weka. Format ini tidak didukung untuk file yang disimpan dalam URL SAS. Untuk informasi selengkapnya tentang format ARFF, lihat Mengonversi ke ARFF.

  9. Gunakan hasil cache: Pilih opsi ini jika Anda ingin menghindari penulisan ulang hasil ke file blob setiap kali Anda menjalankan eksperimen. Jika tidak ada perubahan lain pada parameter modul, eksperimen hanya menulis hasil saat pertama kali modul dijalankan, atau ketika ada perubahan pada data.

Contoh

Untuk contoh cara menggunakan modul Ekspor Data , lihat Galeri AI Azure:

Catatan teknis

Bagian ini berisi detail implementasi, tips, dan jawaban atas pertanyaan yang sering diajukan.

Pertanyaan umum

Bagaimana saya bisa menghindari menulis data jika percobaan tidak berubah

Saat hasil eksperimen Berubah, Ekspor Data selalu menyimpan himpunan data baru. Namun, jika Anda menjalankan eksperimen berulang kali tanpa membuat perubahan yang memengaruhi data output, Anda dapat memilih opsi Gunakan hasil yang di-cache .

Modul memeriksa apakah eksperimen telah berjalan sebelumnya menggunakan data yang sama dan opsi yang sama, dan jika run sebelumnya ditemukan, operasi tulis tidak diulang.

Dapatkah saya menyimpan data ke akun di wilayah geografis yang berbeda

Ya, Anda dapat menulis data ke akun di berbagai wilayah. Namun, jika akun penyimpanan berada di wilayah yang berbeda dari node komputasi yang digunakan untuk eksperimen pembelajaran mesin, akses data mungkin lebih lambat. Selain itu, Anda dikenakan biaya untuk masuknya data dan keluar pada langganan.

Parameter modul

Opsi umum

Nama Rentang Jenis Default Deskripsi
Sumber data Daftar Sumber data atau sink Azure Blob Storage Tujuannya bisa berupa file di penyimpanan Blob Azure, tabel Azure, tabel atau tampilan dalam Azure SQL Database, atau tabel Hive.
Menggunakan hasil cache BENAR/SALAH Boolean FALSE Modul hanya dijalankan jika cache yang valid tidak ada; jika tidak, gunakan data cache dari eksekusi sebelumnya.
Harap tentukan tipe autentikasi SAS/Akun AuthenticationType Akun Menunjukkan apakah KREDENSIAL SAS atau akun harus digunakan untuk otorisasi akses

Publik atau SAS - Opsi penyimpanan publik

Nama Rentang Jenis Default Deskripsi
SAS URI untuk blob apa pun String tidak ada SAS URI dari blob yang akan ditulis (diperlukan)
Format file untuk file SAS ARFF

CSV

TSV
LoaderUtils.FileTypes CSV Menunjukkan apakah file tersebut CSV, TSV, atau ARFF. (wajib diisi)
Tulis baris header SAS BENAR/SALAH Boolean FALSE Menunjukkan apakah judul kolom harus ditulis ke file

Akun - Opsi penyimpanan pribadi

Nama Rentang Jenis Default Deskripsi
Azure account name apa pun String tidak ada Azure user account name
Azure account key apa pun SecureString tidak ada Kunci penyimpanan Azure
Jalur ke blob dimulai dengan kontainer apa pun String tidak ada Nama file blob, dimulai dengan nama kontainer
Azure Blob Storage mode tulis Daftar: Kesalahan, Menimpa enum:BlobFileWriteMode Kesalahan Pilih metode penulisan file blob
Format file untuk berkas blob ARFF

CSV

TSV
LoaderUtils.FileTypes CSV Menunjukkan apakah file blob adalah CSV, TSV, atau ARFF
Menulis baris header blob BENAR/SALAH Boolean FALSE Menunjukkan apakah file blob harus memiliki baris header

Pengecualian

Pengecualian Deskripsi
Kesalahan 0027 Pengecualian terjadi ketika dua objek harus berukuran sama, tetapi tidak.
Kesalahan 0003 Pengecualian terjadi jika satu atau lebih input null atau kosong.
Kesalahan 0029 Pengecualian terjadi ketika URI yang tidak valid dilewatkan.
Kesalahan 0030 pengecualian terjadi ketika tidak mungkin mengunduh file.
Kesalahan 0002 Pengecualian terjadi jika satu atau beberapa parameter tidak dapat diurai atau dikonversi dari tipe yang ditentukan ke jenis yang diperlukan oleh metode target.
Kesalahan 0009 Pengecualian terjadi jika nama akun penyimpanan Azure atau nama kontainer ditentukan secara tidak benar.
Kesalahan 0048 Pengecualian terjadi ketika tidak mungkin untuk membuka file.
Kesalahan 0046 Pengecualian terjadi ketika tidak mungkin membuat direktori pada jalur tertentu.
Kesalahan 0049 Pengecualian terjadi ketika tidak mungkin mengurai file.

Untuk daftar kesalahan khusus untuk modul Studio (klasik), lihat Pembelajaran Mesin Kode kesalahan.

Untuk daftar pengecualian API, lihat Pembelajaran Mesin Kode Kesalahan REST API.

Lihat juga

Mengimpor data
Mengekspor data
Ekspor ke Azure SQL Database
Ekspor ke Kueri Hive
Ekspor ke Azure Table