Ekspor ke Azure Blob Storage
Penting
Dukungan untuk Studio Azure Machine Learning (klasik) akan berakhir pada 31 Agustus 2024. Sebaiknya Anda transisi ke Azure Machine Learning sebelum tanggal tersebut.
Mulai 1 Desember 2021, Anda tidak akan dapat membuat sumber daya Studio Azure Machine Learning (klasik) baru. Hingga 31 Agustus 2024, Anda dapat terus menggunakan sumber daya Pembelajaran Mesin Studio (klasik) yang ada.
- Lihat informasi tentang memindahkan proyek pembelajaran mesin dari ML Studio (klasik) ke Azure Machine Learning.
- Mer informasjon tentang Azure Machine Learning.
ML Dokumentasi Studio (klasik) sedang berhenti dan mungkin tidak diperbarui di masa mendatang.
Artikel ini menjelaskan cara menggunakan opsi Ekspor ke Azure Blob Storage, dalam modul Ekspor Data di Pembelajaran Mesin Studio (klasik).
Catatan
Berlaku untuk: Pembelajaran Mesin Studio (klasik) saja
Modul drag-and-drop serupa tersedia di Azure Machine Learning desainer.
Opsi ini berguna saat Anda ingin mengekspor data dari eksperimen pembelajaran mesin ke Azure Blob Storage. Misalnya, Anda mungkin ingin berbagi output data pembelajaran mesin dengan aplikasi lain, atau menyimpan data perantara atau data data yang dibersihkan untuk digunakan dalam eksperimen lain.
Blob Azure dapat diakses dari mana saja, dengan menggunakan HTTP atau HTTPS. Karena Azure Blob Storage adalah penyimpanan data yang tidak terstruktur, Anda dapat mengekspor data dalam berbagai format. Saat ini, format CSV, TSV, dan ARFF didukung.
Untuk mengekspor data ke blob Azure untuk digunakan oleh aplikasi lain, Anda menggunakan modul Ekspor Data untuk menyimpan data ke Azure Blob Storage. Kemudian, gunakan alat apa pun yang dapat membaca data dari penyimpanan Azure (seperti Excel, utilitas penyimpanan cloud, atau layanan cloud lainnya), untuk memuat dan menggunakan data.
Catatan
Modul Impor Data dan Ekspor Data dapat membaca dan menulis data hanya dari penyimpanan Azure yang dibuat menggunakan model penyebaran Klasik. Dengan kata lain, jenis akun Azure Blob Storage baru yang menawarkan tingkat akses penyimpanan panas dan dingin belum didukung.
Umumnya, setiap akun penyimpanan Azure yang mungkin telah Anda buat sebelum opsi layanan ini tersedia tidak boleh terpengaruh.
Namun, jika Anda perlu membuat akun baru untuk digunakan dengan Pembelajaran Mesin, kami sarankan Anda memilih Classic untuk model Deployment, atau menggunakan Resource manager dan untuk jenis Akun, pilih Tujuan umum daripada penyimpanan Blob.
Cara mengekspor data ke Azure Blob Storage
Layanan blob Azure adalah untuk menyimpan data dalam jumlah besar, termasuk data biner. Ada dua jenis penyimpanan blob: blob publik, dan blob yang memerlukan kredensial login.
Tambahkan modul Ekspor Data ke eksperimen Anda. Anda dapat menemukan modul ini dalam kategori Input dan Output Data di Studio (klasik).
Koneksi Ekspor Data ke modul yang menghasilkan data yang ingin Anda ekspor ke Azure Blob Storage.
Buka panel Properti Dari Data Ekspor. Untuk tujuan data, pilih Azure Blob Storage.
Untuk Jenis Autentikasi, pilih Publik (URL SAS) jika Anda tahu bahwa penyimpanan mendukung akses melalui URL SAS.
URL SAS adalah jenis URL khusus yang dapat dihasilkan dengan menggunakan utilitas penyimpanan Azure, dan hanya tersedia untuk waktu yang terbatas. Ini berisi semua informasi yang diperlukan untuk otentikasi dan unduhan.
Untuk URI, ketik atau tempelkan URI penuh yang menentukan akun dan blob publik.
Untuk akun pribadi, pilih Akun, dan berikan nama akun dan kunci akun, sehingga eksperimen dapat menulis ke akun penyimpanan.
Nama akun: Ketik atau tempelkan nama akun tempat Anda ingin menyimpan data. Misalnya, jika URL lengkap akun penyimpanan adalah
https://myshared.blob.core.windows.net
, Anda akan mengetikmyshared
.Kunci akun: Tempel kunci akses penyimpanan yang terkait dengan akun.
Jalur ke kontainer, direktori, atau blob: Ketik nama blob tempat data yang diekspor akan disimpan. Misalnya, untuk menyimpan hasil eksperimen Anda ke blob baru bernama results01.csv dalam prediksi kontainer di akun bernama mymldata, URL lengkap untuk blob
https://mymldata.blob.core.windows.net/predictions/results01.csv
adalah .Oleh karena itu, di bidang Path ke container, directory, atau blob, Anda akan menentukan nama kontainer dan blob sebagai berikut:
predictions/results01.csv
Jika Anda menentukan nama blob yang belum ada, Azure akan membuat blob untuk Anda.
Saat menulis ke blob yang ada, Anda dapat menentukan bahwa konten blob saat ini ditimpa dengan mengatur properti, Azure Blob Storage mode tulis. Secara default, properti ini diatur ke Kesalahan, yang berarti bahwa kesalahan dinaikkan setiap kali file blob yang ada dengan nama yang sama ditemukan.
Untuk Format file untuk file blob, pilih format di mana data harus disimpan.
CSV: Nilai yang dipisahkan koma (CSV) adalah format penyimpanan default. Untuk mengekspor judul kolom bersama dengan data, pilih opsi, Tulis baris header blob. Untuk informasi selengkapnya tentang format yang dibatasi koma yang digunakan dalam Pembelajaran Mesin, lihat Mengonversi ke CSV.
TSV: Format nilai yang dipisahkan tab (TSV) kompatibel dengan banyak alat pembelajaran mesin. Untuk mengekspor judul kolom bersama dengan data, pilih opsi, Tulis baris header blob. Untuk informasi selengkapnya tentang format terpisah tab yang digunakan dalam Pembelajaran Mesin, lihat Mengonversi ke TSV.
ARFF: Format ini mendukung penyimpanan file dalam format yang digunakan oleh toolset Weka. Format ini tidak didukung untuk file yang disimpan dalam URL SAS. Untuk informasi selengkapnya tentang format ARFF, lihat Mengonversi ke ARFF.
Gunakan hasil cache: Pilih opsi ini jika Anda ingin menghindari penulisan ulang hasil ke file blob setiap kali Anda menjalankan eksperimen. Jika tidak ada perubahan lain pada parameter modul, eksperimen hanya menulis hasil saat pertama kali modul dijalankan, atau ketika ada perubahan pada data.
Contoh
Untuk contoh cara menggunakan modul Ekspor Data , lihat Galeri AI Azure:
Konversi Dataset ke Format VW: Eksperimen ini menggunakan skrip Python bersama dengan modul Export Data untuk membuat data yang dapat digunakan oleh Vowpal Wabbit.
Menyiapkan alur analitik prediktif menggunakan SQL do Azure Data Warehouse: Skenario ini menjelaskan pergerakan data di antara beberapa komponen, termasuk Pembelajaran Mesin dan SQL Data Warehouse.
Penilaian batch tanpa kode: Tutorial ini menunjukkan bagaimana Anda dapat menggunakan Azure Logic Apps untuk mengotomatiskan impor data yang digunakan oleh eksperimen, dan menulis hasil eksperimen ke penyimpanan blob.
Mengoperasionalkan solusi ML Azure dengan SQL Server lokal menggunakan pabrik data Azure: Artikel ini menjelaskan alur data yang lebih kompleks yang mengirimkan data kembali ke database SQL Server lokal, menggunakan penyimpanan blob sebagai tahap sementara. Penggunaan database lokal memerlukan konfigurasi gateway data, tetapi Anda dapat melewati bagian contoh itu, dan cukup gunakan penyimpanan blob.
Catatan teknis
Bagian ini berisi detail implementasi, tips, dan jawaban atas pertanyaan yang sering diajukan.
Pertanyaan umum
Bagaimana saya bisa menghindari menulis data jika percobaan tidak berubah
Saat hasil eksperimen Berubah, Ekspor Data selalu menyimpan himpunan data baru. Namun, jika Anda menjalankan eksperimen berulang kali tanpa membuat perubahan yang memengaruhi data output, Anda dapat memilih opsi Gunakan hasil yang di-cache .
Modul memeriksa apakah eksperimen telah berjalan sebelumnya menggunakan data yang sama dan opsi yang sama, dan jika run sebelumnya ditemukan, operasi tulis tidak diulang.
Dapatkah saya menyimpan data ke akun di wilayah geografis yang berbeda
Ya, Anda dapat menulis data ke akun di berbagai wilayah. Namun, jika akun penyimpanan berada di wilayah yang berbeda dari node komputasi yang digunakan untuk eksperimen pembelajaran mesin, akses data mungkin lebih lambat. Selain itu, Anda dikenakan biaya untuk masuknya data dan keluar pada langganan.
Parameter modul
Opsi umum
Nama | Rentang | Jenis | Default | Deskripsi |
---|---|---|---|---|
Sumber data | Daftar | Sumber data atau sink | Azure Blob Storage | Tujuannya bisa berupa file di penyimpanan Blob Azure, tabel Azure, tabel atau tampilan dalam Azure SQL Database, atau tabel Hive. |
Menggunakan hasil cache | BENAR/SALAH | Boolean | FALSE | Modul hanya dijalankan jika cache yang valid tidak ada; jika tidak, gunakan data cache dari eksekusi sebelumnya. |
Harap tentukan tipe autentikasi | SAS/Akun | AuthenticationType | Akun | Menunjukkan apakah KREDENSIAL SAS atau akun harus digunakan untuk otorisasi akses |
Publik atau SAS - Opsi penyimpanan publik
Nama | Rentang | Jenis | Default | Deskripsi |
---|---|---|---|---|
SAS URI untuk blob | apa pun | String | tidak ada | SAS URI dari blob yang akan ditulis (diperlukan) |
Format file untuk file SAS | ARFF CSV TSV |
LoaderUtils.FileTypes | CSV | Menunjukkan apakah file tersebut CSV, TSV, atau ARFF. (wajib diisi) |
Tulis baris header SAS | BENAR/SALAH | Boolean | FALSE | Menunjukkan apakah judul kolom harus ditulis ke file |
Akun - Opsi penyimpanan pribadi
Nama | Rentang | Jenis | Default | Deskripsi |
---|---|---|---|---|
Azure account name | apa pun | String | tidak ada | Azure user account name |
Azure account key | apa pun | SecureString | tidak ada | Kunci penyimpanan Azure |
Jalur ke blob dimulai dengan kontainer | apa pun | String | tidak ada | Nama file blob, dimulai dengan nama kontainer |
Azure Blob Storage mode tulis | Daftar: Kesalahan, Menimpa | enum:BlobFileWriteMode | Kesalahan | Pilih metode penulisan file blob |
Format file untuk berkas blob | ARFF CSV TSV |
LoaderUtils.FileTypes | CSV | Menunjukkan apakah file blob adalah CSV, TSV, atau ARFF |
Menulis baris header blob | BENAR/SALAH | Boolean | FALSE | Menunjukkan apakah file blob harus memiliki baris header |
Pengecualian
Pengecualian | Deskripsi |
---|---|
Kesalahan 0027 | Pengecualian terjadi ketika dua objek harus berukuran sama, tetapi tidak. |
Kesalahan 0003 | Pengecualian terjadi jika satu atau lebih input null atau kosong. |
Kesalahan 0029 | Pengecualian terjadi ketika URI yang tidak valid dilewatkan. |
Kesalahan 0030 | pengecualian terjadi ketika tidak mungkin mengunduh file. |
Kesalahan 0002 | Pengecualian terjadi jika satu atau beberapa parameter tidak dapat diurai atau dikonversi dari tipe yang ditentukan ke jenis yang diperlukan oleh metode target. |
Kesalahan 0009 | Pengecualian terjadi jika nama akun penyimpanan Azure atau nama kontainer ditentukan secara tidak benar. |
Kesalahan 0048 | Pengecualian terjadi ketika tidak mungkin untuk membuka file. |
Kesalahan 0046 | Pengecualian terjadi ketika tidak mungkin membuat direktori pada jalur tertentu. |
Kesalahan 0049 | Pengecualian terjadi ketika tidak mungkin mengurai file. |
Untuk daftar kesalahan khusus untuk modul Studio (klasik), lihat Pembelajaran Mesin Kode kesalahan.
Untuk daftar pengecualian API, lihat Pembelajaran Mesin Kode Kesalahan REST API.
Lihat juga
Mengimpor data
Mengekspor data
Ekspor ke Azure SQL Database
Ekspor ke Kueri Hive
Ekspor ke Azure Table