Membongkar Himpunan Data yang Dibongkar
Membongkar himpunan data dari paket zip di penyimpanan pengguna
Kategori: Input dan Output Data
Catatan
Berlaku untuk: Pembelajaran Mesin Studio (klasik) saja
Modul drag-and-drop serupa tersedia di Azure Machine Learning desainer.
Ringkasan Modul
Artikel ini menjelaskan cara menggunakan modul Unpack Zipped Datasets di Pembelajaran Mesin Studio (klasik), untuk mengunggah file data dan skrip dalam format terkompresi, lalu membuka ritsletingnya untuk digunakan dalam percobaan.
Tujuan dari modul ini adalah untuk mengurangi waktu transfer data ketika bekerja dengan dataset yang sangat besar dengan menyimpan dan mengunggah file data Anda dalam format terkompresi. Umumnya, file zipping adalah pilihan yang baik ketika dataset Anda begitu besar sehingga Anda ingin menggunakan kompresi untuk upload, untuk meminimalkan waktu upload dan biaya terkait.
Modul mengambil sebagai input dataset di ruang kerja Anda. Himpunan data harus diunggah dalam format terkompresi. Modul kemudian mendekompresi himpunan data dan menambahkan data ke ruang kerja Anda.
Cara menggunakan Unpack Zipped Datasets
Bagian ini menjelaskan cara menyiapkan data Anda dan kemudian membuka ritsletingnya di Pembelajaran Mesin Studio (klasik).
Langkah 1. Siapkan berkas
Sebelum mengunggah file Anda, pastikan bahwa data dalam file dapat digunakan dalam Pembelajaran Mesin:
Pastikan bahwa data dalam file menggunakan pengkodean UTF-8.
Jika file cukup kecil, Anda dapat membukanya di Notepad dan kemudian menyimpan file dalam pengkodean yang diinginkan. Banyak editor teks lainnya menawarkan fungsi serupa. Untuk file CSV, Anda dapat menggunakan perintah Simpan Sebagai atau Ekspor Excel untuk menentukan format file dan pengkodean.
Verifikasi bahwa file data menggunakan format yang didukung, seperti CSV, TSV, ARFF, atau SVMLight.
Kompres data dengan menambahkan file data ke .ZIP atau . File arsip format GZ. Jenis arsip lainnya tidak didukung.
Hapus perlindungan kata sandi. Jika salah satu file atau folder terkompresi itu sendiri telah dienkripsi atau dilindungi kata sandi, Anda harus membuka kunci atau mendekripsi file sebelum mengunggahnya. Modul tidak dapat mendeteksi tipe data terenkripsi dan tidak mendukung kotak dialog untuk entri kata sandi dari klien arbitrer.
Langkah 2. Upload himpunan data ke ruang kerja Anda
Selanjutnya, unggah himpunan data zip ke ruang kerja eksperimen Anda.
Klik BARU, pilih HIMPUNAN DATA, dan pilih DARI FILE LOKAL.
Temukan file zip untuk diunggah. Saat Anda memilih file, jenisnya akan secara otomatis diatur ke file Zip (.zip).
Langkah 3. Menambahkan himpunan data zip ke eksperimen
Setelah himpunan data diunggah sepenuhnya, tambahkan ke eksperimen Anda dalam format zip.
Di panel navigasi kiri Pembelajaran Mesin Studio (klasik), pilih Himpunan Data Tersimpan, lalu perluas Kumpulan Data Saya.
Temukan himpunan data zip yang baru saja Anda unggah, dan seret ke kanvas eksperimen.
Langkah 4. Membongkar himpunan data
Langkah terakhir adalah membongkar dataset.
Koneksi himpunan data zip ke input modul Unpack Zipped Datasets.
Di Himpunan Data untuk Membongkar, ketik nama himpunan data tunggal untuk membongkar.
Jika Anda menyimpan lembar kerja dengan nama Sheet1 sebagai file CSV Excel bernama Test.csv, nama himpunan data akan Test.csv, bukan Sheet1.
Nama yang Anda ketik dalam kotak teks Dataset to Unpack harus persis sama dengan nama file asli sebelum dikompresi, termasuk ekstensi nama file. Misalnya, jika Anda ingin membongkar himpunan data berdasarkan file teks Users.txt, ketik Users.txt, bukan Pengguna.
Jika Anda memasukkan beberapa file ke dalam satu folder terkompresi, Anda harus membongkar satu himpunan data sekaligus.
Tip
Jika Anda membiarkan properti kosong, modul mendapatkan nama file dari file zip, dengan asumsi file arsip terkompresi hanya berisi satu file sumber. Jika arsip terkompresi berisi beberapa file, kesalahan run-time akan dinaikkan.
Untuk format file Himpunan Data, tentukan format asli himpunan data: yaitu, format sebelum zip.
Anda dapat mengunggah dan membuka ritsleting himpunan data yang dibuat menggunakan salah satu format ini: CSV, ARFF, TSV, SvmLight.
Jika properti ini dibiarkan kosong, modul mengidentifikasi himpunan data menggunakan nama file sumber.
Pilih opsi, File memiliki baris header, jika himpunan data asli memiliki baris header. Jika tidak, baris pertama data digunakan sebagai header. Jika ini bukan yang Anda inginkan, tambahkan header sebelum input.
Opsi ini hanya berlaku untuk .CSV dan . File TSV.
Catatan
Jika Anda mengubah format file, opsi ini diatur ulang.
Jika file dikompresi, gunakan opsi Format file kompresi untuk menentukan algoritma yang digunakan untuk mengompres atau memperluas file.
Saat ini format .ZIP dan GZ (atau Gzip) didukung.
Jalankan eksperimen.
Hasil
Untuk memverifikasi bahwa data diimpor dengan benar, klik kanan modul Unpacked Zipped Datasets , dan pilih Visualisasikan .
Untuk mengubah nama himpunan data, klik kanan modul Unpacked Zipped Datasets , dan pilih Simpan sebagai Himpunan Data. Pada titik ini Anda dapat mengetikkan nama yang berbeda.
Opsi ini berguna jika Anda membongkar beberapa himpunan data dari satu file ZIP.
Contoh
Untuk menunjukkan cara kerja modul ini, kami membuat sampel .ZIP file yang berisi empat file CSV yang berbeda. Semua file disimpan dari Excel.
Nama file | Deskripsi |
---|---|
names-uni.csv | File Unicode dengan judul kolom |
names-utf.csv | File UTF-8 dengan judul kolom |
nonames-uni.csv | File Unicode tanpa judul kolom |
nonames-utf8.csv | File UTF-8 tanpa judul kolom |
Seluruh file zip diunggah, dan kemudian modul Unpack Zipped Datasets dijalankan empat kali untuk mengekstrak masing-masing dari empat file, menggunakan pengaturan ini:
- Himpunan data untuk membongkar = names-uni.csv, File memiliki baris header = TRUE
- Himpunan data untuk membongkar = names-utf8.csv, File memiliki baris header = TRUE
- Himpunan data untuk membongkar = nonames-uni.csv, File memiliki baris header = FALSE
- Himpunan data untuk membongkar = nonames-utf8.csv, File memiliki baris header = FALSE
Hasilnya seperti yang diharapkan:
Nama file | Upload hasil |
---|---|
names-uni.csv | Kesalahan 0049: Kesalahan saat menguraikan file. File tidak Dikodekan Unicode (UTF-8) |
names-utf8.csv | Berhasil. Menggunakan nama kolom asli dari file sumber. |
nonames-uni.csv | Kesalahan 0049: Kesalahan saat menguraikan file. File tidak Dikodekan Unicode (UTF-8) |
nonames-utf8.csv | Berhasil. Nama kolom Col1, col2, ... coln secara otomatis ditambahkan ke himpunan data. |
Catatan
Jika Anda menggunakan opsi tersebut, File memiliki baris header = TRUE, dan file sumber sebenarnya tidak memiliki judul kolom, baris pertama data digunakan sebagai judul kolom.
Catatan teknis
Anda tidak dapat menggunakan modul ini untuk membongkar paket R zip ke ruang kerja Anda. Paket R harus diunggah dan dikonsumsi sebagai file zip.
Untuk informasi selengkapnya tentang cara bekerja dengan paket R zip, lihat Jalankan Skrip R.
Catatan
Bingung tentang perbedaan antara UTF-8 dan Unicode? Lihat artikel Wikipedia ini: Apa itu UTF-8
Parameter modul
Nama | Rentang | Jenis | Default | Deskripsi |
---|---|---|---|---|
Format file kompresi | Zip Gzip |
aturan kompresi | Zip | Algoritma kompresi yang digunakan untuk mengompres atau memperluas file. |
Himpunan Data untuk Membongkar | Semua | String | tidak ada | Nama himpunan data untuk mendaftar ke Azure ML Studio (klasik). Jika nama himpunan data tidak ditentukan, nama diperoleh dari nama file dalam file zip. |
Format berkas himpunan data | CSV TSV ARFF SVMLIGHT |
Format file | CSV | Format file himpunan data dalam file zip |
Berkas memiliki baris header | BENAR/SALAH | Boolean | Salah | Atur ke True hanya jika file CSV/TSV memiliki baris header |
Input yang diharapkan
Nama | Jenis | Deskripsi |
---|---|---|
Himpunan Data | Zip | File zip berisi himpunan data |
Output
Nama | Jenis | Deskripsi |
---|---|---|
Kumpulan data hasil | Tabel Data | Himpunan data output |