Bagikan melalui


Membongkar Himpunan Data yang Dibongkar

Membongkar himpunan data dari paket zip di penyimpanan pengguna

Kategori: Input dan Output Data

Catatan

Berlaku untuk: Pembelajaran Mesin Studio (klasik) saja

Modul drag-and-drop serupa tersedia di Azure Machine Learning desainer.

Ringkasan Modul

Artikel ini menjelaskan cara menggunakan modul Unpack Zipped Datasets di Pembelajaran Mesin Studio (klasik), untuk mengunggah file data dan skrip dalam format terkompresi, lalu membuka ritsletingnya untuk digunakan dalam percobaan.

Tujuan dari modul ini adalah untuk mengurangi waktu transfer data ketika bekerja dengan dataset yang sangat besar dengan menyimpan dan mengunggah file data Anda dalam format terkompresi. Umumnya, file zipping adalah pilihan yang baik ketika dataset Anda begitu besar sehingga Anda ingin menggunakan kompresi untuk upload, untuk meminimalkan waktu upload dan biaya terkait.

Modul mengambil sebagai input dataset di ruang kerja Anda. Himpunan data harus diunggah dalam format terkompresi. Modul kemudian mendekompresi himpunan data dan menambahkan data ke ruang kerja Anda.

Cara menggunakan Unpack Zipped Datasets

Bagian ini menjelaskan cara menyiapkan data Anda dan kemudian membuka ritsletingnya di Pembelajaran Mesin Studio (klasik).

Langkah 1. Siapkan berkas

Sebelum mengunggah file Anda, pastikan bahwa data dalam file dapat digunakan dalam Pembelajaran Mesin:

  • Pastikan bahwa data dalam file menggunakan pengkodean UTF-8.

    Jika file cukup kecil, Anda dapat membukanya di Notepad dan kemudian menyimpan file dalam pengkodean yang diinginkan. Banyak editor teks lainnya menawarkan fungsi serupa. Untuk file CSV, Anda dapat menggunakan perintah Simpan Sebagai atau Ekspor Excel untuk menentukan format file dan pengkodean.

  • Verifikasi bahwa file data menggunakan format yang didukung, seperti CSV, TSV, ARFF, atau SVMLight.

  • Kompres data dengan menambahkan file data ke .ZIP atau . File arsip format GZ. Jenis arsip lainnya tidak didukung.

  • Hapus perlindungan kata sandi. Jika salah satu file atau folder terkompresi itu sendiri telah dienkripsi atau dilindungi kata sandi, Anda harus membuka kunci atau mendekripsi file sebelum mengunggahnya. Modul tidak dapat mendeteksi tipe data terenkripsi dan tidak mendukung kotak dialog untuk entri kata sandi dari klien arbitrer.

Langkah 2. Upload himpunan data ke ruang kerja Anda

Selanjutnya, unggah himpunan data zip ke ruang kerja eksperimen Anda.

  1. Klik BARU, pilih HIMPUNAN DATA, dan pilih DARI FILE LOKAL.

  2. Temukan file zip untuk diunggah. Saat Anda memilih file, jenisnya akan secara otomatis diatur ke file Zip (.zip).

Langkah 3. Menambahkan himpunan data zip ke eksperimen

Setelah himpunan data diunggah sepenuhnya, tambahkan ke eksperimen Anda dalam format zip.

  1. Di panel navigasi kiri Pembelajaran Mesin Studio (klasik), pilih Himpunan Data Tersimpan, lalu perluas Kumpulan Data Saya.

  2. Temukan himpunan data zip yang baru saja Anda unggah, dan seret ke kanvas eksperimen.

Langkah 4. Membongkar himpunan data

Langkah terakhir adalah membongkar dataset.

  1. Koneksi himpunan data zip ke input modul Unpack Zipped Datasets.

  2. Di Himpunan Data untuk Membongkar, ketik nama himpunan data tunggal untuk membongkar.

    • Jika Anda menyimpan lembar kerja dengan nama Sheet1 sebagai file CSV Excel bernama Test.csv, nama himpunan data akan Test.csv, bukan Sheet1.

    • Nama yang Anda ketik dalam kotak teks Dataset to Unpack harus persis sama dengan nama file asli sebelum dikompresi, termasuk ekstensi nama file. Misalnya, jika Anda ingin membongkar himpunan data berdasarkan file teks Users.txt, ketik Users.txt, bukan Pengguna.

    • Jika Anda memasukkan beberapa file ke dalam satu folder terkompresi, Anda harus membongkar satu himpunan data sekaligus.

    Tip

    Jika Anda membiarkan properti kosong, modul mendapatkan nama file dari file zip, dengan asumsi file arsip terkompresi hanya berisi satu file sumber. Jika arsip terkompresi berisi beberapa file, kesalahan run-time akan dinaikkan.

  3. Untuk format file Himpunan Data, tentukan format asli himpunan data: yaitu, format sebelum zip.

    Anda dapat mengunggah dan membuka ritsleting himpunan data yang dibuat menggunakan salah satu format ini: CSV, ARFF, TSV, SvmLight.

    Jika properti ini dibiarkan kosong, modul mengidentifikasi himpunan data menggunakan nama file sumber.

  4. Pilih opsi, File memiliki baris header, jika himpunan data asli memiliki baris header. Jika tidak, baris pertama data digunakan sebagai header. Jika ini bukan yang Anda inginkan, tambahkan header sebelum input.

    Opsi ini hanya berlaku untuk .CSV dan . File TSV.

    Catatan

    Jika Anda mengubah format file, opsi ini diatur ulang.

  5. Jika file dikompresi, gunakan opsi Format file kompresi untuk menentukan algoritma yang digunakan untuk mengompres atau memperluas file.

    Saat ini format .ZIP dan GZ (atau Gzip) didukung.

  6. Jalankan eksperimen.

Hasil

  • Untuk memverifikasi bahwa data diimpor dengan benar, klik kanan modul Unpacked Zipped Datasets , dan pilih Visualisasikan .

  • Untuk mengubah nama himpunan data, klik kanan modul Unpacked Zipped Datasets , dan pilih Simpan sebagai Himpunan Data. Pada titik ini Anda dapat mengetikkan nama yang berbeda.

    Opsi ini berguna jika Anda membongkar beberapa himpunan data dari satu file ZIP.

Contoh

Untuk menunjukkan cara kerja modul ini, kami membuat sampel .ZIP file yang berisi empat file CSV yang berbeda. Semua file disimpan dari Excel.

Nama file Deskripsi
names-uni.csv File Unicode dengan judul kolom
names-utf.csv File UTF-8 dengan judul kolom
nonames-uni.csv File Unicode tanpa judul kolom
nonames-utf8.csv File UTF-8 tanpa judul kolom

Seluruh file zip diunggah, dan kemudian modul Unpack Zipped Datasets dijalankan empat kali untuk mengekstrak masing-masing dari empat file, menggunakan pengaturan ini:

  1. Himpunan data untuk membongkar = names-uni.csv, File memiliki baris header = TRUE
  2. Himpunan data untuk membongkar = names-utf8.csv, File memiliki baris header = TRUE
  3. Himpunan data untuk membongkar = nonames-uni.csv, File memiliki baris header = FALSE
  4. Himpunan data untuk membongkar = nonames-utf8.csv, File memiliki baris header = FALSE

Hasilnya seperti yang diharapkan:

Nama file Upload hasil
names-uni.csv Kesalahan 0049: Kesalahan saat menguraikan file. File tidak Dikodekan Unicode (UTF-8)
names-utf8.csv Berhasil. Menggunakan nama kolom asli dari file sumber.
nonames-uni.csv Kesalahan 0049: Kesalahan saat menguraikan file. File tidak Dikodekan Unicode (UTF-8)
nonames-utf8.csv Berhasil. Nama kolom Col1, col2, ... coln secara otomatis ditambahkan ke himpunan data.

Catatan

Jika Anda menggunakan opsi tersebut, File memiliki baris header = TRUE, dan file sumber sebenarnya tidak memiliki judul kolom, baris pertama data digunakan sebagai judul kolom.

Catatan teknis

Anda tidak dapat menggunakan modul ini untuk membongkar paket R zip ke ruang kerja Anda. Paket R harus diunggah dan dikonsumsi sebagai file zip.

Untuk informasi selengkapnya tentang cara bekerja dengan paket R zip, lihat Jalankan Skrip R.

Catatan

Bingung tentang perbedaan antara UTF-8 dan Unicode? Lihat artikel Wikipedia ini: Apa itu UTF-8

Parameter modul

Nama Rentang Jenis Default Deskripsi
Format file kompresi Zip

Gzip
aturan kompresi Zip Algoritma kompresi yang digunakan untuk mengompres atau memperluas file.
Himpunan Data untuk Membongkar Semua String tidak ada Nama himpunan data untuk mendaftar ke Azure ML Studio (klasik). Jika nama himpunan data tidak ditentukan, nama diperoleh dari nama file dalam file zip.
Format berkas himpunan data CSV

TSV

ARFF

SVMLIGHT
Format file CSV Format file himpunan data dalam file zip
Berkas memiliki baris header BENAR/SALAH Boolean Salah Atur ke True hanya jika file CSV/TSV memiliki baris header

Input yang diharapkan

Nama Jenis Deskripsi
Himpunan Data Zip File zip berisi himpunan data

Output

Nama Jenis Deskripsi
Kumpulan data hasil Tabel Data Himpunan data output

Lihat juga

Input dan Output Data