Konversi ke CSV
Penting
Dukungan untuk Studio Azure Machine Learning (klasik) akan berakhir pada 31 Agustus 2024. Sebaiknya Anda transisi ke Azure Machine Learning sebelum tanggal tersebut.
Mulai 1 Desember 2021, Anda tidak akan dapat membuat sumber daya Studio Azure Machine Learning (klasik) baru. Hingga 31 Agustus 2024, Anda dapat terus menggunakan sumber daya Pembelajaran Mesin Studio (klasik) yang ada.
- Lihat informasi tentang memindahkan proyek pembelajaran mesin dari ML Studio (klasik) ke Azure Machine Learning.
- Pelajari selengkapnya tentang Azure Machine Learning.
ML Dokumentasi Studio (klasik) sedang berhenti dan mungkin tidak diperbarui di masa mendatang.
Mengonversi input data ke format nilai yang dipisahkan koma
Kategori: Konversi Format Data
Catatan
Berlaku untuk: hanya Pembelajaran Mesin Studio (klasik)
Modul seret dan letakkan serupa tersedia di perancang Azure Machine Learning.
Ringkasan Modul
Artikel ini menjelaskan cara menggunakan modul Konversi ke CSV di Pembelajaran Mesin Studio (klasik), untuk mengonversi himpunan data dari Azure ML menjadi format CSV yang dapat diunduh, diekspor, atau dibagikan dengan modul skrip R atau Python.
Selengkapnya tentang format CSV
Format CSV, yang merupakan singkatan dari "nilai yang dipisahkan koma", adalah format file yang digunakan oleh banyak alat pembelajaran mesin eksternal. Meskipun format himpunan data asli yang digunakan oleh Pembelajaran Mesin didasarkan pada datatable .NET dan dengan demikian dapat dibaca oleh pustaka .NET, CSV adalah format pertukaran umum saat bekerja dengan bahasa sumber terbuka seperti R atau Python.
Bahkan jika Anda melakukan sebagian besar pekerjaan di Pembelajaran Mesin Studio (klasik), ada kalanya Anda mungkin merasa berguna untuk mengonversi himpunan data Anda ke CSV untuk digunakan di alat eksternal. Contohnya:
- Unduh file CSV untuk membukanya dengan Excel, atau impor ke database hubungan.
- Simpan file CSV ke penyimpanan cloud lalu sambungkan ke file tersebut dari Power BI untuk membuat visualisasi.
- Gunakan format CSV untuk menyiapkan data untuk digunakan dalam R dan Python. Cukup klik kanan output modul untuk menghasilkan kode yang diperlukan untuk mengakses data langsung dari Python atau notebook Jupyter.
Saat Anda mengonversi himpunan data ke CSV, file disimpan di ruang kerja Azure ML Anda. Anda dapat menggunakan utilitas penyimpanan Azure untuk membuka dan menggunakan file secara langsung, atau Anda dapat mengklik kanan output modul dan mengunduh file CSV ke komputer Anda, atau menggunakannya dalam kode R atau Python.
Cara mengonfigurasi Konversi ke CSV
Tambahkan modul Konversi ke CSV ke eksperimen Anda. Anda dapat menemukan modul ini di grup Konversi Format Data di Studio (klasik).
Sambungkan ke modul mana pun yang menghasilkan himpunan data.
Jalankan eksperimen, atau klik modul Konversi ke CSV , dan klik Jalankan yang dipilih.
Hasil
Klik dua kali output Konversi ke CSV, dan pilih salah satu opsi ini.
Unduh: Segera membuka salinan data dalam format CSV yang dapat Anda simpan ke folder lokal. Jika Anda tidak menentukan folder, nama file default diterapkan dan file CSV disimpan di pustaka Unduhan lokal.
Jika Anda memilih Unduh himpunan data, Anda harus menunjukkan apakah Anda ingin membuka himpunan data, atau menyimpannya ke file lokal.
Jika Anda memilih Buka, himpunan data dimuat menggunakan aplikasi yang terkait secara default dengan file .CSV: misalnya, Microsoft Excel.
Jika Anda memilih Unduh himpunan data, secara default, file disimpan dengan nama modul ditambah GUID yang mewakili ID ruang kerja. Namun, Anda dapat memilih opsi Simpan Sebagai selama pengunduhan dan mengubah nama atau lokasi file.
Simpan sebagai Himpunan Data: Menyimpan kembali file CSV ke ruang kerja Azure ML sebagai himpunan data terpisah.
Buat Kode Akses Data: Azure ML menghasilkan dua set kode bagi Anda untuk mengakses data, baik dengan menggunakan Python atau dengan menggunakan R. Untuk mengakses data, salin cuplikan kode ke dalam aplikasi Anda.
Buka di Notebook baru: Buku catatan Jupyter baru dibuat untuk Anda dan kode yang disisipkan untuk membaca data dari ruang kerja Anda, menggunakan bahasa pilihan Anda: Python 2, Python 3, atau R dengan Microsoft R Open.
Misalnya, jika Anda memilih opsi R, sampel kode R disediakan yang memuat file CSV ke dalam bingkai data dan menampilkan beberapa baris pertama menggunakan fungsi .
head
Catatan teknis
Bagian ini berisi detail implementasi, tips, dan jawaban atas pertanyaan yang sering diajukan.
Persyaratan format CSV
Format file CSV adalah format populer yang didukung oleh banyak kerangka kerja pembelajaran mesin. Formatnya berbagai disebut "nilai yang dipisahkan koma" atau "nilai yang dipisahkan karakter."
File CSV menyimpan data tabular (angka dan teks) dalam bentuk teks biasa. File CSV terdiri dari sejumlah rekaman, dipisahkan oleh pemisah baris dari beberapa jenis. Setiap rekaman terdiri dari bidang, dipisahkan oleh koma harfiah. Di beberapa wilayah, pemisah mungkin merupakan titik koma.
Biasanya, semua rekaman memiliki jumlah bidang yang identik, dan nilai yang hilang direpresentasikan sebagai null atau string kosong.
Tip
Anda dapat dengan mudah mengekspor data dari Excel, Access, atau database relasional ke dalam file CSV, untuk digunakan dalam Pembelajaran Mesin. Meskipun nama file biasanya memiliki ekstensi .CSV, Pembelajaran Mesin tidak mengharuskan ekstensi nama file ini ada jika Anda ingin mengimpor data sebagai CSV. Anda dapat mengimpor XLSX, TXT, dan file lainnya sebagai CSV. Namun, bidang dalam file harus diformat seperti yang dijelaskan di bagian sebelumnya, dan file harus menggunakan pengodean UTF-8.
Pertanyaan dan masalah umum
Bagian ini menjelaskan beberapa masalah umum, pertanyaan umum, dan solusi khusus untuk modul Konversi ke CSV .
Header harus berupa baris tunggal
Format file CSV yang digunakan dalam Pembelajaran Mesin mendukung satu baris header. Anda tidak dapat menyisipkan header multibaris.
Pemisah kustom didukung pada impor tetapi tidak diekspor
Modul Konversi ke CSV tidak mendukung pembuatan pemisah kolom alternatif, seperti titik koma (;), yang sering digunakan di Eropa.
Namun, saat Mengimpor data dari file CSV di penyimpanan eksternal, Anda dapat menentukan pemisah alternatif. Dalam modul Impor Data , pilih opsi CSV dengan pengodean , dan pilih pengodean yang didukung.
Pemisahan kolom yang tidak akurat pada data string yang berisi koma
Ini adalah masalah umum dalam pemrosesan teks yang hampir setiap karakter yang dapat ditentukan sebagai pemisah kolom (tab, spasi, koma, dll.) juga dapat ditemukan secara acak di bidang teks. Mengimpor teks dari CSV selalu memerlukan perhatian untuk menghindari pemisahan teks di seluruh kolom baru yang tidak perlu.
Saat Anda mencoba mengekspor kolom data string yang berisi koma, Anda mungkin juga mengalami masalah. Pembelajaran Mesin tidak mendukung penanganan khusus atau terjemahan khusus dari data tersebut, seperti menyertakan string dalam tanda kutip. Selain itu, Anda tidak dapat menggunakan karakter escape sebelum koma untuk memastikan bahwa koma ditangani sebagai karakter harfiah.
Oleh karena itu, bidang baru dibuat dalam file output untuk setiap koma yang ditemui di bidang string. Untuk menghindari masalah ini, ada beberapa solusi:
Gunakan modul Teks Praprosces untuk menghapus karakter tanda baca dari bidang string.
Gunakan skrip R kustom atau skrip Python untuk memproses teks dan memastikan bahwa data dapat diekspor dengan benar.
Pengodean UTF-8 diperlukan
Modul Konversi ke CSV hanya mendukung pengodean karakter UTF-8. Jika Anda perlu mengekspor data menggunakan pengodean yang berbeda, Anda dapat mencoba menggunakan modul Jalankan Skrip R atau Jalankan Skrip Python untuk menghasilkan output kustom.
Himpunan data tidak memiliki nama kolom
Jika himpunan data yang Anda ekspor ke file CSV tidak memiliki nama kolom, kami sarankan Anda menggunakan Edit Metadata untuk menambahkan nama kolom sebelum mengonversinya. Anda tidak dapat menambahkan nama kolom sebagai bagian dari proses konversi atau ekspor.
SYLK: Format file tidak valid
Jika kolom pertama himpunan data yang Anda konversi ke CSV memiliki ID nama, Anda mungkin mendapatkan kesalahan berikut saat mencoba membuka file di Excel:
"SYLK: Format file tidak valid."
Untuk menghindari kesalahan ini, Anda harus mengganti nama kolom.
Saya perlu bantuan untuk mengimpor dari CSV
Untuk mengimpor, jangan gunakan modul Ekspor ke CSV . Sebagai gantinya, gunakan modul Impor Data .
Untuk informasi umum tentang mengimpor dari CSV, lihat sumber daya berikut:
- Mengimpor data pelatihan Anda ke Machine Learning Studio (klasik) dari berbagai sumber data
- Eksperimen AzureML dan Interaksi Data: Menunjukkan berbagai sumber data dan cara bekerja dengannya di Studio (klasik).
Input yang diharapkan
Nama | Jenis | Deskripsi |
---|---|---|
Himpunan Data | Tabel Data | Himpunan data input |
Output
Nama | Jenis | Deskripsi |
---|---|---|
Himpunan data hasil | GenericCsv | Himpunan data output |