Bagikan melalui


Konversi ke Himpunan Data

Penting

Dukungan untuk Studio Azure Machine Learning (klasik) akan berakhir pada 31 Agustus 2024. Sebaiknya Anda transisi ke Azure Machine Learning sebelum tanggal tersebut.

Mulai 1 Desember 2021, Anda tidak akan dapat membuat sumber daya Studio Azure Machine Learning (klasik) baru. Hingga 31 Agustus 2024, Anda dapat terus menggunakan sumber daya Pembelajaran Mesin Studio (klasik) yang ada.

ML Dokumentasi Studio (klasik) sedang berhenti dan mungkin tidak diperbarui di masa mendatang.

Mengonversi input data ke format Himpunan Data internal yang digunakan oleh Microsoft Pembelajaran Mesin

Kategori: Konversi Format Data

Catatan

Berlaku untuk: Pembelajaran Mesin Studio (klasik) saja

Modul drag-and-drop serupa tersedia di Azure Machine Learning desainer.

Ringkasan Modul

Artikel ini menjelaskan cara menggunakan modul Konversi ke Himpunan Data di Pembelajaran Mesin Studio (klasik), untuk mengonversi data apa pun yang mungkin Anda perlukan untuk eksperimen ke format internal yang digunakan oleh Studio (klasik).

Konversi tidak diperlukan dalam banyak kasus, karena Pembelajaran Mesin secara implisit mengonversi data ke format himpunan data aslinya ketika operasi apa pun dilakukan pada data.

Namun, menyimpan data ke format himpunan data disarankan jika Anda telah melakukan semacam normalisasi atau pembersihan pada satu set data, dan Anda ingin memastikan bahwa perubahan tersebut digunakan dalam eksperimen lebih lanjut.

Catatan

Konversi ke Himpunan Data hanya mengubah format data, dan tidak menyimpan salinan data baru di ruang kerja. Untuk menyimpan himpunan data, klik dua kali port output, pilih Simpan sebagai himpunan data, dan ketik nama baru.

Cara menggunakan Konversi ke Himpunan Data

Sebaiknya gunakan modul Edit Metadata untuk menyiapkan himpunan data sebelum menggunakan Konversi ke Himpunan Data. Anda dapat menambahkan atau mengubah nama kolom, menyesuaikan tipe data, dan sebagainya.

  1. Tambahkan modul Konversi ke Himpunan Data ke eksperimen Anda. Anda dapat menemukan modul ini dalam kategori Konversi Format Data di Pembelajaran Mesin Studio (klasik).

  2. Sambungkan ke modul mana pun yang menghasilkan himpunan data.

    Selama data datar, Anda dapat mengonversinya menjadi himpunan data. Ini termasuk data yang dimuat menggunakan Data Impor, data yang dibuat dengan menggunakan Masukkan Data Secara Manual, data yang dihasilkan oleh kode dalam modul kustom, himpunan data yang diubah dengan menggunakan Terapkan Transformasi, atau himpunan data yang dihasilkan atau dimodifikasi dengan menggunakan Terapkan Transformasi SQL.

  3. Dalam daftar turun bawah Tindakan , tunjukkan apakah Anda ingin melakukan pembersihan pada data sebelum menyimpan himpunan data:

    • Tidak ada: Gunakan data apa adanya.

    • SetMissingValue: Tentukan placeholder yang dimasukkan dalam himpunan data di mana pun ada nilai yang hilang. Tempat penampung default adalah karakter tanda tanya (?), Tetapi Anda dapat menggunakan opsi Nilai hilang Kustom untuk mengetik nilai yang berbeda.

    • ReplaceValues: Gunakan opsi ini untuk menentukan satu nilai persis yang akan diganti dengan nilai persis lainnya. Misalnya, dengan asumsi data Anda berisi string obs yang digunakan sebagai tempat penampung untuk nilai yang hilang, Anda dapat menentukan operasi penggantian kustom menggunakan opsi ini:

      1. Atur Ganti ke Kustom

      2. Untuk Nilai kustom, ketik nilai yang ingin Anda temukan. Dalam hal ini, Anda akan mengetik obs.

      3. Untuk Nilai baru, ketik nilai baru untuk mengganti string asli. Dalam hal ini, Anda dapat mengetik ?

    Perhatikan bahwa operasi ReplaceValues hanya berlaku untuk kecocokan persis. Misalnya, untai (karakter) ini tidak akan terpengaruh: obs., obsolete.

    • SparseOutput: Menunjukkan bahwa himpunan data jarang. Dengan membuat vektor data yang jarang, Anda dapat memastikan bahwa nilai yang hilang tidak memengaruhi distribusi data yang jarang. Setelah memilih opsi ini, Anda harus menunjukkan bagaimana nilai yang hilang dan nilai nol harus ditangani.

    Untuk menghapus nilai apa pun selain nol, klik opsi Hapus dan ketik satu nilai untuk dihapus. Anda dapat menghapus nilai yang hilang, atau mengatur nilai kustom untuk dihapus dari vektor. Hanya pertandingan yang tepat yang akan dihapus. Misalnya, jika Anda mengetikkan x kotak teks Hapus nilai , baris xx tidak akan terpengaruh.

    Secara default, opsi Hapus nol diatur ke True, yang berarti bahwa semua nilai nol dihapus ketika kolom jarang dibuat.

  4. Jalankan eksperimen, atau klik kanan modul Konversi ke Himpunan Data dan pilih Jalankan yang dipilih.

Hasil

  • Untuk menyimpan himpunan data yang dihasilkan dengan nama baru, klik kanan output Konversi ke Himpunan Data dan pilih Simpan sebagai Himpunan Data.

Contoh

Anda dapat melihat contoh bagaimana modul Konversi ke Himpunan Data digunakan di Galeri AI Azure:

  • Sampel CRM: Membaca dari himpunan data bersama dan menyimpan salinan himpunan data di ruang kerja lokal.

  • Contoh Penundaan Penerbangan: Menyimpan himpunan data yang telah dibersihkan dengan mengganti nilai yang hilang sehingga Anda dapat menggunakannya untuk eksperimen di masa mendatang.

Catatan teknis

Bagian ini berisi detail implementasi, tips, dan jawaban atas pertanyaan yang sering diajukan.

  • Modul apa pun yang mengambil himpunan data sebagai input juga dapat mengambil data dalam format CSV, TSV, atau ARFF. Sebelum kode modul dijalankan, preprocessing input dilakukan, yang setara dengan menjalankan modul Konversi ke Dataset pada input.

  • Anda tidak dapat mengonversi dari format SVMLight ke himpunan data.

  • Saat menentukan operasi penggantian kustom, operasi pencarian dan penggantian berlaku untuk nilai lengkap; pertandingan parsial tidak diperbolehkan. Misalnya, Anda dapat mengganti 3 dengan -1 atau dengan 33, tetapi Anda tidak dapat mengganti 3 dalam angka dua digit seperti 35.

  • Untuk operasi penggantian kustom, penggantian akan diam-diam gagal jika Anda menggunakan sebagai pengganti karakter apa pun yang tidak sesuai dengan jenis data kolom saat ini.

  • Jika Anda perlu menyimpan data yang menggunakan data numerik yang jarang dan memiliki nilai yang hilang, secara internal, Studio (klasik) mendukung array yang jarang dengan menggunakan SparseVector, yang merupakan kelas di perpustakaan numerik Math.NET. Siapkan data Anda yang menggunakan nol dan memiliki nilai yang hilang, lalu gunakan Konversi ke Himpunan Data dengan argumen SparseOutput dan Hapus Nol = TRUE.

Input yang diharapkan

Nama Jenis Deskripsi
Himpunan Data Tabel Data Himpunan data input

Parameter modul

Nama Rentang Jenis Default Deskripsi
Tindakan Daftar Metode Tindakan Tidak ada Tindakan untuk diterapkan ke himpunan data input

Output

Nama Jenis Deskripsi
Kumpulan data hasil Tabel Data Himpunan data output

Lihat juga

Konversi Format Data
Daftar Modul A-Z