Bagikan melalui


Konversi ke SVMLight

Penting

Dukungan untuk Studio Azure Machine Learning (klasik) akan berakhir pada 31 Agustus 2024. Sebaiknya Anda transisi ke Azure Machine Learning sebelum tanggal tersebut.

Mulai 1 Desember 2021, Anda tidak akan dapat membuat sumber daya Studio Azure Machine Learning (klasik) baru. Hingga 31 Agustus 2024, Anda dapat terus menggunakan sumber daya Pembelajaran Mesin Studio (klasik) yang ada.

ML Dokumentasi Studio (klasik) sedang berhenti dan mungkin tidak diperbarui di masa mendatang.

Mengonversi input data ke format yang digunakan oleh kerangka SVM-Light

Kategori: Konversi Format Data

Catatan

Berlaku untuk: Pembelajaran Mesin Studio (klasik) saja

Modul drag-and-drop serupa tersedia di Azure Machine Learning desainer.

Ringkasan Modul

Artikel ini menjelaskan cara menggunakan modul Konversi ke SVMLight di Pembelajaran Mesin Studio (klasik), untuk mengonversi himpunan data Anda ke format yang digunakan oleh SVMLight.

Kerangka kerja SVM-Light dikembangkan oleh para peneliti di Cornell University. Perpustakaan SVM-Light mengimplementasikan Mesin Vektor Dukungan Vapnik, tetapi formatnya telah diadopsi di tempat lain dan dapat digunakan untuk banyak tugas pembelajaran mesin, termasuk klasifikasi dan regresi.

Untuk informasi selengkapnya, lihat SVMLight Support Vector Machine.

Cara mengonfigurasi Konversi ke SVMLight

Konversi ke format SVMLight memerlukan konversi setiap kasus menjadi deretan data yang dimulai dengan label, diikuti oleh pasangan nilai fitur yang dinyatakan sebagai angka yang dipisahkan titik dua. Proses konversi tidak secara otomatis mengidentifikasi kolom yang benar, jadi penting bagi Anda untuk menyiapkan kolom dalam himpunan data Anda sebelum mencoba konversi. Untuk informasi selengkapnya, lihat Menyiapkan Data untuk Konversi.

  1. Tambahkan modul Konversi ke SVMLight ke eksperimen Anda. Anda dapat menemukan modul ini dalam kategori Konversi Format Data di Pembelajaran Mesin Studio (klasik).

  2. Koneksi himpunan data atau output yang ingin Anda konversi ke format SVMLight.

  3. Jalankan eksperimen.

  4. Klik kanan output modul, pilih Unduh, dan simpan data ke file lokal untuk modifikasi atau untuk digunakan kembali dengan program yang mendukung SVMLight.

Menyiapkan data untuk konversi

Untuk mengilustrasikan proses konversi, contoh ini menggunakan himpunan data Donor Darah di Studio (klasik).

Himpunan data sampel ini memiliki format berikut, dalam bentuk tabular.

Kelonggaran Frekuensi Moneter Waktu Kelas
2 50 12500 98 1
0 13 3250 28 1
1 1 4000 35 1
2 20 5000 45 1
1 24 6000 77 0

Perhatikan bahwa kolom label, bernama [Kelas] dalam himpunan data ini, adalah kolom terakhir dalam tabel. Namun, jika Anda mengonversi himpunan data ke SVMLight tanpa terlebih dahulu menunjukkan kolom mana yang berisi label, kolom pertama, [Recency], digunakan sebagai label, dan kolom [Kelas] diperlakukan sebagai fitur:

2 1:50 2:12500 3:98 4:1
0 1:13 2:3250 3:28 4:1
1 1:16 2:4000 3:35 4:1

Untuk memastikan label dibuat dengan benar di awal baris untuk setiap kasus, Anda harus menambahkan dua contoh modul Edit Metadata .

  1. Pada contoh pertama Edit Metadata, pilih kolom label ([Class]) dan untuk Fields, pilih Label.

  2. Pada contoh kedua Edit Metadata, pilih semua kolom fitur yang Anda butuhkan dalam file yang dikonversi ([Recency], [Frequency], [Monetary], [Time]) dan untuk Fields, pilih Fitur.

Setelah kolom diidentifikasi dengan benar, Anda dapat menjalankan modul Konversi ke SVMLight . Setelah konversi, beberapa baris pertama dari dataset Donor Darah sekarang memiliki format ini:

  • Nilai label mendahului setiap entri, diikuti oleh nilai untuk [Recency], [Frequency], [Monetary], dan [Time], yang diidentifikasi sebagai fitur 1, 2, 3 dan 4 masing-masing.

  • Nilai label 0 di baris kelima telah dikonversi menjadi -1. Ini karena SVMLight hanya mendukung label klasifikasi biner.

1 1:2 2:50 3:12500 4:98
1 1:0 2:13 3:3250 4:28
1 1:1 2:16 3:4000 4:35
1 1:2 2:20 3:5000 4:45
-1 1:1 2:24 3:6000 4:77

Anda tidak dapat langsung menggunakan data teks ini untuk model di Azure ML, atau memvisualisasikannya. Namun, Anda dapat mengunduhnya ke berbagi lokal.

Meskipun Anda membuka file, kami sarankan Anda menambahkan baris komentar, diawali oleh #, sehingga Anda dapat menambahkan catatan tentang sumber atau nama kolom fitur asli.

Untuk menggunakan file SVMLight di Vowpal Wabbit, dan buat modifikasi tambahan seperti yang dijelaskan di sini: Konversi ke Format Wabbit Vowpal. Saat file sudah siap, unggah ke penyimpanan blob Azure, dan panggil langsung dari salah satu modul Vowpal Wabbit.

Contoh

Tidak ada contoh di Galeri AI Azure: yang khusus untuk format ini.

Catatan teknis

Bagian ini berisi detail implementasi, tips, dan jawaban terkait pertanyaan yang sering diajukan.

Tips penggunaan

Executable yang disediakan dalam kerangka SVM-Light memerlukan file contoh dan file model. Namun, modul ini hanya membuat file contoh. Anda harus membuat file model secara terpisah dengan menggunakan pustaka SVMLight.

File contoh adalah file yang berisi contoh pelatihan.

  • Header opsional

    Baris pertama dapat berisi komentar. Komentar harus diawali dengan tanda nomor (#).

    Output format file dengan Konversi ke SVMLight tidak membuat header. Anda dapat mengedit file untuk menambahkan komentar, daftar nama kolom, dan sebagainya.

  • Data pelatihan

    Setiap kasus berada di barisnya sendiri. Kasus terdiri dari nilai target diikuti oleh serangkaian indeks dan nilai fitur terkait.

    Nilai respons harus 1 atau -1 untuk klasifikasi, atau angka untuk regresi.

    Nilai target dan masing-masing pasangan nilai indeks dipisahkan oleh spasi.

Contoh data pelatihan

Tabel berikut menunjukkan bagaimana nilai dalam kolom himpunan data Two-Class Iris dikonversi menjadi representasi di mana setiap kolom diwakili oleh indeks, diikuti oleh titik dua, dan kemudian nilai di kolom tersebut:

Himpunan Data Iris Himpunan Data Iris Dikonversi ke SVMLight
1 6.3 2.9 5.6 1.8 1 1:6.3 2:2.9 3:5.6 4:1.8
0 4.8 3.4 1.6 0.2 -1 1:4.8 2:3.4 3:1.6 4:0.2
1 7.2 3.2 6 1.8 1 1:7.2 2:3.2 3:6 4:1.8

Perhatikan bahwa nama kolom fitur hilang dalam konversi.

Menggunakan SVMLight untuk menyiapkan file Vowpal Wabbit

Format SVMLight mirip dengan format yang digunakan oleh Vowpal Wabbit. Untuk mengubah file output SVMLight ke format yang dapat digunakan untuk melatih model Vowpal Wabbit, cukup tambahkan simbol pipa antara label dan daftar fitur.

Misalnya, bandingkan baris input ini:

Format Vowpal Wabbit, termasuk komentar opsional

# features are [Recency], [Frequency], [Monetary], [Time]
1 | 1:2 2:50 3:12500 4:98
1 | 1:0 2:13 3:3250 4:28

Format SVMLight, termasuk komentar opsional

# features are [Recency], [Frequency], [Monetary], [Time]
1 1:2 2:50 3:12500 4:98
1 1:0 2:13 3:3250 4:28

Input yang diharapkan

Nama Jenis Deskripsi
Himpunan Data Tabel Data Himpunan data input

Output

Nama Jenis Deskripsi
Kumpulan data hasil SvmLight Himpunan data output

Lihat juga

Konversi Format Data
Daftar Modul A-Z