Bagikan melalui


Latih Vowpal Wabbit Versi 7-4 Model

Penting

Dukungan untuk Studio Azure Machine Learning (klasik) akan berakhir pada 31 Agustus 2024. Sebaiknya Anda transisi ke Azure Machine Learning sebelum tanggal tersebut.

Mulai 1 Desember 2021, Anda tidak akan dapat membuat sumber daya Studio Azure Machine Learning (klasik) baru. Hingga 31 Agustus 2024, Anda dapat terus menggunakan sumber daya Pembelajaran Mesin Studio (klasik) yang ada.

ML Dokumentasi Studio (klasik) sedang berhenti dan mungkin tidak diperbarui di masa mendatang.

Melatih model menggunakan versi 7-4 dari sistem pembelajaran mesin Vowpal Wabbit

Kategori: Analiză text

Catatan

Berlaku untuk: Pembelajaran Mesin Studio (klasik) saja

Modul drag-and-drop serupa tersedia di Azure Machine Learning desainer.

Ringkasan Modul

Artikel ini menjelaskan cara menggunakan modul Train Vowpal Wabbit Versi 7-4 di Pembelajaran Mesin Studio (klasik), untuk membuat model pembelajaran mesin dengan menggunakan instance Vowpal Wabbit (versi 7-4).

Untuk menggunakan Vowpal Wabbit untuk pembelajaran mesin, format input Anda sesuai dengan persyaratan Vowpal Wabbit, dan simpan data dalam blob Azure. Gunakan modul ini untuk menentukan argumen baris perintah Vowpal Wabbit.

Ketika percobaan dijalankan, instance Vowpal Wabbit dimuat ke dalam run-time percobaan, bersama dengan data yang ditentukan. Ketika pelatihan selesai, model diserialisasikan kembali ke ruang kerja. Anda dapat menggunakan model segera untuk menilai data. Model terlatih juga bertahan di penyimpanan Azure sehingga Anda dapat menggunakannya nanti tanpa harus memproses ulang data pelatihan.

Untuk secara bertahap melatih model yang ada pada data baru, hubungkan model yang disimpan ke input model pra-pelatihan , dan tambahkan data baru ke input lainnya.

Catatan

Pembelajaran Mesin Studio (klasik) menghosting beberapa versi kerangka Vowpal Wabbit. Modul ini menggunakan versi 7-4 dari Vowpal Wabbit. Jika Anda membuat model menggunakan modul ini, Anda harus menggunakan modul penilaian yang sesuai: Skor Vowpal Wabbit 7-4 Model.

Untuk versi terbaru, gunakan Train Vowpal Wabbit Versi 8 Model, bersama dengan modul penilaiannya, Score Vowpal Wabbit 8 Model.

Apa itu Vowpal Wabbit?

Vowpal Wabbit (VW) adalah kerangka kerja pembelajaran mesin paralel cepat yang dikembangkan untuk komputasi terdistribusi oleh Yahoo! Penelitian. Kemudian model pembelajaran mesin ini disesuaikan ke Windows dan diadaptasi oleh John Langford (Microsoft Research) untuk komputasi ilmiah dalam arsitektur paralel.

Fitur Vowpal Wabbit yang penting untuk pembelajaran mesin meliputi pembelajaran berkelanjutan (pembelajaran online), pengurangan dimensi, dan pembelajaran interaktif. Vowpal Wabbit juga merupakan solusi masalah ketika Anda tidak dapat memasukkan data model ke dalam memori.

Pengguna utama Vowpal Wabbit dalam Pembelajaran Mesin adalah ilmuwan data yang sebelumnya telah menggunakan kerangka kerja untuk tugas pembelajaran mesin seperti klasifikasi, regresi, pemodelan topik atau faktorisasi matriks. Pembungkus Azure untuk Vowpal Wabbit memiliki karakteristik kinerja yang sangat mirip dengan versi lokal, yang berarti bahwa pengguna dapat terus membangun model, melatih ulang, dan mencetak gol menggunakan fitur-fitur canggih dan kinerja asli Vowpal Wabbit, sambil mendapatkan kemampuan untuk dengan mudah menerbitkan model terlatih sebagai layanan yang dioperasionalkan.

Modul Hash Fitur juga mencakup fungsionalitas yang disediakan oleh Vowpal Wabbit, yang memungkinkan Anda mengubah himpunan data teks menjadi fitur biner menggunakan algoritme hash.

Cara mengkonfigurasi Model Vowpal Wabbit Versi 8

Bagian ini menjelaskan cara melatih model baru, dan cara menambahkan data baru ke model yang sudah ada.

Tidak seperti modul lain di Studio (klasik), modul ini menentukan parameter modul, dan melatih model. Jika Anda sudah memiliki model saat ini, Anda dapat menambahkannya sebagai input opsional, untuk melatih model secara bertahap.

Penggunaan modul ini memerlukan autentikasi ke akun penyimpanan Azure.

Menyiapkan data input

Untuk melatih model menggunakan modul ini, himpunan data input harus terdiri dari satu kolom teks dalam salah satu dari dua format yang didukung: LibSVM atau VW. Ini tidak berarti bahwa Vowpal Wabbit hanya menganalisis data teks, hanya saja fitur dan nilai harus disiapkan dalam format file teks yang diperlukan.

Data harus dibaca dari penyimpanan Azure. Tidak mungkin menggunakan Data Ekspor untuk langsung menyimpan file input ke Azure untuk digunakan dengan Vowpal Wabbit, karena format memerlukan beberapa modifikasi tambahan. Anda harus memastikan data dalam format yang benar dan kemudian mengunggah data ke penyimpanan blob Azure.

Namun, sebagai pintasan, Anda dapat menggunakan modul Konversi ke SVMLight untuk menghasilkan file format SVMLight. Kemudian, Anda dapat mengunggah file format SVMLight ke penyimpanan blob Azure dan menggunakannya sebagai input, atau Anda dapat memodifikasi file sedikit agar sesuai dengan persyaratan file input Vowpal Wabbit.

Format data Vowpal Wabbit memiliki keunggulan bahwa ia tidak memerlukan format kolom, yang menghemat ruang saat berhadapan dengan data yang jarang. Untuk informasi selengkapnya tentang format ini, lihat halaman Wiki Vowpal Wabbit.

Membuat dan melatih model Vowpal Wabbit

  1. Tambahkan modul Train Vowpal Wabbit Versi 7-4 ke eksperimen Anda.

  2. Tentukan akun tempat data pelatihan disimpan. Model terlatih dan file hashing disimpan di lokasi yang sama.

    • Untuk nama akun penyimpanan Azure, ketik nama akun penyimpanan Azure.

    • Untuk kunci penyimpanan Azure, salin dan tempel kunci yang disediakan untuk mengakses akun penyimpanan,

    Jika Anda tidak memiliki kunci, lihat Cara meregenerasi kunci akses penyimpanan

  3. Untuk nama kontainer Azure, ketik nama satu kontainer di akun penyimpanan Azure yang ditentukan tempat data pelatihan model disimpan. Jangan ketik nama akun atau awalan protokol apa pun.

    Misalnya, jika jalur dan nama kontainer lengkap, https://myaccount.blob.core.windows.net/vwmodelsAnda harus mengetik saja vwmodels. Untuk informasi selengkapnya tentang nama kontainer, lihat Penamaan dan Referensi Kontainer, Blob, dan Metadata.

  4. Dalam kotak teks argumen VW, ketik argumen baris perintah untuk Vowpal Wabbit yang dapat dieksekusi.

    Misalnya, Anda dapat menmbahkan –l untuk menentukan tingkat pembelajaran, atau -b untuk menunjukkan jumlah bit hashing.

    Untuk informasi selengkapnya, lihat bagian parameter .

  5. Nama file VW input: Ketik nama file yang berisi data input. File harus berupa file yang ada di penyimpanan blob Azure, yang terletak di akun dan kontainer penyimpanan yang ditentukan sebelumnya. File harus telah disiapkan menggunakan salah satu format yang didukung.

  6. Nama file model output yang dapat dibaca (--readable_model): Ketik nama file tempat model terlatih harus disimpan. File harus disimpan dalam akun penyimpanan dan kontainer yang sama dengan file input.

    Argumen ini sesuai dengan --readable_model parameter di baris perintah VW.

  7. Nama file hash terbalik output (--invert_hash): Ketik nama file di mana fungsi hashing terbalik harus disimpan. File harus disimpan dalam akun penyimpanan dan kontainer yang sama dengan file input.

    Argumen ini sesuai dengan --invert_hash parameter di baris perintah VW.

  8. Harap tentukan jenis file: Tunjukkan format mana yang digunakan data pelatihan Anda. Vowpal Wabbit mendukung dua format file input berikut:

    • VW mewakili format internal yang digunakan oleh Vowpal Wabbit.

    • SVMLight adalah format yang digunakan oleh beberapa alat pembelajaran mesin lainnya.

  9. Pilih opsi, Gunakan hasil cache, jika Anda tidak ingin memuat data dari penyimpanan setiap kali percobaan reun. Dengan asumsi tidak ada parameter lain yang berubah dan cache yang valid dapat ditemukan, Studio (klasik) menggunakan versi data yang di-cache.

    Jika opsi ini tidak dipilih, modul selalu membaca data dari penyimpanan.

  10. Jalankan eksperimen.

  11. Setelah model dibuat, klik kanan output Train Vowpal Wabbit Versi 7-4 dan pilih Simpan sebagai model terlatih, sehingga Anda dapat menggunakan kembali dan melatih ulang model nanti.

Melatih ulang model Vowpal Wabbit yang ada

Vowpal Wabbit mendukung pelatihan bertahap dengan menambahkan data baru ke model yang ada. Ada dua cara untuk mendapatkan model yang ada untuk pelatihan ulang:

  • Gunakan output modul Train Vowpal Wabbit Versi 7-4 lainnya dalam percobaan yang sama.

  • Temukan model yang disimpan di grup Model Terlatih panel navigasi kiri Studio (klasik), dan seret ke eksperimen Anda.

  1. Tambahkan modul Train Vowpal Wabbit Versi 7-4 ke eksperimen Anda.

  2. Koneksi model yang sebelumnya dilatih ke port input Train Vowpal Wabbit Versi 7-4.

  3. Di panel PropertiTrain Vowpal Wabbit Versi 7-4, tentukan lokasi dan format data pelatihan baru.

  4. Tentukan nama untuk file output model yang dapat dibaca manusia, dan nama lain untuk file hash yang terkait dengan model yang diperbarui.

    Catatan

    Jika ada model Vowpal Wabbit yang ada atau file hash di lokasi yang ditentukan, file diam-diam ditimpa oleh model terlatih baru. Untuk mempertahankan model perantara saat berlatih ulang, Anda harus mengubah lokasi penyimpanan atau membuat salinan lokal file model.

  5. Jalankan eksperimen.

  6. Klik kanan modul dan pilih Simpan sebagai Model Terlatih untuk mempertahankan model yang diperbarui di ruang kerja Pembelajaran Mesin Anda. Jika Anda tidak menentukan nama baru, model yang diperbarui akan menimpa model tersimpan yang sudah ada.

Contoh

Untuk contoh bagaimana Vowpal Wabbit dapat digunakan dalam pembelajaran mesin, lihat Galeri AI Azure:

  • Sampel Vowpal Wabbit

    Eksperimen ini menunjukkan persiapan data, pelatihan, dan operasionalisasi model VW.

Juga, lihat sumber daya ini:

Catatan teknis

Bagian ini berisi detail implementasi, tips, dan jawaban atas pertanyaan yang sering diajukan.

Keuntungan dari Vowpal Wabbit

Vowpal Wabbit memberikan pembelajaran yang sangat cepat melalui fitur non-linear seperti n-gram.

Vowpal Wabbit menggunakan teknik pembelajaran online seperti stochastic gradient descent (SGD) agar sesuai dengan model satu baris sekaligus. Dengan demikian model ini beriterasi sangat cepat atas data mentah dan dapat mengembangkan prediktor yang baik yang lebih cepat daripada kebanyakan model lainnya. Pendekatan ini juga menghindari harus membaca semua data pelatihan ke dalam memori.

Vowpal Wabbit mengonversi semua data menjadi hash, bukan hanya data teks tetapi variabel kategoris lainnya. Menggunakan hash membuat pencarian bobot regresi lebih efisien, yang sangat penting untuk penurunan gradien stokastik yang efektif.

Selama pelatihan, modul melakukan panggilan ke pembungkus Vowpal Wabbit yang dikembangkan untuk Azure. Data pelatihan diunduh dalam blok dari Azure, memanfaatkan bandwidth tinggi antara peran pekerja yang mengeksekusi perhitungan dan toko, dan dialirkan ke pelajar VW. Model yang dihasilkan umumnya sangat kompak karena kompresi internal yang dilakukan oleh VW. Model ini disalin kembali ke ruang kerja percobaan di mana ia dapat digunakan seperti model lain di Pembelajaran Mesin.

Parameter yang didukung dan tidak didukung

Anda tidak dapat menggunakan argumen baris perintah berikut di Pembelajaran Mesin Studio (klasik).

  • Opsi masukan/keluaran yang ditentukan dalam https://github.com/JohnLangford/vowpal_wabbit/wiki/Command-line-arguments

    Properti ini sudah dikonfigurasikan secara otomatis oleh modul.

  • Selain itu, opsi apa pun yang menghasilkan beberapa keluaran atau mengambil beberapa masukan tidak diizinkan. Ini termasuk --cbt , --lda , dan --wap .

  • Hanya algoritme pembelajaran yang diawasi yang didukung. Oleh karena itu, opsi ini tidak didukung: –active, , --rankdll --search .

Semua argumen selain yang dijelaskan di atas diizinkan.

Untuk daftar lengkap argumen, gunakan halaman wiki Vowpal Wabbit.

Batasan

Karena tujuan layanan ini adalah untuk mendukung pengguna Vowpal Wabbit yang berpengalaman, data input harus disiapkan sebelumnya menggunakan format teks asli Vowpal Wabbit, daripada format himpunan data yang digunakan oleh modul lain.

Alih-alih menggunakan data di ruang kerja ML Azure, data pelatihan langsung dialirkan dari Azure, untuk kinerja maksimal dan penguraian minimal di atas kepala. Untuk alasan ini, hanya ada interoperabilitas terbatas antara modul VW dan modul lain di Azure ML.

Parameter modul

Nama Rentang Jenis Default Deskripsi
Nama akun penyimpanan Azure apa pun String tidak ada Ketik nama akun penyimpanan Azure
Kunci penyimpanan Azure apa pun SecureString tidak ada Menyediakan kunci penyimpanan Azure
Nama kontainer Azure apa pun String tidak ada Ketik nama kontainer Azure
Argumen VW apa pun String tidak ada Tentukan argumen Vowpal Wabbit apa pun.

Argumen –f tidak didukung.
Nama file VW input apa pun String tidak ada Tentukan nama file input dalam format Vowpal Wabbit
Nama file model output yang dapat dibaca (--readable_model) apa pun String Jika ditentukan, mengeluarkan model yang dapat dibaca kembali ke kontainer Azure.

Argumen ini bersifat opsional.
Nama file hash terbalik keluaran (--invert_hash) apa pun String Jika ditentukan, output file yang berisi fungsi hash terbalik kembali ke kontainer Azure.

Argumen ini bersifat opsional.
Harap tentukan tipe file VW

SVMLight
DataType VW Tunjukkan apakah jenis file menggunakan format SVMLight atau format Vowpal Wabbit.

Output

Nama Jenis Deskripsi
Model terlatih Antarmuka ILearner Pembelajar terlatih

Pengecualian

Pengecualian Deskripsi
Kesalahan 0001 Pengecualian terjadi jika satu atau beberapa kolom himpunan data tertentu tidak dapat ditemukan.
Kesalahan 0003 Pengecualian terjadi jika satu atau beberapa input null atau kosong.
Kesalahan 0004 Pengecualian terjadi jika parameter kurang dari atau sama dengan nilai tertentu.
Kesalahan 0017 Pengecualian terjadi jika satu atau beberapa kolom tertentu memiliki jenis yang tidak didukung oleh modul saat ini.

Untuk daftar kesalahan khusus untuk modul Studio (klasik), lihat Pembelajaran Mesin Kode kesalahan.

Untuk daftar pengecualian API, lihat Pembelajaran Mesin Kode Kesalahan REST API.

Lihat juga

Text Analytics
Hashing Fitur
Pengenalan Entitas Bernama
Skor Vowpal Wabbit 7-4 Model
Kereta Vowpal Wabbit
Daftar Modul A-Z