Bagikan melalui


Transformasi Penghitungan Build

Penting

Dukungan untuk Studio Azure Machine Learning (klasik) akan berakhir pada 31 Agustus 2024. Sebaiknya Anda transisi ke Azure Machine Learning sebelum tanggal tersebut.

Mulai 1 Desember 2021, Anda tidak akan dapat membuat sumber daya Studio Azure Machine Learning (klasik) baru. Hingga 31 Agustus 2024, Anda dapat terus menggunakan sumber daya Pembelajaran Mesin Studio (klasik) yang ada.

ML Dokumentasi Studio (klasik) sedang berhenti dan mungkin tidak diperbarui di masa mendatang.

Membuat transformasi yang mengubah tabel hitungan menjadi fitur, sehingga Anda dapat menerapkan transformasi ke beberapa himpunan data

Kategori: Pembelajaran dengan Hitungan

Catatan

Berlaku untuk: Pembelajaran Mesin Studio (klasik) saja

Modul drag-and-drop serupa tersedia di Azure Machine Learning desainer.

Ringkasan Modul

Artikel ini menjelaskan cara menggunakan modul Build Counting Transform di Pembelajaran Mesin Studio (klasik), untuk menganalisis data pelatihan. Dari data ini, modul membangun tabel hitungan serta serangkaian fitur berbasis hitungan yang dapat digunakan dalam model prediktif.

Tabel hitungan berisi distribusi gabungan dari semua kolom fitur, diberikan kolom label tertentu. Statistik semacam itu berguna dalam menentukan kolom mana yang memiliki nilai informasi paling banyak. Featurization berbasis count berguna karena fitur tersebut lebih ringkas daripada data pelatihan asli, tetapi menangkap semua informasi yang paling berguna. Anda dapat menggunakan parameter modul untuk menyesuaikan bagaimana jumlah diubah menjadi kumpulan fitur berbasis hitungan baru.

Setelah menghasilkan hitungan dan mengubahnya menjadi fitur, Anda dapat menyimpan proses sebagai transformasi untuk digunakan kembali pada data terkait. Anda juga dapat memodifikasi serangkaian fitur tanpa harus menghasilkan serangkaian hitungan baru, atau menggabungkan jumlah dan fitur dengan serangkaian jumlah dan fitur lain.

Kemampuan untuk menggunakan kembali dan menerapkan kembali fitur berbasis hitungan berguna dalam skenario seperti ini:

  • Data baru menjadi tersedia untuk meningkatkan cakupan atau keseimbangan himpunan data Anda.
  • Jumlah dan fitur asli Anda didasarkan pada himpunan data yang sangat besar yang tidak ingin Anda proses ulang. Dengan menggabungkan jumlah, Anda dapat memperbarui dengan data baru.
  • Anda ingin memastikan bahwa kumpulan fitur berbasis hitungan yang sama diterapkan ke semua himpunan data yang Anda gunakan dalam eksperimen Anda.

Cara mengonfigurasi Transformasi Penghitungan Build

Anda dapat membuat transformasi fitur berbasis hitungan langsung dari himpunan data, dan menjalankannya kembali setiap kali Anda menjalankan eksperimen. Atau, Anda dapat menghasilkan serangkaian jumlah, lalu menggabungkannya dengan data baru untuk membuat tabel hitungan yang diperbarui.

  • Membuat fitur berbasis hitungan dari himpunan data

    Mulailah di sini jika Anda belum membuat hitungan sebelumnya. Anda menggunakan modul Build Counting Transform untuk membuat tabel hitungan dan secara otomatis menghasilkan serangkaian fitur.

    Proses ini menciptakan transformasi fitur yang dapat Anda terapkan ke himpunan data, menggunakan modul Terapkan Transformasi .

  • Menggabungkan jumlah dan fitur dari beberapa himpunan data

    Jika Anda telah membuat tabel hitungan dari himpunan data sebelumnya, buat jumlah hanya pada data baru, atau impor tabel hitungan yang sudah ada yang dibuat dalam versi Pembelajaran Mesin sebelumnya. Kemudian, gabungkan dua set tabel hitungan

    Proses ini menciptakan transformasi fitur baru yang dapat Anda terapkan ke himpunan data, menggunakan modul Terapkan Transformasi .

Membuat fitur berbasis hitungan dari himpunan data

  1. Di Pembelajaran Mesin Studio (klasik), tambahkan modul Build Counting Transform ke eksperimen Anda. Anda dapat menemukan modul di bawah Transformasi Data, dalam kategori Pembelajaran dengan Hitungan.

  2. Koneksi himpunan data yang ingin Anda gunakan sebagai dasar untuk fitur berbasis hitungan kami.

  3. Gunakan opsi Jumlah kelas untuk menentukan jumlah nilai di kolom label Anda.

    • Untuk masalah klasifikasi biner, ketik 2.
    • Untuk masalah klasifikasi dengan lebih dari dua kemungkinan output, Anda harus menentukan terlebih dahulu jumlah kelas yang tepat untuk dihitung. Jika Anda memasukkan angka yang kurang dari jumlah kelas yang sebenarnya, modul akan mengembalikan kesalahan.
    • Jika himpunan data Anda berisi beberapa nilai kelas dan nilai label kelas tidak berurutan, Anda harus menggunakan Edit Metadata untuk menentukan bahwa kolom berisi nilai kategoris.
  4. Untuk opsi , Bit fungsi hash, menunjukkan berapa banyak bit yang digunakan saat hashing nilai.

    Umumnya aman untuk menerima default, kecuali jika Anda tahu bahwa ada banyak nilai untuk dihitung dan jumlah bit yang lebih tinggi mungkin diperlukan.

  5. Dalam Benih fungsi hash, Anda dapat secara opsional menentukan nilai untuk menyemai fungsi hashing. Pengaturan benih secara manual biasanya dilakukan ketika Anda ingin memastikan bahwa hasil hashing bersifat deterministik di seluruh menjalankan eksperimen yang sama.

  6. Gunakan opsi Tipe modul untuk menunjukkan jenis data yang akan Anda hitung, berdasarkan mode penyimpanan:

    • Himpunan data: Pilih opsi ini jika Anda menghitung data yang disimpan sebagai himpunan data di Pembelajaran Mesin Studio (klasik).

    • Blob: Pilih opsi ini jika data sumber Anda yang digunakan untuk membuat jumlah disimpan sebagai blob blok di penyimpanan Windows Azure.

    • MapReduce: Pilih opsi ini jika Anda ingin memanggil fungsi Map/Reduce untuk memproses data.

      Untuk menggunakan opsi ini, data baru harus disediakan sebagai blob di penyimpanan Azure Windows, dan Anda harus memiliki akses ke kluster HDInsight yang disebarkan. Saat Anda menjalankan eksperimen, pekerjaan Map/Reduce diluncurkan di kluster untuk melakukan penghitungan.

      Untuk himpunan data yang sangat besar, kami sarankan Anda menggunakan opsi ini bila memungkinkan. Meskipun Anda mungkin dikenakan biaya tambahan untuk menggunakan layanan HDInsight, perhitungan melalui dataset besar mungkin lebih cepat dalam HDInsight.

      Untuk informasi selengkapnya, lihat https://azure.microsoft.com/services/hdinsight/.

  7. Setelah menentukan mode penyimpanan data, berikan informasi koneksi tambahan untuk data yang diperlukan:

    • Jika Anda menggunakan data dari Hadoop atau penyimpanan blob, berikan lokasi dan kredensial kluster.
    • Jika sebelumnya Anda menggunakan modul Impor Data dalam percobaan untuk mengakses data, Anda harus memasukkan kembali nama akun dan kredensial Anda. Modul Build Counting Transform mengakses penyimpanan data secara terpisah untuk membaca data dan membangun tabel yang diperlukan.
  8. Untuk Kolom atau indeks Label, pilih satu kolom sebagai kolom label.

    Kolom label diperlukan. Kolom harus sudah ditandai sebagai label atau kesalahan dinaikkan.

  9. Gunakan opsi, Pilih kolom untuk dihitung, dan pilih kolom yang akan menghasilkan jumlah.

    Secara umum, kandidat terbaik adalah kolom dimensi tinggi, bersama dengan kolom lain yang berkorelasi dengan kolom tersebut.

  10. Gunakan opsi Tipe tabel Hitung untuk menentukan format yang digunakan untuk menyimpan tabel hitungan.

    • Kamus: Membuat tabel jumlah kamus. Semua nilai kolom dalam kolom yang dipilih diperlakukan sebagai string, dan di-hash menggunakan array bit berukuran hingga 31 bit. Oleh karena itu, semua nilai kolom diwakili oleh bilangan bulat 32-bit non-negatif.

      Secara umum, Anda harus menggunakan opsi ini untuk kumpulan data yang lebih kecil (kurang dari 1 GB), dan menggunakan opsi CMSketch untuk himpunan data yang lebih besar.

      Setelah memilih opsi ini, konfigurasikan jumlah bit yang digunakan oleh fungsi hashing, dan atur benih untuk menginsialisasi fungsi hash.

    • CMSketch: Membuat tabel sketsa minimum hitungan. Dengan opsi ini, beberapa fungsi hash independen dengan jangkauan yang lebih kecil digunakan untuk meningkatkan efisiensi memori dan mengurangi kemungkinan tabrakan hash. Parameter untuk hashing ukuran bit dan hashing seed tidak berpengaruh pada opsi ini.

  11. Jalankan eksperimen.

    Modul ini menciptakan transformasi featurization yang dapat Anda gunakan sebagai input ke modul Terapkan Transformasi . Output dari modul Apply Transformation adalah himpunan data yang diubah yang dapat digunakan untuk melatih model.

    Secara opsional, Anda dapat menyimpan transformasi jika Anda ingin menggabungkan kumpulan fitur berbasis hitungan dengan serangkaian fitur berbasis hitungan lainnya. Untuk informasi selengkapnya, lihat Menggabungkan Transformasi Hitungan.

Menggabungkan jumlah dan fitur dari beberapa himpunan data

  1. Di Pembelajaran Mesin Studio (klasik), tambahkan modul Build Counting Transform ke eksperimen Anda, dan hubungkan himpunan data yang berisi data baru yang ingin Anda tambahkan.

  2. Gunakan opsi Tipe modul untuk menunjukkan sumber data baru. Anda dapat menggabungkan data dari berbagai sumber.

    • Himpunan data: Pilih opsi ini jika data baru disediakan sebagai himpunan data di Pembelajaran Mesin Studio (klasik).

    • Blob: Pilih opsi ini jika data baru disediakan sebagai blob blok di penyimpanan Windows Azure.

    • MapReduce: Pilih opsi ini jika Anda ingin memanggil fungsi Map/Reduce untuk memproses data.

      Untuk menggunakan opsi ini, data baru harus disediakan sebagai blob di penyimpanan Azure Windows, dan Anda harus memiliki akses ke kluster HDInsight yang disebarkan. Saat Anda menjalankan eksperimen, pekerjaan Map/Reduce akan diluncurkan di kluster untuk melakukan penghitungan.

      Untuk informasi selengkapnya, lihat https://azure.microsoft.com/services/hdinsight/

  3. Setelah menentukan mode penyimpanan data, berikan informasi koneksi tambahan untuk data baru:

    • Jika Anda menggunakan data dari Hadoop atau penyimpanan blob, berikan lokasi dan kredensial kluster.

    • Jika sebelumnya Anda menggunakan modul Impor Data dalam percobaan untuk mengakses data, Anda harus memasukkan kembali nama akun dan kredensial Anda. Alasannya adalah bahwa modul Build Counting Transform mengakses penyimpanan data secara terpisah untuk membaca data dan membangun tabel yang diperlukan.

  4. Saat menggabungkan jumlah, opsi berikut harus persis sama di kedua tabel hitungan:

    • Jumlah kelas
    • Bit fungsi hash
    • Benih fungsi hash
    • Pilih kolom untuk dihitung

    Kolom label bisa berbeda, asalkan berisi jumlah kelas yang sama.

  5. Gunakan opsi Hitung tipe tabel untuk menentukan format dan tujuan untuk tabel jumlah yang diperbarui.

    Tip

    Format dua tabel hitungan yang ingin Anda gabungkan harus sama. Dengan kata lain, jika Anda menyimpan tabel hitungan sebelumnya menggunakan format Kamus , Anda tidak dapat menggabungkannya dengan hitungan yang disimpan menggunakan format CMSketch .

  6. Jalankan eksperimen.

    Modul ini menciptakan transformasi featurization yang dapat Anda gunakan sebagai input ke modul Terapkan Transformasi . Output dari modul Apply Transformation adalah himpunan data yang diubah yang dapat digunakan untuk melatih model.

  7. Untuk menggabungkan kumpulan jumlah ini dengan kumpulan fitur berbasis hitungan yang ada, lihat Menggabungkan Transformasi Hitung.

Contoh

Lihat artikel ini untuk informasi lebih lanjut tentang algoritma hitungan dan kemanjuran pemodelan berbasis hitungan dibandingkan dengan metode lain.

Eksperimen berikut di Azure AI Gallery menunjukkan cara menggunakan pembelajaran berbasis hitungan untuk membangun berbagai model prediktif:

Parameter modul

Parameter berikut digunakan dengan semua opsi:

Nama Jenis Rentang Opsional Default Deskripsi
Jumlah kelas Bilangan bulat >=2 Diperlukan 2 Jumlah kelas untuk label.
Bit fungsi hash Bilangan bulat [12;31] Diperlukan 20 Jumlah bit dari rentang fungsi hash.
Benih fungsi hash Bilangan bulat apa pun Diperlukan 1 Benih untuk fungsi hash.
Tipe modul Diperlukan Himpunan Data Jenis modul yang akan digunakan saat membuat tabel hitungan.
Hitung tipe tabel CountTableType pilih dari daftar Diperlukan Kamus Tentukan format tabel hitungan.

Opsi berikut berlaku saat memilih opsi blob .

Nama Jenis Rentang Opsional Default Deskripsi
Nama blob String apa pun Diperlukan Nama blob input. Jangan sertakan nama kontainer.
Nama akun String apa pun Diperlukan Nama akun penyimpanan.
Kunci akun SecureString apa pun Diperlukan Kunci dari akun penyimpanan.
Nama kontainer String apa pun Diperlukan Kontainer blob Azure yang berisi blob input.
Hitung kolom String apa pun Diperlukan Indeks satu berbasis kelompok kolom untuk melakukan penghitungan.
Kolom label Bilangan bulat >=1 Diperlukan 1 Indeks satu berbasis kolom label.
Format blob apa pun Diperlukan CSV Format file teks blob.

Parameter berikut berlaku saat menggunakan MapReduce untuk menghasilkan jumlah:

Nama Jenis Rentang Opsional Default Deskripsi
Akun penyimpanan default String apa pun Diperlukan tidak ada Nama akun penyimpanan yang berisi blob input.
Kunci akun penyimpanan default SecureString apa pun Diperlukan tidak ada Kunci akun penyimpanan yang berisi blob input.
Nama kontainer default String apa pun Diperlukan tidak ada Nama kontainer blob untuk menulis tabel hitungan.
Cluster URI String apa pun Diperlukan tidak ada URI ke kluster HDInsight Hadoop.
Nama Pengguna String apa pun Diperlukan tidak ada Nama pengguna untuk masuk ke kluster HDInsight Hadoop.

Parameter berikut menentukan format tabel hitungan:

Nama Jenis Rentang Opsional Default Deskripsi
Hitung tipe tabel CountTableType Daftar Diperlukan Kamus Jenis tabel hitungan.
Indeks atau nama kolom label Pilihan Kolom Diperlukan jika tabel hitungan disimpan sebagai Himpunan Data tidak ada Pilih kolom label.
Pilih kolom untuk dihitung Pilihan Kolom Diperlukan jika tabel hitungan disimpan sebagai Himpunan Data Pilih kolom untuk dihitung. Kolom ini dianggap sebagai fitur kategoris.
Kedalaman tabel sketsa CM Bilangan bulat >=1 Diperlukan jika tabel hitungan menggunakan format CMSketch 4 Kedalaman tabel sketsa CM, yang sama dengan jumlah fungsi hash.
Lebar tabel sketsa CM Bilangan bulat [1;31] Diperlukan jika tabel hitungan menggunakan format CMSketch 20 Lebar tabel sketsa CM, yang merupakan jumlah bit dari rentang fungsi hash.
Indeks kolom label atau namecolumn Pilihan Kolom Diperlukan jika tabel hitungan disimpan sebagai Himpunan Data Memilih kolom label.
Pilih kolom untuk dihitung Pilihan Kolom Diperlukan jika tabel hitungan disimpan sebagai Himpunan Data Memilih kolom untuk dihitung. Kolom ini dianggap sebagai fitur kategoris.
Hitung tipe tabel Diperlukan jika tabel hitungan disimpan sebagai Himpunan Data Kamus Menentukan jenis tabel hitungan.
Kedalaman tabel sketsa CM Bilangan bulat >=1 Diperlukan jika tabel hitungan disimpan sebagai CMSketch 4 Kedalaman tabel sketsa CM, yang sama dengan jumlah fungsi hash.
Lebar tabel sketsa CM Bilangan bulat [1;31] Diperlukan jika tabel hitungan disimpan sebagai CMSketch 20 Lebar tabel sketsa CM, yang merupakan jumlah bit dari rentang fungsi hash.

Output

Nama Jenis Deskripsi
Transformasi penghitungan Antarmuka ITransform Transformasi penghitungan.

Pengecualian

Pengecualian Deskripsi
Kesalahan 0003 Pengecualian terjadi jika satu atau beberapa input null atau kosong.
Kesalahan 0004 Pengecualian terjadi jika parameter kurang dari atau sama dengan nilai tertentu.
Kesalahan 0005 Pengecualian terjadi jika parameter kurang dari nilai tertentu.
Kesalahan 0007 Pengecualian terjadi jika parameter lebih besar dari nilai tertentu.
Kesalahan 0009 Pengecualian terjadi jika nama akun penyimpanan Azure atau nama kontainer salah ditentukan.
Kesalahan 0065 Pengecualian terjadi jika nama blob Azure ditentukan secara salah.
Kesalahan 0011 Pengecualian terjadi jika argumen kumpulan kolom yang dilewatkan tidak berlaku untuk kolom himpunan data mana pun.
Kesalahan 0049 Pengecualian terjadi dalam kasus ketika tidak dimungkinkan untuk mengurai file.
Kesalahan 1000 Pengecualian pustaka internal.
Kesalahan 0059 Pengecualian terjadi jika indeks kolom yang ditentukan dalam pemilih kolom tidak dapat diurai.
Kesalahan 0060 Pengecualian terjadi saat rentang kolom yang di luar jangkauan ditentukan dalam pemilih kolom.
Kesalahan 0089 Pengecualian terjadi ketika jumlah kelas yang ditentukan kurang dari jumlah sebenarnya kelas dalam himpunan data yang digunakan untuk menghitung.

Untuk daftar kesalahan khusus untuk modul Studio (klasik), lihat Pembelajaran Mesin Kode kesalahan.

Untuk daftar pengecualian API, lihat Pembelajaran Mesin Kode Kesalahan REST API.

Lihat juga

Pembelajaran dengan Hitungan