Bagikan melalui


Nilai Kategoris Grup

Penting

Dukungan untuk Studio Azure Machine Learning (klasik) akan berakhir pada 31 Agustus 2024. Sebaiknya Anda transisi ke Azure Machine Learning sebelum tanggal tersebut.

Mulai 1 Desember 2021, Anda tidak akan dapat membuat sumber daya Studio Azure Machine Learning (klasik) baru. Hingga 31 Agustus 2024, Anda dapat terus menggunakan sumber daya Pembelajaran Mesin Studio (klasik) yang ada.

ML Dokumentasi Studio (klasik) sedang berhenti dan mungkin tidak diperbarui di masa mendatang.

Mengelompokkan data dari beberapa kategori ke dalam kategori baru

Kategori: Transformasi / Manipulasi Data

Catatan

Berlaku untuk: Pembelajaran Mesin Studio (klasik) saja

Modul drag-and-drop serupa tersedia di Azure Machine Learning desainer.

Ringkasan Modul

Artikel ini menjelaskan cara menggunakan modul Nilai Kategoris Grup di Pembelajaran Mesin Studio (klasik), untuk membuat tabel pencarian di tempat.

Penggunaan khas untuk mengelompokkan nilai kategoris adalah menggabungkan beberapa nilai string menjadi satu level baru. Misalnya, Anda dapat menetapkan kode pos individual di suatu wilayah ke satu kode regional, atau mengelompokkan beberapa produk di bawah satu kategori.

Untuk menggunakan modul ini, Anda mengetikkan nilai pencarian yang ingin Anda gunakan, dan memetakan nilai yang ada ke nilai pengganti. Anda dapat membuat pengelompokan hanya untuk kolom kategoris, bukan ke kolom tipe numerik atau kolom yang ditetapkan sebagai label atau fitur.

Setiap nilai kolom yang tidak dipetakan secara eksplisit ke tingkat baru ditetapkan ke tingkat default. Misalnya, jika Anda tidak memetakan semua kode pos individual, kode tersebut akan dikelompokkan dalam tingkat untuk nilai yang belum dipetakan, yang mungkin Anda beri nama Tidak Diketahui.

Catatan

Maksimal 20 level baru dapat dibuat, termasuk level default. Jika Anda membutuhkan lebih banyak nilai, atau perlu menentukan pemetaan secara dinamis, sebaiknya gunakan skrip R kustom di modul Execute R Script . Atau, gunakan pernyataan SQL dalam modul Terapkan transformasi SQL.

Cara menggunakan Nilai Kategoris Grup

Sebaiknya siapkan daftar nilai yang ada, dan kategori baru, sebelumnya. Untuk setiap kategori, Anda harus menyiapkan nama kategori baru, dan daftar nilai yang dipisahkan koma untuk disertakan dalam kategori.

  1. Tambahkan modul Nilai Kategoris Grup ke eksperimen Anda. Anda dapat menemukan modul di bawah Transformasi Data, Manipulasi.

  2. Koneksi himpunan data yang memiliki nilai yang ingin Anda ubah.

  3. Di panel PropertiNilai Kategoris Grup, gunakan Pemilih Kolom untuk memilih kolom yang memiliki level yang ingin Anda kurangi.

    • Sebaiknya klik MULAI DENGAN dan TANPA KOLOM untuk memulai, lalu tambahkan kolom berdasarkan nama. Jika tidak, terlalu banyak kolom dapat ditambahkan sebagai kandidat, yang menyebabkan kesalahan.

    • Kolom harus merupakan kolom kategoris. Jika tidak, tambahkan Edit Metadata di hulu, dan ubah tipe kolom.

    • Pastikan untuk menghapus dari input kolom apa pun yang penggantian stringnya tidak boleh diterapkan.

  4. Untuk mode Output, tunjukkan apakah Anda ingin mengeluarkan hanya level baru, atau tambahkan perubahan untuk melihat kolom asli, dengan penggantian berdampingan.

    Default, ResultOnly, hanya menampilkan nilai baru. Opsi Inplace menggantikan nilai kolom yang ada dengan level baru.

  5. Untuk Nama tingkat Default, ketik nilai string untuk digunakan sebagai pengganti semua nilai yang tidak dipetakan secara eksplisit. Anda dapat menggunakan sesuatu seperti "Tidak Diketahui" atau "Default".

    Catatan

    Nilai tingkat default ini diterapkan ke semua nilai yang tidak dapat dipetakan. Jika Anda secara tidak sengaja menyertakan kolom yang tidak ingin Anda petakan, nilai akan diterapkan ke semua nilai di kolom. Oleh karena itu, periksa apakah pemilihan kolom akurat sebelum diproses.

  6. Untuk Jumlah level baru, ketik angka yang menunjukkan jumlah total kategori baru (level), termasuk tingkat default untuk nilai yang belum dipetakan.

  7. Untuk Nama level baru 1, berikan nama grup baru untuk kategori pertama.

  8. Dalam kotak teks yang segera mengikuti, daftar level lama yang dipisahkan Koma untuk dipetakan ke level 1 baru, ketik atau tempelkan daftar lengkap semua nilai untuk dipetakan ke tingkat yang baru. Karakter wildcard dan ekspresi reguler tidak diperbolehkan.

  9. Lanjutkan untuk mengetik nama level baru dan ketik atau tempelkan nilai yang harus dipetakan ke tingkat yang baru.

    Sebaiknya simpan daftar nilai Anda dalam file terpisah saat Anda bekerja. Jika Anda mengubah jumlah level, string apa pun yang sebelumnya Anda ketik akan dihapus, dan Anda harus memulai dari awal.

    Namun, jika Anda mengedit modul yang sebelumnya disimpan, Anda dapat kembali ke pengaturan aslinya.

  10. Jalankan eksperimen.

Hasil

Untuk melihat hasilnya, klik kanan modul Nilai Kategoris Grup , pilih Kumpulan data Hasil, dan klik Visualisasikan.

Contoh

Untuk contoh pembelajaran mesin yang sedang beraksi, lihat Galeri AI Azure.

Anda juga dapat mencoba modul ini sendiri, dengan menggunakan dataset kecil dengan beberapa variabel string yang dapat dengan mudah dikelompokkan, seperti dataset harga Mobil yang disediakan di Pembelajaran Mesin Studio (klasik).

Mari kita asumsikan bahwa Anda ingin mengelompokkan mobil dalam dataset harga Mobil berdasarkan ukuran mesin, menggunakan jumlah silinder. Daripada banyak ukuran mesin yang berbeda, Anda akan membuat level baru, "besar", "kecil", dan "lainnya" sebagai berikut:

  • Mesin besar: enam silinder atau lebih besar
  • Mesin kecil: dua atau empat silinder
  • Lainnya: hal lain
  1. Tambahkan modul Pilih Kolom dalam Himpunan Data , dan pilih hanya num-of-cylinders kolom.
  2. Tambahkan modul Edit Metadata , dan ubah kolom menjadi num-of-cylindersKategoris.
  3. Tambahkan modul Nilai Kategoris Grup dan hubungkan himpunan data yang dimodifikasi.
  4. Untuk nama tingkat Default, ketik other. Anda tidak perlu memberikan nilai untuk level ini.
  5. Untuk Nama level baru 1, ketik big. Dalam daftar level lama untuk dipetakan ke level 1, tempelkan six, eight, twelve.
  6. Untuk Nama level baru 2, ketik small. Untuk nilai yang dipetakan, tempelkan .two, four
  7. Jalankan eksperimen.
  8. Ketika Anda memvisualisasikan hasilnya, Anda menyadari bahwa dataset asli memiliki beberapa ukuran mesin aneh yang tidak Anda pertanggungjawabkan, seperti five dan three. Semua item tersebut dipetakan ke other level.

Catatan teknis

Bagian ini berisi detail implementasi, tips, dan jawaban atas pertanyaan yang sering diajukan.

  • Anda mungkin menemukan pesan kesalahan, "Kolom dengan nama "<nama> kolom" tidak dalam kategori yang diizinkan."

    Pesan ini menunjukkan bahwa kolom yang Anda pilih bukan kolom kategoris. Anda dapat menandai kolom seperti Categorical dengan menggunakan Edit Metadata, atau pilih kolom lain yang berisi nilai kategori yang sesuai.

Input yang diharapkan

Nama Jenis Deskripsi
Himpunan Data Tabel Data Data ke grup

Parameter modul

Nama Rentang Jenis Default Deskripsi
Kolom yang dipilih apa pun Pilihan Kolom CategoricalAll Pilih kolom yang akan dikelompokkan.
Mode output apa pun OutputTo HasilOnly Tentukan bagaimana label kategori harus dikeluarkan.
Nama tingkat default apa pun String Tunjukkan tingkat default yang akan digunakan jika tidak ada pemetaan yang cocok.
Jumlah level baru Daftar Jumlah grup Tentukan jumlah level setelah nilai dikelompokkan, termasuk tingkat default.

Output

Nama Jenis Deskripsi
Kumpulan data hasil Tabel Data Data yang dikelompokkan

Lihat juga

Manipulasi
Transformasi Data
Daftar Modul A-Z