Bagikan melalui


Tetapkan Data ke Kluster

Penting

Dukungan untuk Studio Azure Machine Learning (klasik) akan berakhir pada 31 Agustus 2024. Sebaiknya Anda transisi ke Azure Machine Learning sebelum tanggal tersebut.

Mulai 1 Desember 2021, Anda tidak akan dapat membuat sumber daya Studio Azure Machine Learning (klasik) baru. Hingga 31 Agustus 2024, Anda dapat terus menggunakan sumber daya Pembelajaran Mesin Studio (klasik) yang ada.

ML Dokumentasi Studio (klasik) sedang berhenti dan mungkin tidak diperbarui di masa mendatang.

Menetapkan data ke kluster menggunakan model pengelompokan terlatih yang ada

Kategori: Skor

Catatan

Berlaku untuk: Pembelajaran Mesin Studio (klasik) saja

Modul drag-and-drop serupa tersedia di Azure Machine Learning desainer.

Ringkasan Modul

Artikel ini menjelaskan cara menggunakan modul Tetapkan Data ke Kluster di Pembelajaran Mesin Studio (klasik), untuk menghasilkan prediksi menggunakan model pengelompokan yang dilatih menggunakan algoritma pengelompokan K-Means.

Modul mengembalikan himpunan data yang berisi kemungkinan tugas untuk setiap titik data baru. Ini juga membuat grafik PCA (Principal Component Analysis) untuk membantu Anda memvisualisasikan dimensi cluster.

Peringatan

Modul ini menggantikan modul Tetapkan ke Kluster (usang), yang hanya tersedia untuk mendukung eksperimen yang lebih lama.

Cara menggunakan Tetapkan Data ke Kluster

  1. Di Pembelajaran Mesin Studio (klasik), temukan model pengelompokan yang sebelumnya terlatih. Anda dapat membuat dan melatih model pengelompokan dengan menggunakan salah satu metode ini:

    Anda juga dapat menambahkan model pengklusterab terlatih yang ada dari grup Model Tersimpan di ruang kerja Anda.

  2. Lampirkan model terlatih ke port input sebelah kiri pada Tetapkan Data ke Kluster.

  3. Lampirkan himpunan data baru sebagai input. Dalam himpunan data ini, label bersifat opsional. Umumnya, clustering adalah metode pembelajaran tanpa pengawasan sehingga tidak diharapkan bahwa Anda akan tahu kategori sebelumnya.

    Namun, kolom input harus sama dengan kolom yang digunakan dalam melatih model pengklusteran, atau akan terjadi kesalahan.

    Tip

    Untuk mengurangi jumlah output kolom dari prediksi kluster, gunakan Pilih Kolom dalam Himpunan Data, dan pilih subset kolom.

  4. Biarkan opsi Periksa Tambah atau Hapus Centang untuk Hasil Hanya dipilih jika Anda ingin hasilnya berisi himpunan data input penuh, bersama dengan kolom yang menunjukkan hasil (penetapan kluster).

    Jika Anda membatalkan pilihan opsi ini, Anda mendapatkan kembali hanya hasilnya. Ini mungkin berguna saat membuat prediksi sebagai bagian dari layanan web.

  5. Jalankan eksperimen.

Hasil

Modul Tetapkan Data ke Kluster mengembalikan dua jenis hasil pada output himpunan data Hasil :

  • Untuk melihat pemisahan kluster dalam model, klik output modul dan pilih Visualisasikan

    Perintah ini menampilkan grafik Principal Component Analysis (PCA) yang memetakan kumpulan nilai di setiap kluster menjadi dua sumbu komponen.

    • Sumbu komponen pertama adalah kumpulan fitur gabungan yang menangkap varians paling banyak dalam model. Ini diplot pada sumbu x (Komponen Utama 1).
    • Sumbu komponen berikutnya mewakili beberapa rangkaian fitur gabungan yang ortogonal ke komponen pertama dan yang menambahkan informasi paling berikutnya ke grafik. Ini diplot pada sumbu y (Komponen Utama 2).

    Dari grafik, Anda dapat melihat pemisahan antara cluster, dan bagaimana cluster didistribusikan di sepanjang sumbu yang mewakili komponen utama.

  • Untuk melihat tabel hasil untuk setiap kasus dalam data input, lampirkan modul Konversi ke Himpunan Data , dan visualisasikan hasil di Studio (klasik).

    Himpunan data ini berisi penetapan kluster untuk setiap kasus, dan metrik jarak yang memberi Anda beberapa indikasi seberapa dekat kasus khusus ini dengan pusat kluster.

    Nama kolom keluaran Deskripsi
    Penetapan Indeks berbasis 0 yang menunjukkan kluster mana yang ditetapkan oleh titik data.
    DistancesToClusterCenter no. n Untuk setiap titik data, nilai ini menunjukkan jarak dari titik data ke pusat kluster yang ditetapkan, dan jarak ke kluster lain.

    Metrik yang digunakan untuk menghitung jarak ditentukan saat Anda mengonfigurasi model pengelompokan K-means.

Input yang diharapkan

Nama Jenis Deskripsi
Model terlatih Antarmuka ICluster Model pengelompokan terlatih
Himpunan Data Tabel Data Masukkan sumber data

Parameter modul

Nama Jenis Rentang Opsional Default Deskripsi
Tambahkan atau Hasil Saja Diperlukan BENAR Menunjukkan apakah himpunan data output harus berisi himpunan data input serta hasilnya, atau hasilnya saja
Tentukan mode penyapuan parameter Metode Sapu Daftar:Seluruh kisi| Sapuan acak Diperlukan Sapuan acak Sapu seluruh kisi pada ruang parameter, atau sapu dengan menggunakan jumlah sampel yang terbatas

Output

Nama Jenis Deskripsi
Kumpulan data hasil Tabel Data Input himpunan data yang ditambahkan oleh kolom data tugas atau kolom tugas saja

Pengecualian

Pengecualian Deskripsi
Kesalahan 0003 Pengecualian terjadi jika satu atau beberapa input null atau kosong.

Lihat juga

Pengklusteran K-Means
Skor