Tetapkan Data ke Kluster

Artikel
05/06/2019

Penting

Dukungan untuk Studio Azure Machine Learning (klasik) akan berakhir pada 31 Agustus 2024. Sebaiknya Anda transisi ke Azure Machine Learning sebelum tanggal tersebut.

Mulai 1 Desember 2021, Anda tidak akan dapat membuat sumber daya Studio Azure Machine Learning (klasik) baru. Hingga 31 Agustus 2024, Anda dapat terus menggunakan sumber daya Pembelajaran Mesin Studio (klasik) yang ada.

Lihat informasi tentang memindahkan proyek pembelajaran mesin dari ML Studio (klasik) ke Azure Machine Learning.
Mer informasjon tentang Azure Machine Learning.

ML Dokumentasi Studio (klasik) sedang berhenti dan mungkin tidak diperbarui di masa mendatang.

Menetapkan data ke kluster menggunakan model pengelompokan terlatih yang ada

Kategori: Skor

Catatan

Berlaku untuk: Pembelajaran Mesin Studio (klasik) saja

Modul drag-and-drop serupa tersedia di Azure Machine Learning desainer.

Ringkasan Modul

Artikel ini menjelaskan cara menggunakan modul Tetapkan Data ke Kluster di Pembelajaran Mesin Studio (klasik), untuk menghasilkan prediksi menggunakan model pengelompokan yang dilatih menggunakan algoritma pengelompokan K-Means.

Modul mengembalikan himpunan data yang berisi kemungkinan tugas untuk setiap titik data baru. Ini juga membuat grafik PCA (Principal Component Analysis) untuk membantu Anda memvisualisasikan dimensi cluster.

Peringatan

Modul ini menggantikan modul Tetapkan ke Kluster (usang), yang hanya tersedia untuk mendukung eksperimen yang lebih lama.

Cara menggunakan Tetapkan Data ke Kluster

Di Pembelajaran Mesin Studio (klasik), temukan model pengelompokan yang sebelumnya terlatih. Anda dapat membuat dan melatih model pengelompokan dengan menggunakan salah satu metode ini:
- Konfigurasikan algoritma K-means menggunakan modul K-Means Clustering , lalu latih model menggunakan himpunan data dan modul Train Clustering Model .
- Konfigurasikan berbagai opsi untuk algoritma K-means menggunakan K-Means Clustering dan kemudian latih model menggunakan modul Sweep Clustering .
Anda juga dapat menambahkan model pengklusterab terlatih yang ada dari grup Model Tersimpan di ruang kerja Anda.
Lampirkan model terlatih ke port input sebelah kiri pada Tetapkan Data ke Kluster.
Lampirkan himpunan data baru sebagai input. Dalam himpunan data ini, label bersifat opsional. Umumnya, clustering adalah metode pembelajaran tanpa pengawasan sehingga tidak diharapkan bahwa Anda akan tahu kategori sebelumnya.

Namun, kolom input harus sama dengan kolom yang digunakan dalam melatih model pengklusteran, atau akan terjadi kesalahan.

Tip

Untuk mengurangi jumlah output kolom dari prediksi kluster, gunakan Pilih Kolom dalam Himpunan Data, dan pilih subset kolom.
Biarkan opsi Periksa Tambah atau Hapus Centang untuk Hasil Hanya dipilih jika Anda ingin hasilnya berisi himpunan data input penuh, bersama dengan kolom yang menunjukkan hasil (penetapan kluster).

Jika Anda membatalkan pilihan opsi ini, Anda mendapatkan kembali hanya hasilnya. Ini mungkin berguna saat membuat prediksi sebagai bagian dari layanan web.
Jalankan eksperimen.

Hasil

Modul Tetapkan Data ke Kluster mengembalikan dua jenis hasil pada output himpunan data Hasil :

Untuk melihat pemisahan kluster dalam model, klik output modul dan pilih Visualisasikan

Perintah ini menampilkan grafik Principal Component Analysis (PCA) yang memetakan kumpulan nilai di setiap kluster menjadi dua sumbu komponen.
- Sumbu komponen pertama adalah kumpulan fitur gabungan yang menangkap varians paling banyak dalam model. Ini diplot pada sumbu x (Komponen Utama 1).
- Sumbu komponen berikutnya mewakili beberapa rangkaian fitur gabungan yang ortogonal ke komponen pertama dan yang menambahkan informasi paling berikutnya ke grafik. Ini diplot pada sumbu y (Komponen Utama 2).
Dari grafik, Anda dapat melihat pemisahan antara cluster, dan bagaimana cluster didistribusikan di sepanjang sumbu yang mewakili komponen utama.

Untuk melihat tabel hasil untuk setiap kasus dalam data input, lampirkan modul Konversi ke Himpunan Data , dan visualisasikan hasil di Studio (klasik).

Himpunan data ini berisi penetapan kluster untuk setiap kasus, dan metrik jarak yang memberi Anda beberapa indikasi seberapa dekat kasus khusus ini dengan pusat kluster.

Nama kolom keluaran	Deskripsi
Penetapan	Indeks berbasis 0 yang menunjukkan kluster mana yang ditetapkan oleh titik data.
DistancesToClusterCenter no. n	Untuk setiap titik data, nilai ini menunjukkan jarak dari titik data ke pusat kluster yang ditetapkan, dan jarak ke kluster lain. Metrik yang digunakan untuk menghitung jarak ditentukan saat Anda mengonfigurasi model pengelompokan K-means.

Input yang diharapkan

Nama	Jenis	Deskripsi
Model terlatih	Antarmuka ICluster	Model pengelompokan terlatih
Himpunan Data	Tabel Data	Masukkan sumber data

Parameter modul

Nama	Jenis	Rentang	Opsional	Default	Deskripsi
Tambahkan atau Hasil Saja			Diperlukan	BENAR	Menunjukkan apakah himpunan data output harus berisi himpunan data input serta hasilnya, atau hasilnya saja
Tentukan mode penyapuan parameter	Metode Sapu	Daftar:Seluruh kisi\| Sapuan acak	Diperlukan	Sapuan acak	Sapu seluruh kisi pada ruang parameter, atau sapu dengan menggunakan jumlah sampel yang terbatas

Output

Nama	Jenis	Deskripsi
Kumpulan data hasil	Tabel Data	Input himpunan data yang ditambahkan oleh kolom data tugas atau kolom tugas saja

Pengecualian

Pengecualian	Deskripsi
Kesalahan 0003	Pengecualian terjadi jika satu atau beberapa input null atau kosong.

Lihat juga

Pengklusteran K-Means
Skor

Bagikan melalui