Analisis Komponen Utama
Penting
Dukungan untuk Studio Azure Machine Learning (klasik) akan berakhir pada 31 Agustus 2024. Sebaiknya Anda transisi ke Azure Machine Learning sebelum tanggal tersebut.
Mulai 1 Desember 2021, Anda tidak akan dapat membuat sumber daya Studio Azure Machine Learning (klasik) baru. Hingga 31 Agustus 2024, Anda dapat terus menggunakan sumber daya Pembelajaran Mesin Studio (klasik) yang ada.
- Lihat informasi tentang memindahkan proyek pembelajaran mesin dari ML Studio (klasik) ke Azure Machine Learning.
- Mer informasjon tentang Azure Machine Learning.
ML Dokumentasi Studio (klasik) sedang berhenti dan mungkin tidak diperbarui di masa mendatang.
Menghitung serangkaian fitur dengan dimensi yang berkurang untuk pembelajaran yang lebih efisien
Kategori: Transformasi Data / Sampel dan Split
Catatan
Berlaku untuk: Pembelajaran Mesin Studio (klasik) saja
Modul drag-and-drop serupa tersedia di Azure Machine Learning desainer.
Ringkasan Modul
Artikel ini menjelaskan cara menggunakan modul Analisis Komponen Utama di Pembelajaran Mesin Studio (klasik) untuk mengurangi dimensi data pelatihan Anda. Modul menganalisis data Anda dan membuat kumpulan fitur yang dikurangi yang menangkap semua informasi yang terkandung dalam himpunan data, tetapi dalam jumlah fitur yang lebih kecil.
Modul ini juga menciptakan transformasi yang dapat Anda terapkan pada data baru, untuk mencapai pengurangan dimensi dan kompresi fitur yang serupa, tanpa memerlukan pelatihan tambahan.
Lebih lanjut tentang Analisis Komponen Utama
Principal Component Analysis (PCA) adalah teknik yang populer dalam pembelajaran mesin. Ini bergantung pada fakta bahwa banyak jenis data ruang vektor dapat dikompresi, dan kompresi itu dapat dicapai dengan pengambilan sampel.
Manfaat tambahan dari PCA adalah peningkatan visualisasi data, dan optimalisasi penggunaan sumber daya oleh algoritma pembelajaran.
Modul Analisis Komponen Utama di Pembelajaran Mesin Studio (klasik) mengambil satu set kolom fitur dalam himpunan data yang disediakan, dan membuat proyeksi ruang fitur yang memiliki dimensi lebih rendah. Algoritma ini menggunakan teknik pengacakan untuk mengidentifikasi subruang fitur yang menangkap sebagian besar informasi dalam matriks fitur lengkap. Oleh karena itu, matriks data yang diubah menangkap varians dalam data asli sambil mengurangi efek kebisingan dan meminimalkan risiko overfitting.
Untuk informasi umum tentang analisis komponen utama (PCA) lihat artikel Wikipedia ini. Untuk informasi tentang pendekatan PCA yang digunakan dalam modul ini, lihat artikel ini:
Menemukan Struktur dengan Keacakan: Algoritma Probabilistik untuk Membangun Dekomposisi Matriks Perkiraan. Halko, Martinsson, dan Tropp, 2010.
Menggabungkan Keacakan Terstruktur dan Tidak Terstruktur dalam PCA Skala Besar Menggabungkan Keacakan Terstruktur dan Tidak Terstruktur dalam PCA Skala Besar. Karampatziakis dan Mineiro, 2013.
Cara mengonfigurasi Analisis Komponen Utama
Tambahkan modul Analisis Komponen Utama ke eksperimen Anda. Anda dapat menemukannya di bawah Transformasi Data, dalam kategori Skala dan Kurangi .
Koneksi himpunan data yang ingin Anda ubah, dan pilih kolom fitur untuk dianalisis.
Jika belum jelas kolom mana yang merupakan fitur dan mana yang diberi label, kami sarankan Anda menggunakan modul Edit Metadata untuk menandai kolom terlebih dahulu.
Jumlah dimensi untuk dikurangi menjadi: Ketik jumlah kolom yang diinginkan dalam output akhir. Setiap kolom mewakili dimensi yang menangkap beberapa bagian informasi di kolom input.
Misalnya, jika kumpulan data sumber memiliki delapan kolom dan Anda mengetik
3
, tiga kolom baru dikembalikan yang menangkap informasi dari delapan kolom yang dipilih. Kolom diberi namaCol1
,Col2
, , danCol3
. Kolom ini tidak memetakan langsung ke kolom sumber; sebaliknya, kolom berisi perkiraan ruang fitur yang dijelaskan oleh kolom asli 1-8.Tip
Algoritma berfungsi secara optimal ketika jumlah dimensi yang berkurang jauh lebih kecil dari dimensi aslinya.
Menormalkan himpunan data padat ke nol berarti: Pilih opsi ini jika himpunan data padat, artinya berisi beberapa nilai yang hilang. Jika dipilih, modul menormalkan nilai dalam kolom ke rata-rata nol sebelum pemrosesan lainnya.
Untuk himpunan data yang jarang, opsi ini tidak boleh dipilih. Jika dataset jarang terdeteksi, parameter diganti.
Jalankan eksperimen.
Hasil
Modul ini menghasilkan sekumpulan kolom yang dikurangi yang dapat Anda gunakan dalam membuat model. Anda dapat menyimpan output sebagai himpunan data baru atau menggunakannya dalam eksperimen Anda.
Secara opsional, Anda dapat menyimpan proses analisis sebagai transformasi yang disimpan, untuk diterapkan ke himpunan data lain menggunakan Terapkan Transformasi.
Himpunan data yang Anda terapkan transformasi harus memiliki skema yang sama dengan himpunan data asli.
Contoh
Untuk contoh bagaimana Analisis Komponen Utama digunakan dalam pembelajaran mesin, lihat Galeri AI Azure:
Pengelompokan: Temukan Perusahaan Serupa: Menggunakan Analisis Komponen Utama untuk mengurangi jumlah nilai dari penambangan teks ke sejumlah fitur yang dapat dikelola.
Meskipun dalam sampel ini PCA diterapkan menggunakan skrip R khusus, ini menggambarkan bagaimana PCA biasanya digunakan.
Catatan teknis
Ada dua tahap perhitungan komponen dimensi bawah.
- Yang pertama adalah membangun subruang dimensi rendah yang menangkap aksi matriks.
- Yang kedua adalah membatasi matriks ke subruang dan kemudian menghitung faktorisasi standar dari matriks yang dikurangi.
Input yang diharapkan
Nama | Jenis | Deskripsi |
---|---|---|
Himpunan Data | Tabel Data | Himpunan data yang dimensinya akan dikurangi |
Parameter modul
Nama | Jenis | Rentang | Opsional | Deskripsi | Default |
---|---|---|---|---|---|
Kolom yang dipilih | Pilihan Kolom | Diperlukan | Kolom yang dipilih untuk menerapkan PCA ke | ||
Jumlah dimensi untuk dikurangi menjadi | Bilangan bulat | >=1 | Diperlukan | Jumlah dimensi yang diinginkan dalam himpunan data yang dikurangi | |
Menormalkan dataset padat ke nol berarti | Boolean | Diperlukan | true | Tunjukkan apakah kolom input akan dinormalisasi untuk himpunan data padat (untuk parameter data yang jarang diabaikan) |
Output
Nama | Jenis | Deskripsi |
---|---|---|
Kumpulan data hasil | Tabel Data | Himpunan data dengan dimensi yang berkurang |
Transformasi PCA | Antarmuka ITransform | Transformasi yang ketika diterapkan ke dataset akan memberikan dataset baru dengan dimensi yang berkurang |
Pengecualian
Pengecualian | Deskripsi |
---|---|
Kesalahan 0001 | Pengecualian terjadi jika satu atau beberapa kolom himpunan data tertentu tidak dapat ditemukan. |
Kesalahan 0003 | Pengecualian terjadi jika satu atau beberapa input null atau kosong. |
Kesalahan 0004 | Pengecualian terjadi jika parameter kurang dari atau sama dengan nilai tertentu. |
Untuk daftar kesalahan khusus untuk modul Studio (klasik), lihat Pembelajaran Mesin Kode kesalahan.
Untuk daftar pengecualian API, lihat Pembelajaran Mesin Kode Kesalahan REST API.