Bagikan melalui


Analisis Komponen Utama

Penting

Dukungan untuk Studio Azure Machine Learning (klasik) akan berakhir pada 31 Agustus 2024. Sebaiknya Anda transisi ke Azure Machine Learning sebelum tanggal tersebut.

Mulai 1 Desember 2021, Anda tidak akan dapat membuat sumber daya Studio Azure Machine Learning (klasik) baru. Hingga 31 Agustus 2024, Anda dapat terus menggunakan sumber daya Pembelajaran Mesin Studio (klasik) yang ada.

ML Dokumentasi Studio (klasik) sedang berhenti dan mungkin tidak diperbarui di masa mendatang.

Menghitung serangkaian fitur dengan dimensi yang berkurang untuk pembelajaran yang lebih efisien

Kategori: Transformasi Data / Sampel dan Split

Catatan

Berlaku untuk: Pembelajaran Mesin Studio (klasik) saja

Modul drag-and-drop serupa tersedia di Azure Machine Learning desainer.

Ringkasan Modul

Artikel ini menjelaskan cara menggunakan modul Analisis Komponen Utama di Pembelajaran Mesin Studio (klasik) untuk mengurangi dimensi data pelatihan Anda. Modul menganalisis data Anda dan membuat kumpulan fitur yang dikurangi yang menangkap semua informasi yang terkandung dalam himpunan data, tetapi dalam jumlah fitur yang lebih kecil.

Modul ini juga menciptakan transformasi yang dapat Anda terapkan pada data baru, untuk mencapai pengurangan dimensi dan kompresi fitur yang serupa, tanpa memerlukan pelatihan tambahan.

Lebih lanjut tentang Analisis Komponen Utama

Principal Component Analysis (PCA) adalah teknik yang populer dalam pembelajaran mesin. Ini bergantung pada fakta bahwa banyak jenis data ruang vektor dapat dikompresi, dan kompresi itu dapat dicapai dengan pengambilan sampel.

Manfaat tambahan dari PCA adalah peningkatan visualisasi data, dan optimalisasi penggunaan sumber daya oleh algoritma pembelajaran.

Modul Analisis Komponen Utama di Pembelajaran Mesin Studio (klasik) mengambil satu set kolom fitur dalam himpunan data yang disediakan, dan membuat proyeksi ruang fitur yang memiliki dimensi lebih rendah. Algoritma ini menggunakan teknik pengacakan untuk mengidentifikasi subruang fitur yang menangkap sebagian besar informasi dalam matriks fitur lengkap. Oleh karena itu, matriks data yang diubah menangkap varians dalam data asli sambil mengurangi efek kebisingan dan meminimalkan risiko overfitting.

Untuk informasi umum tentang analisis komponen utama (PCA) lihat artikel Wikipedia ini. Untuk informasi tentang pendekatan PCA yang digunakan dalam modul ini, lihat artikel ini:

Cara mengonfigurasi Analisis Komponen Utama

  1. Tambahkan modul Analisis Komponen Utama ke eksperimen Anda. Anda dapat menemukannya di bawah Transformasi Data, dalam kategori Skala dan Kurangi .

  2. Koneksi himpunan data yang ingin Anda ubah, dan pilih kolom fitur untuk dianalisis.

    Jika belum jelas kolom mana yang merupakan fitur dan mana yang diberi label, kami sarankan Anda menggunakan modul Edit Metadata untuk menandai kolom terlebih dahulu.

  3. Jumlah dimensi untuk dikurangi menjadi: Ketik jumlah kolom yang diinginkan dalam output akhir. Setiap kolom mewakili dimensi yang menangkap beberapa bagian informasi di kolom input.

    Misalnya, jika kumpulan data sumber memiliki delapan kolom dan Anda mengetik 3, tiga kolom baru dikembalikan yang menangkap informasi dari delapan kolom yang dipilih. Kolom diberi nama Col1, Col2, , dan Col3. Kolom ini tidak memetakan langsung ke kolom sumber; sebaliknya, kolom berisi perkiraan ruang fitur yang dijelaskan oleh kolom asli 1-8.

    Tip

    Algoritma berfungsi secara optimal ketika jumlah dimensi yang berkurang jauh lebih kecil dari dimensi aslinya.

  4. Menormalkan himpunan data padat ke nol berarti: Pilih opsi ini jika himpunan data padat, artinya berisi beberapa nilai yang hilang. Jika dipilih, modul menormalkan nilai dalam kolom ke rata-rata nol sebelum pemrosesan lainnya.

    Untuk himpunan data yang jarang, opsi ini tidak boleh dipilih. Jika dataset jarang terdeteksi, parameter diganti.

  5. Jalankan eksperimen.

Hasil

Modul ini menghasilkan sekumpulan kolom yang dikurangi yang dapat Anda gunakan dalam membuat model. Anda dapat menyimpan output sebagai himpunan data baru atau menggunakannya dalam eksperimen Anda.

Secara opsional, Anda dapat menyimpan proses analisis sebagai transformasi yang disimpan, untuk diterapkan ke himpunan data lain menggunakan Terapkan Transformasi.

Himpunan data yang Anda terapkan transformasi harus memiliki skema yang sama dengan himpunan data asli.

Contoh

Untuk contoh bagaimana Analisis Komponen Utama digunakan dalam pembelajaran mesin, lihat Galeri AI Azure:

  • Pengelompokan: Temukan Perusahaan Serupa: Menggunakan Analisis Komponen Utama untuk mengurangi jumlah nilai dari penambangan teks ke sejumlah fitur yang dapat dikelola.

    Meskipun dalam sampel ini PCA diterapkan menggunakan skrip R khusus, ini menggambarkan bagaimana PCA biasanya digunakan.

Catatan teknis

Ada dua tahap perhitungan komponen dimensi bawah.

  • Yang pertama adalah membangun subruang dimensi rendah yang menangkap aksi matriks.
  • Yang kedua adalah membatasi matriks ke subruang dan kemudian menghitung faktorisasi standar dari matriks yang dikurangi.

Input yang diharapkan

Nama Jenis Deskripsi
Himpunan Data Tabel Data Himpunan data yang dimensinya akan dikurangi

Parameter modul

Nama Jenis Rentang Opsional Deskripsi Default
Kolom yang dipilih Pilihan Kolom Diperlukan Kolom yang dipilih untuk menerapkan PCA ke
Jumlah dimensi untuk dikurangi menjadi Bilangan bulat >=1 Diperlukan Jumlah dimensi yang diinginkan dalam himpunan data yang dikurangi
Menormalkan dataset padat ke nol berarti Boolean Diperlukan true Tunjukkan apakah kolom input akan dinormalisasi untuk himpunan data padat (untuk parameter data yang jarang diabaikan)

Output

Nama Jenis Deskripsi
Kumpulan data hasil Tabel Data Himpunan data dengan dimensi yang berkurang
Transformasi PCA Antarmuka ITransform Transformasi yang ketika diterapkan ke dataset akan memberikan dataset baru dengan dimensi yang berkurang

Pengecualian

Pengecualian Deskripsi
Kesalahan 0001 Pengecualian terjadi jika satu atau beberapa kolom himpunan data tertentu tidak dapat ditemukan.
Kesalahan 0003 Pengecualian terjadi jika satu atau beberapa input null atau kosong.
Kesalahan 0004 Pengecualian terjadi jika parameter kurang dari atau sama dengan nilai tertentu.

Untuk daftar kesalahan khusus untuk modul Studio (klasik), lihat Pembelajaran Mesin Kode kesalahan.

Untuk daftar pengecualian API, lihat Pembelajaran Mesin Kode Kesalahan REST API.

Lihat juga

Sampel dan Split
Pemilihan Fitur