Bagikan melalui


Korelasi Linear Komputasi

Penting

Dukungan untuk Studio Azure Machine Learning (klasik) akan berakhir pada 31 Agustus 2024. Sebaiknya Anda transisi ke Azure Machine Learning sebelum tanggal tersebut.

Mulai 1 Desember 2021, Anda tidak akan dapat membuat sumber daya Studio Azure Machine Learning (klasik) baru. Hingga 31 Agustus 2024, Anda dapat terus menggunakan sumber daya Pembelajaran Mesin Studio (klasik) yang ada.

ML Dokumentasi Studio (klasik) sedang berhenti dan mungkin tidak diperbarui di masa mendatang.

Menghitung korelasi linier antara nilai kolom dalam himpunan data

Kategori: Fungsi Statistik

Catatan

Berlaku untuk: Pembelajaran Mesin Studio (klasik) saja

Modul seret dan letakkan serupa tersedia di perancang Azure Machine Learning.

Ringkasan Modul

Artikel ini menjelaskan cara menggunakan modul Korelasi Linear Komputasi di Pembelajaran Mesin Studio (klasik), untuk menghitung satu set koefisien korelasi Pearson untuk setiap pasangan variabel yang mungkin dalam himpunan data input.

Koefisien korelasi Pearson, kadang-kadang disebut uji R Pearson, adalah nilai statistik yang mengukur hubungan linier antara dua variabel. Dengan memeriksa nilai koefisien, Anda dapat menyimpulkan sesuatu tentang kekuatan hubungan antara kedua variabel, dan apakah mereka berkorelasi positif atau berkorelasi negatif.

Cara mengonfigurasi Korelasi Linear

Sebelum menghitung koefisien korelasi, ada beberapa prasyarat, seperti membersihkan data Anda dan memverifikasi bahwa hubungan antara variabel sesuai untuk modul ini. Anda juga harus menghapus atau mengimute nilai yang hilang.

Pembatasan berikut berlaku saat menggunakan modul ini:

  • Modul Korelasi Linear Komputasi hanya dapat memproses nilai numerik. Semua jenis nilai lainnya, termasuk nilai yang hilang, nilai non-numerik, dan nilai kategoris, diperlakukan sebagai NaN.

  • Korelasi Pearson dihitung untuk semua kolom numerik dalam himpunan data yang diteruskan sebagai input. Pastikan untuk mengecualikan kolom apa pun yang sesuai untuk analisis ini.

  • Korelasi Linear Komputasi tidak dapat digunakan dengan data yang memiliki nilai yang hilang.

Langkah 1: Tentukan linearitas

Jika kolom yang Anda uji tidak diharapkan memiliki semacam hubungan linier, tidak ada gunanya menghasilkan koefisien ini. Jadi ada baiknya untuk menguji kolom terlebih dahulu, untuk melihat apakah mereka memiliki jenis data yang tepat dan jenis distribusi yang tepat secara umum.

Ada berbagai cara agar Anda dapat menentukan apakah hubungan antara kolom kira-kira linier:

  • Buat plot sebar variabel di Studio (klasik), dengan menggunakan opsi Visualisasikan pada himpunan data. Klik salah satu kolom variabel numerik, perluas Visualisasi, dan klik bandingkan. Pilih variabel yang berbeda, dan plot sebar dibuat secara otomatis. Jika jenis plot yang berbeda dihasilkan, itu berarti setidaknya satu kolom memiliki jenis data (non-numerik) yang berbeda.

  • Hitung persamaan regresi untuk dua variabel. Ada banyak paket R yang mendukung ini, yang dapat Anda muat dan gunakan dalam modul Jalankan Skrip R .

Langkah 2: Bersihkan data

Anda harus menghapus atau mengisi nilai yang hilang, menghapus atau mengklip outlier, dan memastikan bahwa kolom memiliki jenis data yang tepat.

Pastikan untuk memeriksa tempat penampung dan mengganti nilai tersebut dengan nilai lain yang sesuai sebelum menggunakan modul ini. Jika NaN disisipkan untuk nilai yang hilang saat himpunan data dimuat dari sumbernya, itu dapat menyebabkan kesalahan. Nilai tempat penampung seperti 999 atau -1 juga dapat menyebabkan hasil yang buruk.

Untuk menyiapkan data, Anda dapat menggunakan modul ini:

Anda dapat menyesuaikan jenis data kolom dengan menggunakan Edit Metadata. Pastikan bahwa kolom yang ingin Anda analisis ditandai sebagai kolom fitur.

Langkah 3: Hasilkan koefisien

  1. Tambahkan modul Korelasi Linear Komputasi ke eksperimen Anda. Anda dapat menemukan modul ini dalam kategori Fungsi Statistik di Pembelajaran Mesin Studio (klasik).

  2. Tambahkan himpunan data yang ingin Anda analisis.

  3. Kami menyarankan agar Anda menambahkan modul Pilih Kolom dalam Himpunan Data antara himpunan data Anda dan modul Korelasi Linear Komputasi , untuk menghapus kolom yang tidak perlu. Konfigurasikan modul Pilih Kolom dalam Himpunan Data untuk mendapatkan hanya dua kolom numerik yang koefisiennya ingin Anda komputasi.

    Jika tidak, modul Korelasi Linear Komputasi mungkin menghasilkan banyak kolom NaN.

  4. Tidak ada parameter yang diatur untuk modul ini. Namun, itu akan gagal jika kolom yang Anda lewati sebagai input tidak memenuhi persyaratan.

  5. Jalankan eksperimen.

Hasil untuk dua kolom

Mengingat dua kolom fitur, modul Korelasi Linier Komputasi mengembalikan koefisien korelasi momen produk Pearson skalar (sampel). Koefisien korelasi Pearson (sering ditandai sebagai r) berkisar dalam nilai dari +1 hingga -1.

  • +1 menunjukkan hubungan linier positif yang kuat

  • -1 menunjukkan korelasi linear negatif yang kuat

  • 0 menunjukkan tidak ada hubungan linier antara dua variabel.

Interpretasi koefisien sangat tergantung pada masalah yang Anda modeling dan variabel yang Anda pelajari. Dengan demikian, penting untuk memahami konteks data saat melaporkan dan menafsirkan koefisien korelasi Pearson.

  • Jika Anda yakin variabel tidak terkait dan koefisien korelasi Pearson sangat positif (r > .5 atau lebih), Anda harus menyelidiki lebih lanjut.

  • Jika Anda menggunakan korelasi linier pada dua variabel yang Anda ketahui berkorelasi dengan sempurna, dan nilai koefisien tidak seperti yang Anda harapkan, itu mungkin menunjukkan masalah dalam data.

Hasil untuk lebih dari dua kolom

Mengingat matriks (yaitu, lebih dari dua kolom fitur), modul Korelasi Linier Komputasi mengembalikan satu set korelasi momen produk Pearson di antara setiap pasangan kolom fitur.

Oleh karena itu, hasilnya adalah tabel n x n yang berisi koefisien untuk setiap kombinasi kolom n . Jika ada kolom yang tidak memenuhi kriteria, nilai NaN ("bukan angka"), akan dikembalikan.

Misalnya, asumsikan Anda melewati dua kolom numerik dan curb-weight ditambah satu kolom kategoriswheel-base, make (dari himpunan data Harga mobil). Hasilnya adalah tabel koefisien 3x3 untuk semua kemungkinan kombinasi kolom input:

make wheel-base curb-weight
Nan Nan Nan
Nan 1 0.776386
Nan 0.776386 1

Dalam tabel ini, baris dipahami untuk mewakili masing-masing variabel,make , wheel-base, dan curb-weight, dalam urutan tersebut.

  • Nilai r untuk korelasi ke wheel-base dirinya sendiri adalah 1.
  • Nilai r untuk korelasi menjadi wheel-basecurb-weight 0,776386.
  • Semua korelasi yang melibatkan kolom make menghasilkan NaN, termasuk korelasi dengan dirinya sendiri, karena make merupakan fitur string.

Kami menyarankan agar Anda menghapus kolom non-numerik, untuk menghindari tabel kompleks dengan banyak nilai yang tidak berarti.

Contoh

Untuk melihat bagaimana modul ini digunakan dalam eksperimen pembelajaran mesin, lihat Galeri Azure AI:

Catatan teknis

Bagian ini berisi detail implementasi, tips, dan jawaban atas pertanyaan yang sering diajukan.

Detail implementasi

Jika kolom yang diteruskan sebagai input berisi skalar, array input (x dan y) diperlakukan sebagai vektor dan korelasi momen produk Pearson dihitung sebagai berikut:

linear correlation formula

Dalam rumus ini, setiap array berisi elemen n dan sarana sampel x dan y masing-masing adalah μx dan μy.

Untuk matriks, matriks data (X) adalah input, di mana setiap kolom mewakili vektor nilai. Matriks data harus n-by-m. Outputnya adalah matriks m-by-m, R sebagaimana didefinisikan oleh

formula for linear correlation

Dalam rumus ini, μx mewakili nilai rata-rata kolom xi. Elemen di I, j selalu sama dengan 1, karena mewakili korelasi vektor dengan dirinya sendiri.

Input yang diharapkan

Nama Jenis Deskripsi
Himpunan Data Tabel Data Himpunan data input

Output

Nama Jenis Deskripsi
Himpunan data hasil Tabel Data Matriks korelasi

Pengecualian

Pengecualian Deskripsi
Kesalahan 0003 Pengecualian terjadi jika satu atau beberapa input null atau kosong.
Kesalahan 0020 Pengecualian terjadi jika jumlah kolom di beberapa himpunan data yang diteruskan ke modul terlalu kecil.
Kesalahan 0021 Pengecualian terjadi jika jumlah baris di beberapa himpunan data yang diteruskan ke modul terlalu kecil.

Untuk daftar kesalahan khusus untuk modul Studio (klasik), lihat Pembelajaran Mesin Kode kesalahan.

Untuk daftar pengecualian API, lihat Pembelajaran Mesin Kode Kesalahan REST API.

Lihat juga

Fungsi statistik
Daftar Modul A-Z