Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Penting
Dukungan untuk Studio Azure Machine Learning (klasik) akan berakhir pada 31 Agustus 2024. Sebaiknya Anda transisi ke Azure Machine Learning sebelum tanggal tersebut.
Mulai 1 Desember 2021, Anda tidak akan dapat membuat sumber daya Studio Azure Machine Learning (klasik) baru. Hingga 31 Agustus 2024, Anda dapat terus menggunakan sumber daya Pembelajaran Mesin Studio (klasik) yang ada.
- Lihat informasi tentang memindahkan proyek pembelajaran mesin dari ML Studio (klasik) ke Azure Machine Learning.
- Mer informasjon tentang Azure Machine Learning.
ML Dokumentasi Studio (klasik) sedang berhenti dan mungkin tidak diperbarui di masa mendatang.
Menghitung statistik ringkasan yang ditentukan untuk kolom himpunan data yang dipilih
Kategori: Fungsi Statistik
Catatan
Berlaku untuk: Pembelajaran Mesin Studio (klasik) saja
Modul drag-and-drop serupa tersedia di Azure Machine Learning desainer.
Ringkasan Modul
Artikel ini menjelaskan cara menggunakan modul Statistik Dasar Komputasi di Pembelajaran Mesin Studio (klasik), untuk membuat laporan ringkasan untuk himpunan data Anda yang mencantumkan statistik utama seperti rata-rata, deviasi standar, dan rentang nilai untuk masing-masing kolom yang dipilih.
Laporan ini berguna untuk menganalisis kecenderungan sentral, dispersi, dan bentuk data.
Cara mengonfigurasi Statistik Dasar Komputasi
Tambahkan modul Compute Elementary Statistics ke eksperimen Anda. Anda dapat menemukan modul ini dalam kategori Fungsi Statistik di Pembelajaran Mesin Studio (klasik).
Koneksi himpunan data yang berisi kolom yang ingin Anda analisis.
Klik daftar turun bawah Metode , dan pilih jenis nilai yang ingin Anda hitung untuk setiap kolom.
Lihat bagian Statistik yang Didukung untuk daftar lengkap statistik yang tersedia dan apa artinya.
Secara default, nilai yang Anda pilih dalam daftar turun bawah Metode akan dihitung untuk semua kolom dalam himpunan data yang memiliki tipe data numerik. Jika ada kolom yang memiliki nilai yang mencegah nilai dihitung, kesalahan akan dinaikkan dan laporan tidak akan dibuat.
Untuk menghindari kesalahan ini, gunakan pemilih kolom untuk memilih kolom numerik yang Anda inginkan laporannya. Semua kolom yang Anda pilih harus numerik.
Jalankan eksperimen.
Hasil
Laporan yang dihasilkan mencakup nama setiap kolom dan statistik yang dihitung. Misalnya, tabel berikut menunjukkan statistik yang dihasilkan untuk kolom mpg .
| DeviasiSquared(mpg) | Maks(mpg) | Min(mpg) |
|---|---|---|
| 9674.312 | 25.21951 | 13 |
Tip
Setiap kali Anda menjalankan Statistik Dasar Komputasi, itu hanya dapat menghasilkan satu statistik ringkasan untuk masing-masing kolom yang dipilih. Namun, Anda dapat menggunakan modul Tambahkan Kolom atau Tambahkan Baris untuk menggabungkan hasilnya menjadi satu tabel, seperti pada contoh sebelumnya.
Statistik yang didukung
Modul ini mendukung statistik deskriptif standar berikut.
Deviasi kuadrat
Menghitung deviasi kuadrat dari nilai kolom. Juga dikenal sebagai jumlah kotak.
Deviasi kuadrat adalah ukuran seberapa jauh nilai tersebar dari rata-rata.
Rata-rata geometris
Menghitung rata-rata geometris dari nilai kolom.
Rata-rata geometris dapat digunakan untuk mengukur kecenderungan sentral dari satu set angka. Dibandingkan dengan rata-rata aritmatika, itu kurang dipengaruhi oleh sejumlah kecil nilai ekstrim. Ini juga dapat digunakan untuk membandingkan pengukuran pada skala yang berbeda, karena secara efektif menormalkan skala angka yang dibandingkan. Cara geometris kadang-kadang digunakan untuk memperkirakan tingkat pertumbuhan tahunan gabungan.
Fungsi yang setara dalam Excel adalah GEOMEAN.
Rata-rata harmonik
Menghitung rata-rata harmonik dari nilai kolom.
Untuk menghitung rata-rata harmonik, semua nilai dikonversi ke timbal balik mereka, dan kemudian rata-rata diambil dari nilai-nilai tersebut. Arti harmonik adalah kebalikan dari rata-rata itu. Jika nilai kolom positif, angka yang lebih besar ditimbang kurang dari angka yang lebih kecil.
Rata-rata harmonik selalu kurang dari rata-rata geometris, yang selalu kurang dari rata-rata aritmatika. Rata-rata harmonik berguna untuk rata-rata variabel yang mewakili tingkat, seperti kecepatan (jarak dari waktu ke waktu) atau penjualan per kuartal.
Fungsi yang setara dalam Excel adalah HARMEAN.
Jarak antarkades
Menghitung perbedaan interquartile untuk kuartil pertama dan terakhir dari nilai kolom. Juga disebut kisaran kuartil. Ketika kuartil jatuh di antara dua angka, nilai kuartil adalah rata-rata dari dua nilai di kedua sisi potongan.
Nilai kuartil membagi kolom nilai menjadi empat kelompok dengan jumlah nilai yang sama. Dengan demikian, seperempat dari nilai kurang dari atau sama dengan persentil ke-25. Tiga perempat dari nilai kurang dari atau sama dengan persentil ke-75. Dengan meninjau rentang kuartil, Anda bisa mendapatkan gambaran tentang seberapa luas penyebaran nilai data.
Momen sentral K-th
Menghitung momen pusat K-th untuk nilai kolom.
Saat menghitung momen pusat K-th, Anda juga harus menentukan Order, yang berarti nilai k. Nilai k dapat berkisar dari 0 hingga nilai integer yang diizinkan, meskipun nilai order yang lebih tinggi umumnya tidak berarti.
Umumnya, dalam statistik deskriptif, momen adalah ukuran yang menggambarkan bentuk satu set titik. Momen sentral adalah momen tentang rata-rata, yang biasanya digunakan karena mereka memberikan informasi yang lebih baik tentang bentuk distribusi. Urutan 2 biasanya mewakili varians; Urutan 4 digunakan untuk kurtosis. Momen urutan pertama adalah rata-rata. Dengan demikian kumpulan semua momen secara unik menggambarkan distribusi nilai dalam kolom.
Maks
Menemukan nilai maksimum di kolom.
Rerata
Menghitung rata-rata aritmatika dari nilai kolom.
Fungsi yang setara dalam Excel adalah AVERAGE.
Deviasi rata-rata
Menghitung deviasi absolut rata-rata untuk nilai kolom.
Artinya, rata-rata dihitung untuk kolom, dan penyimpangan dihitung untuk setiap nilai di kolom. Rata-rata nilai absolut dari nilai deviasi individu adalah deviasi rata-rata.
Statistik ini memberi tahu Anda bagaimana menyebar dari rata-rata kolom angka Anda.
Median
Mengembalikan median nilai kolom.
Median adalah angka di tengah kolom angka. Jika ada jumlah angka genap di kolom, median adalah rata-rata dari dua angka di tengah.
Median, bersama dengan rata-rata dan mode, adalah salah satu dari tiga statistik yang mengukur kecenderungan sentral. Jika nilai simetris di sekitar rata-rata, tiga angka akan hampir sama. Namun, median lebih kuat untuk outliers dari rata-rata.
Deviasi median
Menghitung deviasi median untuk kolom.
Artinya, median dihitung untuk kolom, dan penyimpangan dihitung untuk setiap nilai di kolom. Nilai median dari nilai absolut dari nilai deviasi individu diambil.
Deviasi absolut median juga dikenal sebagai MAD, dan digunakan untuk menggambarkan variabilitas sampel angka. MAD memberi tahu Anda bagaimana menyebar dari rata-rata kolom angka Anda.
MIN
Mengembalikan nilai minimum nilai kolom.
Mode
Menemukan semua mode untuk kolom.
Mode adalah nilai yang paling banyak muncul di kolom. Jika beberapa nilai muncul jumlah yang sama kali, kolom dapat memiliki beberapa mode.
Sebagai ukuran kecenderungan sentral, mode lebih kuat untuk outlier daripada rata-rata, dan dapat digunakan dengan data nominal juga.
Deviasi standar populasi
Menghitung deviasi standar populasi untuk nilai kolom.
Statistik ini mengasumsikan bahwa nilai kolom mewakili seluruh populasi. Jika data Anda hanya sampel populasi, Anda harus menghitung deviasi standar dengan menggunakan deviasi standar Sampel. Namun, dalam dataset besar, kedua statistik mengembalikan nilai yang kira-kira sama.
Deviasi standar dihitung sebagai akar kuadrat dari varians kolom. Statistik ini menangkap jumlah variabilitas dalam kolom.
Varians populasi
Menghitung varians populasi untuk nilai kolom.
Varians mengukur berapa banyak satu set angka yang tersebar. Jika varians adalah nol, semua angka adalah sama.
Statistik ini mengasumsikan bahwa kolom nilai mewakili seluruh populasi. Jika data Anda hanya berisi sampel nilai, Anda harus menghitung varians dengan menggunakan varians Sampel.
Fungsi Excel yang setara adalah VAR.P.
Produk
Menghitung produk dari elemen kolom.
Untuk mendapatkan produk, Anda beberapa nomor di kolom. Hasilnya tidak dengan sendirinya berguna sebagai statistik deskriptif tetapi fungsinya berguna untuk berbagai perhitungan lainnya.
Rentang
Menghitung rentang nilai kolom. Rentang didefinisikan sebagai nilai maksimum dikurangi nilai minimum
Sampel kurtosis
Menghitung sampel kurtosis untuk nilai kolom.
Kurtosis menggambarkan bentuk distribusi nilai - yaitu, seberapa memuncak atau datar distribusi nilai, dibandingkan dengan distribusi normal.
Distribusi normal memiliki kurtosis 0.
Nilai kurtosis tinggi menunjukkan bahwa massa probabilitas terkonsentrasi baik di sekitar puncak, atau di ekor distribusi.
Nilai kurtosis negatif menunjukkan distribusi yang relatif datar.
Contoh kecondongan
Menghitung tusukan sampel untuk nilai kolom.
Skew menjelaskan apakah sebagian besar nilai berada di tengah, bergeser ke kiri, atau bergeser ke kanan. Dua distribusi mungkin memiliki rata-rata dan standar deviasi yang sama, namun dibentuk sangat berbeda. Anda dapat menggunakan skewness dan kurtosis untuk mengkarakterisasi bentuknya.
Nilai miring negatif berarti distribusi condong ke kiri.
0 menunjukkan distribusi normal.
Nilai kemiringan positif berarti distribusi condong ke kanan.
Contoh deviasi standar
Menghitung deviasi standar sampel untuk nilai kolom.
Deviasi standar sampel mengukur bagaimana penyebaran nilai di kolom berasal dari rata-rata. Ini mewakili jarak rata-rata antara nilai data dalam set dan mean.
Statistik ini mengasumsikan bahwa nilai kolom mewakili sampel populasi. Jika data Anda mewakili seluruh populasi, Anda harus menghitung deviasi standar menggunakan deviasi standar Populasi.
Fungsi Excel yang setara adalah ST. DEV.S.
Varians sampel
Menghitung varian sampel untuk nilai kolom.
Metode ini mengasumsikan bahwa nilai kolom mewakili sampel populasi. Jika kolom berisi seluruh populasi, Anda harus menggunakan varians standar Populasi.
Fungsi Excel yang setara adalah VAR.S.
Jumlah
Menghitung jumlah nilai kolom.
Contoh
Eksperimen berikut di Azure AI Gallery menunjukkan bagaimana Anda dapat membuat laporan ringkasan yang berisi statistik deskriptif untuk seluruh himpunan data. Laporan ringkasan hanya berisi statistik umum; namun, Anda dapat menyimpannya sebagai himpunan data dan kemudian menambahkan statistik yang lebih rinci, menggunakan opsi di Compute Elementary Statistics.
Unduh himpunan data dari UCI: Modul Ringkasan Data digunakan untuk menghasilkan laporan ringkasan pada semua kolom dalam himpunan data.
Pemrosesan dan Analisis Himpunan Data: Modul Ringkas Data digunakan untuk menghasilkan laporan ringkasan pada semua kolom dalam himpunan data.
Catatan teknis
Bagian ini berisi detail implementasi, tips, dan jawaban atas pertanyaan yang sering diajukan.
Tip
Kondisi berikut harus dipenuhi saat menggunakan modul Statistik Dasar Komputasi :
- Harus ada jumlah titik data (baris) yang cukup untuk menghitung statistik yang dipilih. Misalnya, untuk menghitung Deviasi standar sampel membutuhkan setidaknya dua titik data; jika tidak, hasilnya adalah NaN.
- Kolom input harus numerik atau Boolean.
Secara default, semua kolom numerik dipilih. Namun, jika ada kolom numerik yang ditandai sebagai kategoris, Anda mungkin mendapatkan kesalahan berikut: "Kesalahan 0056: Kolom dengan nama> kolom nama <tidak dalam kategori yang diizinkan." Untuk memperbaiki kesalahan, tambahkan contoh modul Edit Metadata, pilih kolom dengan masalah, dan gunakan opsi Hapus kategoris.
Detail implementasi
Kolom Boolean diproses sebagai berikut:
MIN dihitung sebagai logis DAN.
MAX dihitung sebagai logis ATAU.
RANGE memeriksa apakah jumlah nilai unik dalam kolom sama dengan 2.
Nilai yang hilang diabaikan.
Untuk statistik yang memerlukan perhitungan floating-point, True = 1.0 dan False = 0.0
Input yang diharapkan
| Nama | Jenis | Deskripsi |
|---|---|---|
| Himpunan Data | Tabel Data | Himpunan data input |
Parameter modul
| Nama | Rentang | Jenis | Default | Deskripsi |
|---|---|---|---|---|
| Metode | Daftar | Metode statistik dasar | Memilih metode statistik untuk digunakan dalam perhitungan. Lihat Cara menggunakan bagian untuk daftar nilai. | |
| Kumpulan kolom | apa pun | Pilihan Kolom | NumericAll | Memilih kolom yang akan dihitung statistiknya |
| Pesanan | >=1 | Bilangan bulat | 3 | Menentukan nilai untuk urutan momen pusat (hanya digunakan untuk momen pusat kth) |
Output
| Nama | Jenis | Deskripsi |
|---|---|---|
| Kumpulan data hasil | Tabel Data | Himpunan data output |
Pengecualian
| Pengecualian | Deskripsi |
|---|---|
| Kesalahan 0017 | Pengecualian terjadi jika satu atau beberapa kolom tertentu memiliki tipe yang tidak didukung oleh modul saat ini. |
Untuk daftar kesalahan khusus untuk modul Studio (klasik), lihat Pembelajaran Mesin Kode kesalahan.
Untuk daftar pengecualian API, lihat Pembelajaran Mesin Kode Kesalahan REST API.