Meringkas Data
Penting
Dukungan untuk Studio Azure Machine Learning (klasik) akan berakhir pada 31 Agustus 2024. Sebaiknya Anda transisi ke Azure Machine Learning sebelum tanggal tersebut.
Mulai 1 Desember 2021, Anda tidak akan dapat membuat sumber daya Studio Azure Machine Learning (klasik) baru. Hingga 31 Agustus 2024, Anda dapat terus menggunakan sumber daya Pembelajaran Mesin Studio (klasik) yang ada.
- Lihat informasi tentang memindahkan proyek pembelajaran mesin dari ML Studio (klasik) ke Azure Machine Learning.
- Mer informasjon tentang Azure Machine Learning.
ML Dokumentasi Studio (klasik) sedang berhenti dan mungkin tidak diperbarui di masa mendatang.
Menghasilkan laporan statistik deskriptif dasar untuk kolom dalam himpunan data
Kategori: Fungsi Statistik
Catatan
Berlaku untuk: Pembelajaran Mesin Studio (klasik) saja
Modul drag-and-drop serupa tersedia di Azure Machine Learning desainer.
Ringkasan Modul
Artikel ini menjelaskan cara menggunakan modul Ringkas Data di Pembelajaran Mesin Studio (klasik), untuk membuat serangkaian ukuran statistik standar yang menjelaskan setiap kolom dalam tabel input.
Statistik ringkasan semacam itu berguna ketika Anda ingin memahami karakteristik himpunan data lengkap. Misalnya, mungkin Anda perlu tahu:
- Berapa banyak nilai yang hilang di setiap kolom?
- Berapa banyak nilai yang unik di kolom fitur?
- Berapa rata-rata dan simpangan baku untuk setiap kolom?
Modul menghitung skor penting untuk setiap kolom, dan menampilkan baris statistik ringkasan untuk setiap variabel (kolom data) yang disediakan sebagai input.
Tip
Anda mungkin sudah tahu bahwa Anda bisa mendapatkan daftar singkat statistik dengan menggunakan opsi Visualisasikan di Studio (klasik). Namun, visualisasi ini dibuat berdasarkan beberapa jumlah baris teratas. Sebaliknya, modul Ringkas Data menghitung statistiknya di semua baris data.
Cara menggunakan Data Ringkasan
Tambahkan modul Ringkas Data ke eksperimen Anda. Anda dapat menemukan modul ini dalam kategori Fungsi Statistik di Studio (klasik).
Sambungkan himpunan data yang ingin Anda buat laporannya.
Jika Anda hanya ingin melaporkan beberapa kolom, gunakan modul Pilih Kolom dalam Himpunan Data untuk memproyeksikan subset kolom untuk dikerjakan.
Tidak ada parameter tambahan yang dibutuhkan. Secara default, modul menganalisis semua kolom yang disediakan sebagai input, dan bergantung pada jenis nilai dalam kolom, menghasilkan set statistik yang relevan seperti yang dijelaskan di bagian Hasil.
Jalankan eksperimen, atau klik kanan modul, dan pilih Jalankan yang dipilih.
Hasil
Laporan dari modul dapat mencakup statistik berikut.
Statistik yang tepat yang dihasilkan tergantung pada tipe data kolom. Lihat bagian Catatan teknis untuk detailnya.
Asumsi dibuat bahwa contoh milik sampel representatif dari suatu populasi. Jika Anda perlu menghitung statistik pada suatu populasi, gunakan opsi dalam modul Statistik Dasar Komputasi , yang dapat menghitung statistik sampel atau populasi.
Nama kolom | Deskripsi |
---|---|
Fitur | Nama kolom |
Jumlah | Jumlah semua baris |
Jumlah Nilai Unik | Jumlah nilai unik dalam kolom |
Jumlah Nilai yang Hilang | Jumlah nilai unik dalam kolom |
Min | Nilai terendah di kolom |
Maks | Nilai tertinggi di kolom |
Rata-rata | Rata-rata nilai semua kolom |
Rata-rata Penyimpangan | Simpangan rata-rata nilai kolom |
Kuartil Pertama | Nilai pada kuartil pertama |
Median | Nilai median kolom |
Kuartil ke-3 | Nilai pada kuartil ketiga |
Mode | Mode pada nilai kolom |
Rentang | Bilangan bulat yang menunjukkan jumlah nilai antara nilai maksimum dan minimum |
Varian Sampel | Varian untuk kolom; lihat Catatan |
Simpangan Baku Sampel | Simpangan baku untuk kolom; lihat Catatan |
Kemiringan Sampel | Kemiringan untuk kolom; lihat Catatan |
Kurtosis Sampel | Kurtosis untuk kolom; lihat Catatan |
P0.5 | 0,5% persentil |
P1 | 1% persentil |
P5 | 5% persentil |
P95 | 95% persentil |
P99,5 | 99.5% persentil |
Tip
Output laporan statistik sebagai himpunan data tabular, sehingga Anda dapat menggunakan data di alat pelaporan BI, atau menggunakan nilai sebagai input ke operasi lain dalam percobaan.
Contoh
Untuk contoh cara menggunakan modul Ringkas Data dalam eksperimen, lihat Galeri AI Azure:
Unduh himpunan data dari UCI: Membaca himpunan data dalam format CSV dengan menggunakan URL-nya di Repositori Pembelajaran Mesin UCI, dan menghasilkan beberapa statistik dasar tentang himpunan data.
Pemrosesan dan Analisis Himpunan Data: Memuat himpunan data ke ruang kerja, mengubah nama kolom, dan menambahkan metadata.
Prediksi performa siswa: Membaca data yang disimpan dalam format TSV dari penyimpanan Azure Blob.
Catatan teknis
Untuk kolom numerik dan Boolean, Anda dapat mengeluarkan mean, median, mode, dan deviasi standar.
Untuk kolom non-numerik, hanya nilai untuk Hitung, Jumlah nilai unik, dan Jumlah nilai hilang yang dihitung. Untuk statistik lainnya, nilai null akan dikembalikan.
Kolom yang berisi nilai Boolean diproses menggunakan aturan ini:
Saat menghitung Min, AND logis diterapkan.
Saat menghitung Max, OR logis diterapkan
Saat menghitung Rentang, modul pertama kali memeriksa apakah jumlah nilai unik di kolom sama dengan 2.
Saat menghitung statistik apa pun yang memerlukan perhitungan titik float, nilai True dihitung sebagai 1,0, dan nilai False dihitung sebagai 0,0.
Input yang diharapkan
Nama | Jenis | Deskripsi |
---|---|---|
Himpunan Data | Tabel Data | Himpunan data input |
Output
Nama | Jenis | Deskripsi |
---|---|---|
Kumpulan data hasil | Tabel Data | Profil himpunan data input yang berisi statistik deskriptif |
Pengecualian
Pengecualian | Deskripsi |
---|---|
Kesalahan 0003 | Pengecualian terjadi jika satu atau beberapa input null atau kosong. |
Kesalahan 0020 | Pengecualian terjadi jika jumlah kolom di beberapa himpunan data yang diteruskan ke modul terlalu kecil. |
Kesalahan 0021 | Pengecualian terjadi jika jumlah baris di beberapa himpunan data yang diteruskan ke modul terlalu kecil. |
Untuk daftar kesalahan khusus untuk modul Studio (klasik), lihat Pembelajaran Mesin Kode kesalahan.
Untuk daftar pengecualian API, lihat Pembelajaran Mesin Kode Kesalahan REST API.