Meringkas Data
Artikel ini menjelaskan komponen perancang Azure Machine Learning.
Gunakan komponen Ringkasan Data untuk membuat serangkaian pengukuran statistik standar yang menjelaskan setiap kolom dalam tabel input.
Statistik ringkasan berguna saat Anda ingin memahami karakteristik himpunan data yang lengkap. Misalnya, mungkin Anda perlu tahu:
- Berapa banyak nilai yang hilang di setiap kolom?
- Berapa banyak nilai yang unik di kolom fitur?
- Berapa rata-rata dan simpangan baku untuk setiap kolom?
Komponen menghitung skor penting untuk setiap kolom, dan menampilkan baris statistik ringkasan untuk setiap variabel (kolom data) yang diberikan sebagai input.
Cara mengonfigurasi Ringkasan Data
Tambahkan komponen Ringkasan Data ke alur Anda. Anda dapat menemukan komponen ini dalam kategori Fungsi Statistik di perancang.
Sambungkan himpunan data yang ingin Anda buat laporannya.
Jika Anda ingin melaporkan hanya beberapa kolom, gunakan komponen Pilih Kolom di Himpunan Data untuk memproyeksikan subset kolom yang akan dikerjakan.
Tidak ada parameter tambahan yang dibutuhkan. Secara default, komponen menganalisis semua kolom yang disediakan sebagai input, dan bergantung pada jenis nilai dalam kolom, menghasilkan kumpulan statistik yang relevan seperti yang dijelaskan di bagian Hasil.
Kirimkan alur.
Hasil
Laporan dari komponen dapat mencakup statistik berikut.
Nama kolom | Deskripsi |
---|---|
Fitur | Nama kolom |
Jumlah | Jumlah semua baris |
Jumlah Nilai Unik | Jumlah nilai unik dalam kolom |
Jumlah Nilai yang Hilang | Jumlah nilai unik dalam kolom |
Min | Nilai terendah di kolom |
Maks | Nilai tertinggi di kolom |
Rata-rata | Rata-rata nilai semua kolom |
Rata-rata Penyimpangan | Simpangan rata-rata nilai kolom |
Kuartil Pertama | Nilai pada kuartil pertama |
Median | Nilai median kolom |
Kuartil ke-3 | Nilai pada kuartil ketiga |
Mode | Mode pada nilai kolom |
Rentang | Bilangan bulat yang menunjukkan jumlah nilai antara nilai maksimum dan minimum |
Varian Sampel | Varian untuk kolom; lihat Catatan |
Simpangan Baku Sampel | Simpangan baku untuk kolom; lihat Catatan |
Kemiringan Sampel | Kemiringan untuk kolom; lihat Catatan |
Kurtosis Sampel | Kurtosis untuk kolom; lihat Catatan |
P0.5 | 0,5% persentil |
P1 | 1% persentil |
P5 | 5% persentil |
P95 | 95% persentil |
P99,5 | 99.5% persentil |
Catatan teknis
Untuk kolom non-numerik, hanya nilai untuk Jumlah, Jumlah nilai unik, dan Jumlah nilai yang hilang yang akan dikomputasi. Untuk statistik lainnya, nilai null akan dikembalikan.
Kolom yang berisi nilai Boolean diproses menggunakan aturan ini:
Saat menghitung Min, logika AND diterapkan.
Saat menghitung Min, logika OR diterapkan
Saat menghitung Rentang, komponen pertama-tama memeriksa apakah jumlah nilai unik dalam kolom sama dengan 2.
Saat menghitung statistik apa pun yang memerlukan perhitungan titik float, nilai True dihitung sebagai 1,0, dan nilai False dihitung sebagai 0,0.
Langkah berikutnya
Lihat set komponen yang tersedia untuk Azure Machine Learning.