Bagikan melalui


Meringkas Data

Penting

Dukungan untuk Studio Azure Machine Learning (klasik) akan berakhir pada 31 Agustus 2024. Sebaiknya Anda transisi ke Azure Machine Learning sebelum tanggal tersebut.

Mulai 1 Desember 2021, Anda tidak akan dapat membuat sumber daya Studio Azure Machine Learning (klasik) baru. Hingga 31 Agustus 2024, Anda dapat terus menggunakan sumber daya Pembelajaran Mesin Studio (klasik) yang ada.

ML Dokumentasi Studio (klasik) sedang berhenti dan mungkin tidak diperbarui di masa mendatang.

Menghasilkan laporan statistik deskriptif dasar untuk kolom dalam himpunan data

Kategori: Fungsi Statistik

Catatan

Berlaku untuk: Pembelajaran Mesin Studio (klasik) saja

Modul drag-and-drop serupa tersedia di Azure Machine Learning desainer.

Ringkasan Modul

Artikel ini menjelaskan cara menggunakan modul Ringkas Data di Pembelajaran Mesin Studio (klasik), untuk membuat serangkaian ukuran statistik standar yang menjelaskan setiap kolom dalam tabel input.

Statistik ringkasan semacam itu berguna ketika Anda ingin memahami karakteristik himpunan data lengkap. Misalnya, mungkin Anda perlu tahu:

  • Berapa banyak nilai yang hilang di setiap kolom?
  • Berapa banyak nilai yang unik di kolom fitur?
  • Berapa rata-rata dan simpangan baku untuk setiap kolom?

Modul menghitung skor penting untuk setiap kolom, dan menampilkan baris statistik ringkasan untuk setiap variabel (kolom data) yang disediakan sebagai input.

Tip

Anda mungkin sudah tahu bahwa Anda bisa mendapatkan daftar singkat statistik dengan menggunakan opsi Visualisasikan di Studio (klasik). Namun, visualisasi ini dibuat berdasarkan beberapa jumlah baris teratas. Sebaliknya, modul Ringkas Data menghitung statistiknya di semua baris data.

Cara menggunakan Data Ringkasan

  1. Tambahkan modul Ringkas Data ke eksperimen Anda. Anda dapat menemukan modul ini dalam kategori Fungsi Statistik di Studio (klasik).

  2. Sambungkan himpunan data yang ingin Anda buat laporannya.

    Jika Anda hanya ingin melaporkan beberapa kolom, gunakan modul Pilih Kolom dalam Himpunan Data untuk memproyeksikan subset kolom untuk dikerjakan.

  3. Tidak ada parameter tambahan yang dibutuhkan. Secara default, modul menganalisis semua kolom yang disediakan sebagai input, dan bergantung pada jenis nilai dalam kolom, menghasilkan set statistik yang relevan seperti yang dijelaskan di bagian Hasil.

  4. Jalankan eksperimen, atau klik kanan modul, dan pilih Jalankan yang dipilih.

Hasil

Laporan dari modul dapat mencakup statistik berikut.

  • Statistik yang tepat yang dihasilkan tergantung pada tipe data kolom. Lihat bagian Catatan teknis untuk detailnya.

  • Asumsi dibuat bahwa contoh milik sampel representatif dari suatu populasi. Jika Anda perlu menghitung statistik pada suatu populasi, gunakan opsi dalam modul Statistik Dasar Komputasi , yang dapat menghitung statistik sampel atau populasi.

Nama kolom Deskripsi
Fitur Nama kolom
Jumlah Jumlah semua baris
Jumlah Nilai Unik Jumlah nilai unik dalam kolom
Jumlah Nilai yang Hilang Jumlah nilai unik dalam kolom
Min Nilai terendah di kolom
Maks Nilai tertinggi di kolom
Rata-rata Rata-rata nilai semua kolom
Rata-rata Penyimpangan Simpangan rata-rata nilai kolom
Kuartil Pertama Nilai pada kuartil pertama
Median Nilai median kolom
Kuartil ke-3 Nilai pada kuartil ketiga
Mode Mode pada nilai kolom
Rentang Bilangan bulat yang menunjukkan jumlah nilai antara nilai maksimum dan minimum
Varian Sampel Varian untuk kolom; lihat Catatan
Simpangan Baku Sampel Simpangan baku untuk kolom; lihat Catatan
Kemiringan Sampel Kemiringan untuk kolom; lihat Catatan
Kurtosis Sampel Kurtosis untuk kolom; lihat Catatan
P0.5 0,5% persentil
P1 1% persentil
P5 5% persentil
P95 95% persentil
P99,5 99.5% persentil

Tip

Output laporan statistik sebagai himpunan data tabular, sehingga Anda dapat menggunakan data di alat pelaporan BI, atau menggunakan nilai sebagai input ke operasi lain dalam percobaan.

Contoh

Untuk contoh cara menggunakan modul Ringkas Data dalam eksperimen, lihat Galeri AI Azure:

Catatan teknis

  • Untuk kolom numerik dan Boolean, Anda dapat mengeluarkan mean, median, mode, dan deviasi standar.

  • Untuk kolom non-numerik, hanya nilai untuk Hitung, Jumlah nilai unik, dan Jumlah nilai hilang yang dihitung. Untuk statistik lainnya, nilai null akan dikembalikan.

  • Kolom yang berisi nilai Boolean diproses menggunakan aturan ini:

    • Saat menghitung Min, AND logis diterapkan.

    • Saat menghitung Max, OR logis diterapkan

    • Saat menghitung Rentang, modul pertama kali memeriksa apakah jumlah nilai unik di kolom sama dengan 2.

    • Saat menghitung statistik apa pun yang memerlukan perhitungan titik float, nilai True dihitung sebagai 1,0, dan nilai False dihitung sebagai 0,0.

Input yang diharapkan

Nama Jenis Deskripsi
Himpunan Data Tabel Data Himpunan data input

Output

Nama Jenis Deskripsi
Kumpulan data hasil Tabel Data Profil himpunan data input yang berisi statistik deskriptif

Pengecualian

Pengecualian Deskripsi
Kesalahan 0003 Pengecualian terjadi jika satu atau beberapa input null atau kosong.
Kesalahan 0020 Pengecualian terjadi jika jumlah kolom di beberapa himpunan data yang diteruskan ke modul terlalu kecil.
Kesalahan 0021 Pengecualian terjadi jika jumlah baris di beberapa himpunan data yang diteruskan ke modul terlalu kecil.

Untuk daftar kesalahan khusus untuk modul Studio (klasik), lihat Pembelajaran Mesin Kode kesalahan.

Untuk daftar pengecualian API, lihat Pembelajaran Mesin Kode Kesalahan REST API.

Lihat juga

Fungsi statistik
Menghitung Statistik Dasar