Memprofilkan data di Power BI

Selesai

Profiling data adalah tentang mempelajari nuansa data: menentukan anomali, memeriksa dan mengembangkan struktur data yang mendasarinya, dan menanyakan statistik data seperti jumlah baris, distribusi nilai, nilai minimum dan maksimum, rata-rata, dan sebagainya. Konsep ini penting karena memungkinkan Anda untuk membentuk dan mengatur data sehingga interaksi dengan data dan mengidentifikasi distribusi data tidak rumit, sehingga membantu tugas Anda bekerja dengan data di front end untuk mengembangkan elemen laporan di dekat Anda. mudah.

Asumsikan bahwa Anda mengembangkan laporan untuk tim Penjualan di organisasi Anda. Anda tidak yakin bagaimana data disusun dan terkandung dalam tabel, jadi Anda ingin memprofilkan data di belakang layar sebelum mulai mengembangkan visual. Power BI memiliki fungsionalitas melekat yang membuat tugas-tugas ini mudah digunakan dan mudah.

Periksa struktur data

Sebelum Anda mulai memeriksa data di Editor Power Query, Anda harus terlebih dahulu mempelajari tentang struktur data yang mendasari tempat data diatur. Anda dapat melihat model semantik saat ini di bawah tab Model di Power BI Desktop.

contoh struktur data dan bilah pita

Pada tab Model, Anda bisa mengedit properti kolom dan tabel tertentu dengan memilih tabel atau kolom, dan Anda bisa mengubah data dengan menggunakan tombol Transformasi Data, yang membawa Anda ke Editor Power Query. Selain itu, Anda dapat mengelola, membuat, mengedit, dan menghapus hubungan antara tabel yang berbeda dengan menggunakan Kelola Hubungan, yang terletak di pita.

Temukan anomali data dan statistik data

Setelah membuat koneksi ke sumber data dan memilih Ubah Data, Anda akan dibawa ke Editor Power Query, tempat Anda dapat menentukan apakah ada anomali dalam data Anda.  Anomali data adalah outlier dalam data Anda. Menentukan seperti apa anomali tersebut dapat membantu Anda mengidentifikasi seperti apa distribusi normal data Anda dan apakah ada titik data tertentu yang perlu Anda selidiki lebih lanjut. Editor Power Query menentukan anomali data dengan menggunakan fitur Distribusi Kolom.

Pilih Tampilan pada pita, dan di bawah Pratinjau Data, Anda bisa memilih dari beberapa opsi. Untuk memahami anomali dan statistik data, pilih opsi Distribusi Kolom, Kualitas Kolom, dan Profil Kolom . Gambar berikut menunjukkan statistik yang muncul.

Kualitas kolom dan Distribusi kolom diperlihatkan dalam grafik di atas kolom data. Kualitas kolom memperlihatkan kepada Anda persentase data yang valid, dalam kesalahan, dan kosong. Dalam situasi yang ideal, Anda ingin 100 persen data valid.

anomali dan statistik data untuk kolom data

Catatan

Secara default, Power Query memeriksa 1000 baris pertama himpunan data Anda. Untuk mengubah ini, pilih status pembuatan profil di bilah status dan pilih Pembuatan profil kolom berdasarkan seluruh himpunan data. ]

Distribusi kolom memperlihatkan kepada Anda distribusi data dalam kolom dan hitungan nilai yang berbeda dan unik, yang keduanya dapat memberi tahu Anda detail tentang jumlah data. Nilai yang berbeda adalah semua nilai yang berbeda dalam kolom, termasuk nilai duplikat dan null, sementara nilai unik tidak menyertakan duplikat atau null. Oleh karena itu, berbeda dalam tabel ini memberi tahu Anda jumlah total berapa banyak nilai yang ada, sementara yang unik memberi tahu Anda berapa banyak nilai tersebut yang hanya muncul sekali.

Profil kolom memberi Anda tampilan yang lebih mendalam tentang statistik dalam kolom untuk 1.000 baris data pertama. Kolom ini menyediakan beberapa nilai yang berbeda, termasuk jumlah baris, yang penting saat memverifikasi apakah impor data Anda berhasil. Misalnya, jika database asli Anda memiliki 100 baris, Anda dapat menggunakan jumlah baris ini untuk memverifikasi bahwa 100 baris sebenarnya diimpor dengan benar. Selain itu, jumlah baris ini akan menunjukkan berapa banyak baris yang dianggap power BI sebagai outlier, baris dan string kosong, dan min dan maks, yang masing-masing akan memberi tahu Anda nilai terkecil dan terbesar dalam kolom. Perbedaan ini sangat penting dalam kasus data numerik karena akan segera memberi tahu Anda jika Anda memiliki nilai maksimum yang berada di luar apa yang diidentifikasi bisnis Anda sebagai "maksimum." Nilai ini memanggil perhatian Anda nilai-nilai ini, yang berarti Anda kemudian dapat memfokuskan upaya Anda saat mempelajari lebih dalam data. Dalam kasus di mana data berada di kolom teks, seperti yang terlihat pada gambar sebelumnya, nilai minimum adalah nilai pertama dan nilai maksimum adalah nilai terakhir saat dalam urutan alfabet.

Selain itu, grafik Distribusi nilai memberi tahu Anda hitungan untuk setiap nilai berbeda di kolom tertentu tersebut. Saat melihat grafik pada gambar sebelumnya, perhatikan bahwa distribusi nilai menunjukkan bahwa "Anthony Gross" muncul berapa kali terbesar dalam kolom SalesPerson dan bahwa "Kode Lily" muncul paling sedikit kali. Informasi ini sangat penting karena mengidentifikasi outlier. Jika nilai muncul jauh lebih banyak daripada nilai lain dalam kolom, fitur Distribusi nilai memungkinkan Anda untuk menentukan tempat untuk memulai penyelidikan Anda tentang mengapa demikian.

Pada kolom numerik, Statistik Kolom juga akan menyertakan berapa banyak nol dan nilai null yang ada, bersama dengan nilai rata-rata dalam kolom, simpangan baku nilai dalam kolom, dan berapa banyak nilai genap dan ganjil dalam kolom. Statistik ini memberi Anda gambaran tentang distribusi data dalam kolom, dan penting karena mereka meringkas data dalam kolom dan berfungsi sebagai titik awal untuk menentukan apa itu outlier.

Misalnya, saat melihat melalui data faktur, Anda melihat bahwa grafik Distribusi nilai menunjukkan bahwa beberapa staf penjualan di kolom SalesPerson muncul dalam jumlah yang sama dalam data. Selain itu, Anda melihat situasi yang sama telah terjadi di kolom Profit dan di beberapa tabel lainnya juga. Selama penyelidikan, Anda menemukan bahwa data yang Anda gunakan adalah data yang buruk dan perlu disegarkan, sehingga Anda segera menyelesaikan refresh. Tanpa melihat grafik ini, Anda mungkin belum melihat kesalahan ini begitu cepat dan, karena alasan ini, distribusi nilai sangat penting.

Setelah Anda menyelesaikan pengeditan di Editor Power Query dan siap untuk mulai membangun visual, kembali ke Beranda pada pita Editor Power Query. Pilih Tutup & Terapkan, yang akan mengembalikan Anda ke Power BI Desktop dan pengeditan/transformasi kolom apa pun juga akan diterapkan.

Anda sekarang telah menentukan elemen yang membentuk data pembuatan profil di Power BI, yang mencakup pemuatan data di Power BI, menginterogasi properti kolom untuk mendapatkan kejelasan tentang dan melakukan pengeditan lebih lanjut pada jenis dan format data dalam kolom, menemukan anomali data, dan melihat statistik data di Editor Power Query. Dengan pengetahuan ini, Anda dapat menyertakan kemampuan toolkit Anda untuk mempelajari data Anda dengan cara yang efisien dan efektif.