Cara mempercepat persiapan data dengan Data Wrangler di Microsoft Fabric
Alat Data Wrangler adalah sumber daya berbasis notebook yang menyediakan antarmuka imersif untuk analisis data eksploratif. Ini menggabungkan tampilan data seperti kisi dengan statistik ringkasan dinamis, visualisasi bawaan, dan pustaka operasi pembersihan data umum. Anda dapat menerapkan setiap operasi dengan beberapa langkah. Anda dapat memperbarui tampilan data secara real time, dan menghasilkan kode di panda atau PySpark yang dapat Anda simpan kembali ke buku catatan sebagai fungsi yang dapat digunakan kembali. Artikel ini berfokus pada eksplorasi dan transformasi Pandas DataFrames. Untuk informasi selengkapnya tentang menggunakan Data Wrangler di Spark DataFrames, kunjungi sumber daya ini.
Prasyarat
Dapatkan langganan Microsoft Fabric. Atau, daftar untuk uji coba Microsoft Fabric gratis.
Masuk ke Microsoft Fabric.
Gunakan pengalih pengalaman di sisi kiri halaman beranda Anda untuk beralih ke pengalaman Ilmu Data Synapse.
Batasan
- Operasi kode kustom saat ini hanya didukung untuk Pandas DataFrames.
- Tampilan Data Wrangler berfungsi paling baik pada monitor besar, meskipun Anda dapat meminimalkan atau menyembunyikan bagian antarmuka yang berbeda, untuk mengakomodasi layar yang lebih kecil.
Meluncurkan Wrangler Data
Anda dapat meluncurkan Data Wrangler langsung dari notebook Microsoft Fabric untuk menjelajahi dan mengubah panda atau Spark DataFrame apa pun. Untuk informasi selengkapnya tentang menggunakan Data Wrangler dengan Spark DataFrames, kunjungi artikel pendamping ini. Cuplikan kode ini menunjukkan cara membaca data sampel ke dalam DataFrame pandas:
import pandas as pd
# Read a CSV into a Pandas DataFrame
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")
display(df)
Di tab "Beranda" pita buku catatan, gunakan perintah dropdown Wrangler Data untuk menelusuri DataFrame aktif yang tersedia untuk pengeditan. Pilih yang ingin Anda buka di Data Wrangler.
Tip
Wrangler Data tidak dapat dibuka saat kernel notebook sibuk. Sel yang dieksekusi harus menyelesaikan eksekusinya sebelum Data Wrangler dapat diluncurkan, seperti yang ditunjukkan pada cuplikan layar ini:
Memilih sampel kustom
Untuk membuka sampel kustom DataFrame aktif apa pun dengan Data Wrangler, pilih "Pilih sampel kustom" dari menu dropdown, seperti yang ditunjukkan pada cuplikan layar ini:
Ini meluncurkan pop-up dengan opsi untuk menentukan ukuran sampel yang diinginkan (jumlah baris) dan metode pengambilan sampel (rekaman pertama, rekaman terakhir, atau set acak). 5.000 baris pertama DataFrame berfungsi sebagai ukuran sampel default, seperti yang ditunjukkan pada cuplikan layar ini:
Menampilkan statistik ringkasan
Saat Data Wrangler dimuat, Data Wrangler menampilkan gambaran umum deskriptif dari DataFrame yang dipilih di panel "Ringkasan". Gambaran umum ini mencakup informasi tentang dimensi DataFrame, nilainya yang hilang, dan banyak lagi. Pemilihan kolom apa pun di kisi Data Wrangler meminta panel "Ringkasan" untuk memperbarui dan menampilkan statistik deskriptif tentang kolom tertentu tersebut. Wawasan cepat tentang setiap kolom juga tersedia di header-nya.
Tip
Statistik dan visual khusus kolom (baik di panel "Ringkasan" maupun di header kolom) bergantung pada jenis data kolom. Misalnya, histogram terikat kolom numerik muncul di header kolom hanya jika kolom ditransmisikan sebagai jenis numerik, seperti yang ditunjukkan pada cuplikan layar ini:
Menelusuri operasi pembersihan data
Daftar langkah-langkah pembersihan data yang dapat dicari dapat ditemukan di panel "Operasi". Dari panel "Operasi", pemilihan langkah pembersihan data meminta Anda untuk menyediakan kolom atau kolom target, bersama dengan parameter yang diperlukan untuk menyelesaikan langkah tersebut. Misalnya, perintah untuk menskalakan kolom secara numerik memerlukan rentang nilai baru, seperti yang ditunjukkan pada cuplikan layar ini:
Tip
Anda dapat menerapkan pilihan operasi yang lebih kecil dari menu setiap header kolom, seperti yang ditunjukkan pada cuplikan layar ini:
Mempratinjau dan menerapkan operasi
Kisi tampilan Data Wrangler secara otomatis mempratinjau hasil operasi yang dipilih, dan kode yang sesuai secara otomatis muncul di panel di bawah kisi. Untuk menerapkan kode yang dipratinjau, pilih "Terapkan" di salah satu tempat. Untuk menghapus kode yang dipratinjau dan mencoba operasi baru, pilih "Buang" seperti yang ditunjukkan pada cuplikan layar ini:
Setelah operasi diterapkan, kisi tampilan Data Wrangler dan ringkasan pembaruan statistik untuk mencerminkan hasilnya. Kode muncul dalam daftar operasi yang dijalankan, yang terletak di panel "Langkah-langkah pembersihan", seperti yang ditunjukkan pada cuplikan layar ini:
Tip
Anda selalu dapat membatalkan langkah yang terakhir diterapkan. Di panel "Langkah-langkah pembersihan", ikon tempat sampah akan muncul jika Anda mengarahkan kursor ke langkah yang terakhir diterapkan, seperti yang ditunjukkan pada cuplikan layar ini:
Tabel ini meringkas operasi yang saat ini didukung Oleh Data Wrangler:
Operasi | Keterangan |
---|---|
urutkan | Mengurutkan kolom dalam urutan naik atau turun |
Filter | Memfilter baris berdasarkan satu atau beberapa kondisi |
Pengodean satu panas | Buat kolom baru untuk setiap nilai unik di kolom yang sudah ada, yang menunjukkan ada atau tidak adanya nilai tersebut per baris |
Pengodean satu panas dengan pemisah | Memisahkan dan mengodekan data kategoris satu panas menggunakan pemisah |
Ubah tipe kolom | Mengubah tipe data kolom |
Jatuhkan kolom | Menghapus satu atau beberapa kolom |
Pilih kolom | Pilih satu atau beberapa kolom untuk disimpan, dan hapus kolom lainnya |
Ganti nama kolom | Mengganti nama kolom |
Hilangkan nilai yang hilang | Menghapus baris dengan nilai yang hilang |
Jatuhkan baris duplikat | Letakkan semua baris yang memiliki nilai duplikat dalam satu atau beberapa kolom |
Isi nilai yang hilang | Ganti sel dengan nilai yang hilang dengan nilai baru |
Temukan dan ganti | Ganti sel dengan pola pencocokan yang tepat |
Kelompokkan menurut kolom dan agregat | Mengelompokkan menurut nilai kolom dan hasil agregat |
Spasi kosong strip | Menghapus spasi kosong dari awal dan akhir teks |
Pisahkan teks | Memisahkan kolom menjadi beberapa kolom berdasarkan pemisah yang ditentukan pengguna |
Mengonversi teks menjadi huruf kecil | Mengonversi teks menjadi huruf kecil |
Mengonversi teks menjadi huruf besar | Mengonversi teks menjadi HURUF BESAR |
Menskalakan nilai min/maks | Menskalakan kolom numerik antara nilai minimum dan maksimum |
Isian Flash | Membuat kolom baru secara otomatis berdasarkan contoh yang berasal dari kolom yang sudah ada |
Mengubah tampilan Anda
Kapan saja, Anda dapat menyesuaikan antarmuka dengan tab "Tampilan" di toolbar yang terletak di atas kisi tampilan Wrangler Data. Ini dapat menyembunyikan atau menampilkan panel yang berbeda berdasarkan preferensi dan ukuran layar Anda, seperti yang ditunjukkan dalam cuplikan layar ini:
Menyimpan dan mengekspor kode
Toolbar di atas kisi tampilan Data Wrangler menyediakan opsi untuk menyimpan kode yang dihasilkan. Anda bisa menyalin kode ke clipboard, atau mengekspornya ke buku catatan sebagai fungsi. Mengekspor kode menutup Data Wrangler dan menambahkan fungsi baru ke sel kode di buku catatan. Anda juga dapat mengunduh DataFrame yang dibersihkan sebagai file csv.
Tip
Data Wrangler menghasilkan kode yang diterapkan hanya saat Anda menjalankan sel baru secara manual, dan tidak akan menimpa DataFrame asli Anda, seperti yang ditunjukkan pada cuplikan layar ini:
Anda kemudian dapat menjalankan kode yang diekspor, seperti yang ditunjukkan dalam cuplikan layar ini:
Konten terkait
- Untuk mencoba Data Wrangler di Spark DataFrames, kunjungi artikel pendamping ini
- Untuk demo live-action Data Wrangler di Fabric, lihat video ini dari teman-teman kami di Guy in a Cube
- Untuk mencoba Data Wrangler di Visual Studio Code, buka Data Wrangler di VISUAL Code
- Apakah kami melewatkan fitur yang Anda butuhkan? Beri tahu kami! Sarankan di forum Fabric Ideas