Bagikan melalui


Mempercepat persiapan data dengan Data Wrangler di Microsoft Fabric

Data Wrangler mempercepat alur kerja persiapan data Anda dengan menyediakan antarmuka visual yang imersif untuk analisis data eksploratif. Dalam artikel ini, Anda akan mempelajari cara:

  • Luncurkan Data Wrangler dari notebook Fabric Anda
  • Menjelajahi data dengan visualisasi interaktif dan statistik ringkasan
  • Menerapkan operasi pembersihan data umum dengan pembuatan kode otomatis
  • Mengekspor fungsi pandas atau PySpark yang dapat digunakan kembali ke notebook Anda

Artikel ini berfokus pada pandas DataFrames. Untuk Spark DataFrames, lihat sumber daya ini.

Prerequisites

Limitations

  • Operasi kode kustom saat ini hanya mendukung panda DataFrames.
  • Tampilan Data Wrangler berfungsi paling baik pada monitor besar. Namun, Anda dapat meminimalkan atau menyembunyikan bagian antarmuka yang berbeda untuk mengakomodasi layar yang lebih kecil.

Meluncurkan Wrangler Data

Anda dapat meluncurkan Data Wrangler langsung dari notebook Microsoft Fabric untuk menjelajahi dan mengubah panda atau Spark DataFrame apa pun.

Untuk mulai menggunakan data sampel:

Cuplikan kode ini menunjukkan cara membaca data sampel ke dalam DataFrame pandas:

import pandas as pd

# Read a CSV into a Pandas DataFrame
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")
display(df)

Di tab "Beranda" pita buku catatan, gunakan menu dropdown Wrangler Data untuk menelusuri DataFrame aktif yang tersedia untuk pengeditan. Pilih yang ingin Anda buka di Data Wrangler.

Tip

Anda tidak dapat membuka Data Wrangler saat kernel notebook sibuk. Sel yang dieksekusi harus selesai sebelum Data Wrangler dapat diluncurkan, seperti yang ditunjukkan pada cuplikan layar ini:

Cuplikan layar memperlihatkan notebook Fabric dengan perintah dropdown Data Wrangler.

Memilih sampel kustom

Untuk membuka sampel kustom DataFrame aktif apa pun dengan Data Wrangler, pilih Pilih sampel kustom dari menu dropdown, seperti yang ditunjukkan pada cuplikan layar ini:

Cuplikan layar memperlihatkan perintah dropdown Wrangler Data dengan opsi sampel yang diuraikan.

Tindakan ini membuka dialog dengan opsi untuk menentukan ukuran sampel yang diinginkan (jumlah baris) dan metode pengambilan sampel (rekaman pertama, rekaman terakhir, atau set acak). 5.000 baris pertama DataFrame berfungsi sebagai ukuran sampel default, seperti yang ditunjukkan pada cuplikan layar ini:

Cuplikan layar memperlihatkan permintaan sampel kustom Data Wrangler.

Menampilkan statistik ringkasan

Saat Data Wrangler dimuat, Data Wrangler menampilkan gambaran umum deskriptif dari DataFrame yang dipilih di panel Ringkasan . Gambaran umum ini mencakup informasi tentang dimensi DataFrame, nilai yang hilang, dan banyak lagi. Saat Anda memilih kolom apa pun di kisi Data Wrangler, panel Ringkasan diperbarui untuk menampilkan statistik deskriptif tentang kolom tertentu tersebut. Wawasan cepat tentang setiap kolom juga tersedia di header-nya.

Tip

Statistik dan visual khusus kolom (baik di panel Ringkasan maupun di header kolom) bergantung pada jenis data kolom. Misalnya, histogram terikat kolom numerik muncul di header kolom hanya jika kolom ditransmisikan sebagai jenis numerik, seperti yang ditunjukkan pada cuplikan layar ini:

Cuplikan layar memperlihatkan kisi tampilan Wrangler Data dan panel Ringkasan.

Menelusuri operasi pembersihan data

Panel Operasi menyediakan daftar operasi pembersihan data yang dapat dicari. Saat Anda memilih operasi pembersihan data dari panel Operasi , Anda perlu menyediakan kolom atau kolom target, bersama dengan parameter yang diperlukan untuk menyelesaikan operasi. Misalnya, perintah untuk menskalakan kolom secara numerik memerlukan rentang nilai baru, seperti yang ditunjukkan pada cuplikan layar ini:

Cuplikan layar memperlihatkan panel Operasi Wrangler Data.

Tip

Anda dapat menerapkan pilihan operasi yang lebih kecil dari menu setiap header kolom, seperti yang ditunjukkan pada cuplikan layar ini:

Cuplikan layar memperlihatkan operasi Data Wrangler yang dapat diterapkan dari menu header kolom.

Mempratinjau dan menerapkan operasi

Kisi tampilan Data Wrangler secara otomatis mempratinjau hasil operasi yang dipilih, dan kode yang sesuai secara otomatis muncul di panel di bawah kisi. Untuk menerapkan kode yang dipratinjau, pilih Terapkan di salah satu lokasi. Untuk menghapus kode yang dipratinjau dan mencoba operasi baru, pilih Buang seperti yang ditunjukkan dalam cuplikan layar ini:

Cuplikan layar memperlihatkan operasi Data Wrangler sedang berlangsung.

Setelah Anda menerapkan operasi, kisi tampilan Data Wrangler dan statistik ringkasan akan diperbarui untuk mencerminkan hasilnya. Kode muncul dalam daftar operasi yang sedang berjalan di panel Langkah pembersihan , seperti yang ditunjukkan pada cuplikan layar ini:

Cuplikan layar memperlihatkan operasi Data Wrangler yang diterapkan.

Tip

Anda selalu dapat membatalkan langkah yang terakhir diterapkan. Di panel Langkah-langkah pembersihan , ikon tempat sampah muncul saat Anda mengarahkan kursor ke langkah yang terakhir diterapkan, seperti yang ditunjukkan pada cuplikan layar ini:

Cuplikan layar memperlihatkan operasi Data Wrangler yang dapat dibatalkan.

Tabel ini meringkas operasi yang saat ini didukung Oleh Data Wrangler:

Operation Description
Sort Mengurutkan kolom dalam urutan naik atau turun
Filter Memfilter baris berdasarkan satu atau beberapa kondisi
Pengodean satu panas Buat kolom baru untuk setiap nilai unik di kolom yang sudah ada, yang menunjukkan ada atau tidak adanya nilai tersebut per baris
Binarizer multi-label Pisahkan data menggunakan pemisah dan buat kolom baru untuk setiap kategori, menandai 1 jika baris memiliki kategori tersebut dan 0 jika tidak
Ubah tipe kolom Mengubah tipe data kolom
Jatuhkan kolom Menghapus satu atau beberapa kolom
Pilih kolom Pilih satu atau beberapa kolom untuk disimpan, dan hapus kolom lainnya
Ganti nama kolom Mengganti nama kolom
Hilangkan nilai yang hilang Menghapus baris dengan nilai yang hilang
Jatuhkan baris duplikat Letakkan semua baris yang memiliki nilai duplikat dalam satu atau beberapa kolom
Isi nilai yang hilang Ganti sel dengan nilai yang hilang dengan nilai baru
Temukan dan ganti Ganti sel dengan pola pencocokan yang tepat
Kelompokkan menurut kolom dan agregat Mengelompokkan menurut nilai kolom dan hasil agregat
Spasi kosong strip Menghapus spasi kosong dari awal dan akhir teks
Pisahkan teks Memisahkan kolom menjadi beberapa kolom berdasarkan pemisah yang ditentukan pengguna
Mengonversi teks menjadi huruf kecil Mengonversi teks menjadi huruf kecil
Mengonversi teks menjadi huruf besar Mengonversi teks menjadi HURUF BESAR
Menskalakan nilai min/maks Menskalakan kolom numerik antara nilai minimum dan maksimum
Isian Flash Membuat kolom baru secara otomatis berdasarkan contoh yang berasal dari kolom yang sudah ada

Mengkustomisasi tampilan Anda

Kapan saja, Anda dapat menyesuaikan antarmuka dengan menggunakan tab "Tampilan" di toolbar di atas kisi tampilan Wrangler Data. Opsi ini dapat menyembunyikan atau menampilkan panel yang berbeda berdasarkan preferensi dan ukuran layar Anda, seperti yang ditunjukkan pada cuplikan layar ini:

Cuplikan layar memperlihatkan menu Wrangler Data untuk menyesuaikan tampilan tampilan.

Menyimpan dan mengekspor kode

Toolbar di atas kisi tampilan Data Wrangler menyediakan opsi untuk menyimpan kode yang dihasilkan. Anda dapat menyalin kode ke clipboard atau mengekspornya ke buku catatan sebagai fungsi. Mengekspor kode menutup Data Wrangler dan menambahkan fungsi baru ke sel kode di buku catatan. Anda juga dapat mengunduh DataFrame yang dibersihkan sebagai file CSV.

Tip

Data Wrangler menghasilkan kode yang hanya berjalan saat Anda menjalankan sel baru secara manual, dan tidak menimpa DataFrame asli Anda, seperti yang ditunjukkan pada cuplikan layar ini:

Cuplikan layar memperlihatkan opsi untuk mengekspor kode di Data Wrangler.

Anda kemudian dapat menjalankan kode yang diekspor, seperti yang ditunjukkan dalam cuplikan layar ini:

Cuplikan layar memperlihatkan kode yang dihasilkan oleh Data Wrangler kembali di buku catatan.

Langkah selanjutnya

Sekarang setelah Anda tahu cara menggunakan Data Wrangler dengan pandas DataFrames, jelajahi sumber daya ini:

Memiliki umpan balik? Bagikan ide Anda di forum Fabric Ideas.