แชร์ผ่าน


วิธีการเร่งการเตรียมข้อมูลด้วย Data Wrangler ใน Microsoft Fabric

Data Wrangler เป็นเครื่องมือที่ใช้โน้ตบุ๊กซึ่งมีส่วนติดต่อผู้ใช้สําหรับการวิเคราะห์ข้อมูลเชิงสํารวจ คุณลักษณะนี้รวมการแสดงผลข้อมูลที่คล้ายกับเส้นตารางด้วยสถิติสรุปแบบไดนามิก การแสดงภาพภายใน และไลบรารีของการดําเนินการทําความสะอาดข้อมูลทั่วไป การดําเนินการแต่ละรายการสามารถนําไปใช้ในเรื่องของการคลิก อัปเดตการแสดงผลข้อมูลแบบเรียลไทม์ และสร้างโค้ดใน pandas หรือ PySpark ที่สามารถบันทึกกลับไปยังสมุดบันทึกเป็นฟังก์ชันที่นํามาใช้ใหม่ได้ บทความนี้มุ่งเน้นไปที่การสํารวจและแปลง DataFrame ของ pandas คําแนะนําสําหรับการใช้ Data Wrangler บน Spark DataFrames สามารถดูได้ที่นี่

ข้อกำหนดเบื้องต้น

ข้อจำกัด

  • ปัจจุบัน Data Wrangler สนับสนุนการสร้างโค้ด pandas ในความพร้อมใช้งานทั่วไปและ การสร้าง โค้ด Spark ในการแสดงตัวอย่างสาธารณะ
  • การดําเนินการโค้ดแบบกําหนดเองได้รับการสนับสนุนสําหรับ pandas DataFrames เท่านั้น
  • การแสดงผลของ Data Wrangler ทํางานได้ดีที่สุดบนจอภาพขนาดใหญ่ แม้ว่าส่วนต่าง ๆ ของอินเทอร์เฟซสามารถย่อหรือซ่อนเพื่อให้สอดคล้องกับหน้าจอที่มีขนาดเล็กลง

เปิดใช้ Data Wrangler

คุณสามารถเปิดใช้ Data Wrangler ได้โดยตรงจากสมุดบันทึก Microsoft Fabric เพื่อสํารวจและแปลง pandas หรือ Spark DataFrame สําหรับภาพรวมของการใช้ Data Wrangler กับ Spark DataFrames โปรดดู บทความมาด้วยนี้ ส่วนย่อยของโค้ดด้านล่างแสดงวิธีการอ่านข้อมูลตัวอย่างลงใน pandas DataFrame:

import pandas as pd

# Read a CSV into a Pandas DataFrame
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")
display(df)

ภายใต้แถบเครื่องมือริบบอนสมุดบันทึก "ข้อมูล" ให้ใช้พร้อมท์ดรอปดาวน์ Data Wrangler เพื่อเรียกดู DataFrame ที่ใช้งานอยู่ซึ่งพร้อมสําหรับการแก้ไข เลือกรายการที่คุณต้องการเปิดใน Data Wrangler

เคล็ดลับ

ไม่สามารถเปิด Data Wrangler ได้ในขณะที่เคอร์เนลสมุดบันทึกไม่ว่าง เซลล์ที่ดําเนินการต้องดําเนินการให้เสร็จสิ้นก่อนที่ Data Wrangler จะสามารถเปิดใช้งานได้

Screenshot showing a Fabric notebook with the Data Wrangler dropdown prompt.

การเลือกตัวอย่างแบบกําหนดเอง

Data Wrangler ช่วยให้คุณสามารถเปิดตัวอย่างแบบกําหนดเองของ DataFrame ใดๆ ที่ใช้งานอยู่ โดยการเลือก "เลือกตัวอย่างแบบกําหนดเอง" จากรายการแบบเลื่อนลง การทําเช่นนั้นจะเปิดเมนูแบบป็อปอัพพร้อมตัวเลือกเพื่อระบุขนาดของตัวอย่างที่ต้องการ (จํานวนแถว) และวิธีการสุ่มตัวอย่าง (เรคคอร์ดแรก เรคคอร์ดสุดท้าย หรือชุดแบบสุ่ม)

Screenshot showing the Data Wrangler dropdown prompt with the custom sample option outlined.

Screenshot showing the Data Wrangler custom sample prompt.

การดูสถิติสรุป

เมื่อโหลด Data Wrangler จะแสดงภาพรวมเชิงพรรณนาของ DataFrame ที่เลือกในแผงสรุป ภาพรวมนี้ประกอบด้วยข้อมูลเกี่ยวกับขนาดของ DataFrame ค่าที่ขาดหายไป และอื่น ๆ การเลือกคอลัมน์ใด ๆ ในตาราง Data Wrangler จะพร้อมท์แผงสรุปเพื่ออัปเดตและแสดงสถิติที่เป็นคําอธิบายเกี่ยวกับคอลัมน์ที่เฉพาะเจาะจง ข้อมูลเชิงลึกด่วนเกี่ยวกับทุกคอลัมน์จะพร้อมใช้งานในส่วนหัวด้วย

เคล็ดลับ

สถิติและวิชวลเฉพาะคอลัมน์ (ทั้งในแผงสรุปและในส่วนหัวของคอลัมน์) จะขึ้นอยู่กับชนิดข้อมูลของคอลัมน์ ตัวอย่างเช่น ฮิสโทแกรมที่ผูกไว้ของคอลัมน์ตัวเลขจะปรากฏในส่วนหัวของคอลัมน์ก็ต่อเมื่อคอลัมน์ถูกแปลงเป็นชนิดตัวเลข ใช้แผงควบคุม การดําเนินการ เพื่อ recast ชนิดคอลัมน์สําหรับการแสดงผลที่ถูกต้องที่สุด

Screenshot showing the Data Wrangler display grid and Summary panel.

การเรียกดูการดําเนินการทําความสะอาดข้อมูล

รายการขั้นตอนการทําความสะอาดข้อมูลที่สามารถค้นหาได้สามารถพบได้ในแผงการดําเนินการ (การเลือกขนาดเล็กกว่าของการดําเนินการเดียวกันจะพร้อมใช้งานในเมนูของแต่ละส่วนหัวของคอลัมน์) จากแผง การดําเนินการ การเลือกขั้นตอนการทําความสะอาดข้อมูลจะพร้อมท์ให้คุณระบุคอลัมน์หรือคอลัมน์เป้าหมายพร้อมกับพารามิเตอร์ที่จําเป็นเพื่อทําตามขั้นตอน ตัวอย่างเช่น พร้อมท์สําหรับการปรับมาตราส่วนคอลัมน์ตามตัวเลขต้องใช้ช่วงของค่าใหม่

Screenshot showing the Data Wrangler Operations panel.

การแสดงตัวอย่างและการใช้การดําเนินการ

ผลลัพธ์ของการดําเนินการที่เลือกจะแสดงตัวอย่างโดยอัตโนมัติในเส้นตารางการแสดงผล Data Wrangler และรหัสที่สอดคล้องกันจะปรากฏในบานหน้าต่างด้านล่างเส้นตารางโดยอัตโนมัติ หากต้องการยอมรับโค้ดที่แสดงตัวอย่าง ให้เลือก "นําไปใช้" ในที่ใดที่หนึ่ง หากต้องการกําจัดโค้ดที่แสดงตัวอย่างและลองใช้การดําเนินการใหม่ ให้เลือก "ละทิ้ง"

Screenshot showing a Data Wrangler operation in progress.

เมื่อการดําเนินการถูกนําไปใช้ Data Wrangler จะแสดงการอัปเดตตารางและสถิติสรุปเพื่อแสดงผลลัพธ์ รหัสจะปรากฏในรายการการดําเนินการที่ผูกมัดซึ่งอยู่ในแผงขั้นตอนการทําความสะอาด

Screenshot showing an applied Data Wrangler operation.

เคล็ดลับ

คุณสามารถยกเลิกขั้นตอนที่ใช้ล่าสุดได้เสมอด้วยไอคอนถังขยะด้านข้าง ซึ่งจะปรากฏขึ้นหากคุณวางเคอร์เซอร์ของคุณเหนือขั้นตอนนั้นในแผงขั้นตอนการทําความสะอาด

Screenshot showing a Data Wrangler operation that can be undone.

ตารางต่อไปนี้สรุปการดําเนินการที่ Data Wrangler สนับสนุนในขณะนี้:

การดำเนินการ คำอธิบาย:
จัดเรียง เรียงลําดับคอลัมน์จากน้อยไปหามากหรือจากมากไปหาน้อย
ตัวกรอง กรองแถวโดยยึดตามเงื่อนไขอย่างน้อยหนึ่งข้อ
เข้ารหัสหนึ่งร้อน สร้างคอลัมน์ใหม่สําหรับแต่ละค่าที่ไม่ซ้ํากันในคอลัมน์ที่มีอยู่ ที่ระบุการมีอยู่หรือไม่มีค่าเหล่านั้นสําหรับแต่ละแถว
การเข้ารหัสที่ร้อนด้วยตัวคั่น แยกและเข้ารหัสข้อมูลตามประเภทอย่างหนึ่งร้อนโดยใช้ตัวคั่น
เปลี่ยนชนิดคอลัมน์ เปลี่ยนชนิดข้อมูลของคอลัมน์
ปล่อยคอลัมน์ ลบคอลัมน์อย่างน้อยหนึ่งคอลัมน์
เลือกคอลัมน์ เลือกหนึ่งหรือหลายคอลัมน์เพื่อเก็บ และลบส่วนที่เหลือ
เปลี่ยนชื่อคอลัมน์ เปลี่ยนชื่อคอลัมน์
ปล่อยค่าที่หายไป ลบแถวที่มีค่าที่ขาดหายไป
ทิ้งแถวที่ซ้ํากัน วางแถวทั้งหมดที่มีค่าที่ซ้ํากันในหนึ่งคอลัมน์หรือมากกว่า
เติมค่าที่หายไป แทนที่เซลล์ด้วยค่าที่หายไปด้วยค่าใหม่
ค้นหาและแทนที่ แทนที่เซลล์ด้วยรูปแบบที่ตรงกัน
จัดกลุ่มตามคอลัมน์และรวม จัดกลุ่มตามค่าคอลัมน์และรวมผลลัพธ์
แถบช่องว่าง เอาช่องว่างออกจากส่วนเริ่มต้นและส่วนท้ายของข้อความ
แยกข้อความ แยกคอลัมน์ออกเป็นหลายคอลัมน์โดยยึดตามตัวคั่นที่ผู้ใช้กําหนดเอง
แปลงข้อความเป็นตัวพิมพ์เล็ก แปลงข้อความเป็นตัวพิมพ์เล็ก
แปลงข้อความเป็นตัวพิมพ์ใหญ่ แปลงข้อความเป็นตัวพิมพ์ใหญ่
ค่าต่ําสุด/สูงสุดของสเกล ปรับมาตราส่วนคอลัมน์ตัวเลขระหว่างค่าต่ําสุดและสูงสุด
การเติมแฟลช สร้างคอลัมน์ใหม่โดยอัตโนมัติตามตัวอย่างที่สืบทอดมาจากคอลัมน์ที่มีอยู่

การบันทึกและการส่งออกรหัส

แถบเครื่องมือด้านบนเส้นตารางการแสดงผล Data Wrangler มีตัวเลือกในการบันทึกรหัสที่สร้างขึ้น คุณสามารถคัดลอกโค้ดไปยังคลิปบอร์ดหรือส่งออกไปยังสมุดบันทึกเป็นฟังก์ชันได้ การส่งออกโค้ดจะปิด Data Wrangler และเพิ่มฟังก์ชันใหม่ไปยังเซลล์โค้ดในสมุดบันทึก คุณยังสามารถดาวน์โหลด DataFrame ที่ได้รับการทําความสะอาดแล้วเป็นไฟล์ csv ได้

เคล็ดลับ

โค้ดที่สร้างขึ้นโดย Data Wrangler จะไม่ถูกนําไปใช้จนกว่าคุณจะเรียกใช้เซลล์ใหม่ด้วยตนเอง และจะไม่เขียนทับ DataFrame ต้นฉบับของคุณ

Screenshot showing the options to export code in Data Wrangler.

Screenshot showing the code generated by Data Wrangler back in the notebook.

  • หากต้องการลองใช้ Data Wrangler บน Spark DataFrames โปรดดู บทความมาด้วยนี้
  • หากต้องการลองใช้ Data Wrangler ใน VS Code โปรดดู ที่ Data Wrangler ใน VS Code