วิธีการเร่งการเตรียมข้อมูลด้วย Data Wrangler ใน Microsoft Fabric
Data Wrangler เป็นเครื่องมือที่ใช้โน้ตบุ๊กซึ่งมีส่วนติดต่อผู้ใช้สําหรับการวิเคราะห์ข้อมูลเชิงสํารวจ คุณลักษณะนี้รวมการแสดงผลข้อมูลที่คล้ายกับเส้นตารางด้วยสถิติสรุปแบบไดนามิก การแสดงภาพภายใน และไลบรารีของการดําเนินการทําความสะอาดข้อมูลทั่วไป การดําเนินการแต่ละรายการสามารถนําไปใช้ในเรื่องของการคลิก อัปเดตการแสดงผลข้อมูลแบบเรียลไทม์ และสร้างโค้ดใน pandas หรือ PySpark ที่สามารถบันทึกกลับไปยังสมุดบันทึกเป็นฟังก์ชันที่นํามาใช้ใหม่ได้ บทความนี้มุ่งเน้นไปที่การสํารวจและแปลง DataFrame ของ pandas คําแนะนําสําหรับการใช้ Data Wrangler บน Spark DataFrames สามารถดูได้ที่นี่
ข้อกำหนดเบื้องต้น
รับการสมัครใช้งาน Microsoft Fabric หรือลงทะเบียนเพื่อทดลองใช้งาน Microsoft Fabric ฟรี
ลงชื่อเข้าใช้ Microsoft Fabric
ใช้ตัวสลับประสบการณ์ทางด้านซ้ายของโฮมเพจของคุณเพื่อสลับไปยังประสบการณ์วิทยาศาสตร์ข้อมูล Synapse
ข้อจำกัด
- ปัจจุบัน Data Wrangler สนับสนุนการสร้างโค้ด pandas ในความพร้อมใช้งานทั่วไปและ การสร้าง โค้ด Spark ในการแสดงตัวอย่างสาธารณะ
- การดําเนินการโค้ดแบบกําหนดเองได้รับการสนับสนุนสําหรับ pandas DataFrames เท่านั้น
- การแสดงผลของ Data Wrangler ทํางานได้ดีที่สุดบนจอภาพขนาดใหญ่ แม้ว่าส่วนต่าง ๆ ของอินเทอร์เฟซสามารถย่อหรือซ่อนเพื่อให้สอดคล้องกับหน้าจอที่มีขนาดเล็กลง
เปิดใช้ Data Wrangler
คุณสามารถเปิดใช้ Data Wrangler ได้โดยตรงจากสมุดบันทึก Microsoft Fabric เพื่อสํารวจและแปลง pandas หรือ Spark DataFrame สําหรับภาพรวมของการใช้ Data Wrangler กับ Spark DataFrames โปรดดู บทความมาด้วยนี้ ส่วนย่อยของโค้ดด้านล่างแสดงวิธีการอ่านข้อมูลตัวอย่างลงใน pandas DataFrame:
import pandas as pd
# Read a CSV into a Pandas DataFrame
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")
display(df)
ภายใต้แถบเครื่องมือริบบอนสมุดบันทึก "ข้อมูล" ให้ใช้พร้อมท์ดรอปดาวน์ Data Wrangler เพื่อเรียกดู DataFrame ที่ใช้งานอยู่ซึ่งพร้อมสําหรับการแก้ไข เลือกรายการที่คุณต้องการเปิดใน Data Wrangler
เคล็ดลับ
ไม่สามารถเปิด Data Wrangler ได้ในขณะที่เคอร์เนลสมุดบันทึกไม่ว่าง เซลล์ที่ดําเนินการต้องดําเนินการให้เสร็จสิ้นก่อนที่ Data Wrangler จะสามารถเปิดใช้งานได้
การเลือกตัวอย่างแบบกําหนดเอง
Data Wrangler ช่วยให้คุณสามารถเปิดตัวอย่างแบบกําหนดเองของ DataFrame ใดๆ ที่ใช้งานอยู่ โดยการเลือก "เลือกตัวอย่างแบบกําหนดเอง" จากรายการแบบเลื่อนลง การทําเช่นนั้นจะเปิดเมนูแบบป็อปอัพพร้อมตัวเลือกเพื่อระบุขนาดของตัวอย่างที่ต้องการ (จํานวนแถว) และวิธีการสุ่มตัวอย่าง (เรคคอร์ดแรก เรคคอร์ดสุดท้าย หรือชุดแบบสุ่ม)
การดูสถิติสรุป
เมื่อโหลด Data Wrangler จะแสดงภาพรวมเชิงพรรณนาของ DataFrame ที่เลือกในแผงสรุป ภาพรวมนี้ประกอบด้วยข้อมูลเกี่ยวกับขนาดของ DataFrame ค่าที่ขาดหายไป และอื่น ๆ การเลือกคอลัมน์ใด ๆ ในตาราง Data Wrangler จะพร้อมท์แผงสรุปเพื่ออัปเดตและแสดงสถิติที่เป็นคําอธิบายเกี่ยวกับคอลัมน์ที่เฉพาะเจาะจง ข้อมูลเชิงลึกด่วนเกี่ยวกับทุกคอลัมน์จะพร้อมใช้งานในส่วนหัวด้วย
เคล็ดลับ
สถิติและวิชวลเฉพาะคอลัมน์ (ทั้งในแผงสรุปและในส่วนหัวของคอลัมน์) จะขึ้นอยู่กับชนิดข้อมูลของคอลัมน์ ตัวอย่างเช่น ฮิสโทแกรมที่ผูกไว้ของคอลัมน์ตัวเลขจะปรากฏในส่วนหัวของคอลัมน์ก็ต่อเมื่อคอลัมน์ถูกแปลงเป็นชนิดตัวเลข ใช้แผงควบคุม การดําเนินการ เพื่อ recast ชนิดคอลัมน์สําหรับการแสดงผลที่ถูกต้องที่สุด
การเรียกดูการดําเนินการทําความสะอาดข้อมูล
รายการขั้นตอนการทําความสะอาดข้อมูลที่สามารถค้นหาได้สามารถพบได้ในแผงการดําเนินการ (การเลือกขนาดเล็กกว่าของการดําเนินการเดียวกันจะพร้อมใช้งานในเมนูของแต่ละส่วนหัวของคอลัมน์) จากแผง การดําเนินการ การเลือกขั้นตอนการทําความสะอาดข้อมูลจะพร้อมท์ให้คุณระบุคอลัมน์หรือคอลัมน์เป้าหมายพร้อมกับพารามิเตอร์ที่จําเป็นเพื่อทําตามขั้นตอน ตัวอย่างเช่น พร้อมท์สําหรับการปรับมาตราส่วนคอลัมน์ตามตัวเลขต้องใช้ช่วงของค่าใหม่
การแสดงตัวอย่างและการใช้การดําเนินการ
ผลลัพธ์ของการดําเนินการที่เลือกจะแสดงตัวอย่างโดยอัตโนมัติในเส้นตารางการแสดงผล Data Wrangler และรหัสที่สอดคล้องกันจะปรากฏในบานหน้าต่างด้านล่างเส้นตารางโดยอัตโนมัติ หากต้องการยอมรับโค้ดที่แสดงตัวอย่าง ให้เลือก "นําไปใช้" ในที่ใดที่หนึ่ง หากต้องการกําจัดโค้ดที่แสดงตัวอย่างและลองใช้การดําเนินการใหม่ ให้เลือก "ละทิ้ง"
เมื่อการดําเนินการถูกนําไปใช้ Data Wrangler จะแสดงการอัปเดตตารางและสถิติสรุปเพื่อแสดงผลลัพธ์ รหัสจะปรากฏในรายการการดําเนินการที่ผูกมัดซึ่งอยู่ในแผงขั้นตอนการทําความสะอาด
เคล็ดลับ
คุณสามารถยกเลิกขั้นตอนที่ใช้ล่าสุดได้เสมอด้วยไอคอนถังขยะด้านข้าง ซึ่งจะปรากฏขึ้นหากคุณวางเคอร์เซอร์ของคุณเหนือขั้นตอนนั้นในแผงขั้นตอนการทําความสะอาด
ตารางต่อไปนี้สรุปการดําเนินการที่ Data Wrangler สนับสนุนในขณะนี้:
การดำเนินการ | คำอธิบาย: |
---|---|
จัดเรียง | เรียงลําดับคอลัมน์จากน้อยไปหามากหรือจากมากไปหาน้อย |
ตัวกรอง | กรองแถวโดยยึดตามเงื่อนไขอย่างน้อยหนึ่งข้อ |
เข้ารหัสหนึ่งร้อน | สร้างคอลัมน์ใหม่สําหรับแต่ละค่าที่ไม่ซ้ํากันในคอลัมน์ที่มีอยู่ ที่ระบุการมีอยู่หรือไม่มีค่าเหล่านั้นสําหรับแต่ละแถว |
การเข้ารหัสที่ร้อนด้วยตัวคั่น | แยกและเข้ารหัสข้อมูลตามประเภทอย่างหนึ่งร้อนโดยใช้ตัวคั่น |
เปลี่ยนชนิดคอลัมน์ | เปลี่ยนชนิดข้อมูลของคอลัมน์ |
ปล่อยคอลัมน์ | ลบคอลัมน์อย่างน้อยหนึ่งคอลัมน์ |
เลือกคอลัมน์ | เลือกหนึ่งหรือหลายคอลัมน์เพื่อเก็บ และลบส่วนที่เหลือ |
เปลี่ยนชื่อคอลัมน์ | เปลี่ยนชื่อคอลัมน์ |
ปล่อยค่าที่หายไป | ลบแถวที่มีค่าที่ขาดหายไป |
ทิ้งแถวที่ซ้ํากัน | วางแถวทั้งหมดที่มีค่าที่ซ้ํากันในหนึ่งคอลัมน์หรือมากกว่า |
เติมค่าที่หายไป | แทนที่เซลล์ด้วยค่าที่หายไปด้วยค่าใหม่ |
ค้นหาและแทนที่ | แทนที่เซลล์ด้วยรูปแบบที่ตรงกัน |
จัดกลุ่มตามคอลัมน์และรวม | จัดกลุ่มตามค่าคอลัมน์และรวมผลลัพธ์ |
แถบช่องว่าง | เอาช่องว่างออกจากส่วนเริ่มต้นและส่วนท้ายของข้อความ |
แยกข้อความ | แยกคอลัมน์ออกเป็นหลายคอลัมน์โดยยึดตามตัวคั่นที่ผู้ใช้กําหนดเอง |
แปลงข้อความเป็นตัวพิมพ์เล็ก | แปลงข้อความเป็นตัวพิมพ์เล็ก |
แปลงข้อความเป็นตัวพิมพ์ใหญ่ | แปลงข้อความเป็นตัวพิมพ์ใหญ่ |
ค่าต่ําสุด/สูงสุดของสเกล | ปรับมาตราส่วนคอลัมน์ตัวเลขระหว่างค่าต่ําสุดและสูงสุด |
การเติมแฟลช | สร้างคอลัมน์ใหม่โดยอัตโนมัติตามตัวอย่างที่สืบทอดมาจากคอลัมน์ที่มีอยู่ |
การบันทึกและการส่งออกรหัส
แถบเครื่องมือด้านบนเส้นตารางการแสดงผล Data Wrangler มีตัวเลือกในการบันทึกรหัสที่สร้างขึ้น คุณสามารถคัดลอกโค้ดไปยังคลิปบอร์ดหรือส่งออกไปยังสมุดบันทึกเป็นฟังก์ชันได้ การส่งออกโค้ดจะปิด Data Wrangler และเพิ่มฟังก์ชันใหม่ไปยังเซลล์โค้ดในสมุดบันทึก คุณยังสามารถดาวน์โหลด DataFrame ที่ได้รับการทําความสะอาดแล้วเป็นไฟล์ csv ได้
เคล็ดลับ
โค้ดที่สร้างขึ้นโดย Data Wrangler จะไม่ถูกนําไปใช้จนกว่าคุณจะเรียกใช้เซลล์ใหม่ด้วยตนเอง และจะไม่เขียนทับ DataFrame ต้นฉบับของคุณ
เนื้อหาที่เกี่ยวข้อง
- หากต้องการลองใช้ Data Wrangler บน Spark DataFrames โปรดดู บทความมาด้วยนี้
- หากต้องการลองใช้ Data Wrangler ใน VS Code โปรดดู ที่ Data Wrangler ใน VS Code
คำติชม
https://aka.ms/ContentUserFeedback
เร็วๆ นี้: ตลอดปี 2024 เราจะขจัดปัญหา GitHub เพื่อเป็นกลไกคำติชมสำหรับเนื้อหา และแทนที่ด้วยระบบคำติชมใหม่ สำหรับข้อมูลเพิ่มเติม ให้ดู:ส่งและดูข้อคิดเห็นสำหรับ