วิธีใช้ Data Wrangler บน Spark DataFrames

บทความ
08/13/2024

Data Wrangler ซึ่งเป็นเครื่องมือที่ใช้สมุดบันทึกสําหรับการวิเคราะห์ข้อมูลการสํารวจ ตอนนี้สนับสนุนทั้ง Spark DataFrames และ pandas DataFrames ซึ่งสร้างรหัส PySpark นอกเหนือจากรหัส Python สําหรับภาพรวมทั่วไปของ Data Wrangler ครอบคลุมวิธีการสํารวจและแปลง DataFrame ของ pandas ไปที่ บทช่วยสอนหลัก บทช่วยสอนนี้แสดงวิธีใช้ Data Wrangler เพื่อสํารวจและแปลง Spark DataFrames

ข้อกำหนดเบื้องต้น

รับการสมัครใช้งาน Microsoft Fabric หรือลงทะเบียนเพื่อทดลองใช้งาน Microsoft Fabric ฟรี
ลงชื่อเข้าใช้ Microsoft Fabric
ใช้ตัวสลับประสบการณ์ทางด้านซ้ายของโฮมเพจของคุณเพื่อสลับไปยังประสบการณ์วิทยาศาสตร์ข้อมูล Synapse

ข้อจำกัด

การดําเนินการโค้ดแบบกําหนดเองได้รับการสนับสนุนสําหรับ pandas DataFrames เท่านั้น
จอแสดงผล Data Wrangler ทํางานได้ดีที่สุดบนจอภาพขนาดใหญ่ แม้ว่าคุณสามารถย่อหรือซ่อนส่วนต่างๆ ของอินเทอร์เฟซเพื่อรองรับหน้าจอที่มีขนาดเล็กลงได้

เปิดใช้งาน Data Wrangler ด้วย Spark DataFrame

ผู้ใช้สามารถเปิด Spark DataFrames ใน Data Wrangler ได้โดยตรงจากสมุดบันทึก Microsoft Fabric โดยไปยังพร้อมท์ดรอปดาวน์เดียวกันที่แสดง pandas DataFrames รายการของ Spark DataFrames ที่ใช้งานอยู่จะปรากฏในดรอปดาวน์ภายใต้รายการของตัวแปร pandas ที่ใช้งานอยู่

ส่วนย่อยของโค้ดนี้สร้าง Spark DataFrame ด้วยข้อมูลตัวอย่างเดียวกันที่ใช้ใน บทช่วยสอน Pandas Data Wrangler:

import pandas as pd

# Read a CSV into a Spark DataFrame
sdf = spark.createDataFrame(pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv"))
display(sdf)

ในแถบเครื่องมือริบบอนสมุดบันทึก "หน้าแรก" ให้ใช้พร้อมท์ดรอปดาวน์ Data Wrangler เพื่อเรียกดู DataFrame ที่ใช้งานอยู่ซึ่งพร้อมสําหรับการแก้ไข เลือกรายการที่คุณต้องการเปิดใน Data Wrangler

เคล็ดลับ

ไม่สามารถเปิด Data Wrangler ได้ในขณะที่เคอร์เนลสมุดบันทึกไม่ว่าง เซลล์ที่ดําเนินการต้องดําเนินการให้เสร็จสิ้นก่อนที่ Data Wrangler จะสามารถเปิดใช้งานได้ ดังที่แสดงในภาพหน้าจอนี้:

การเลือกตัวอย่างแบบกําหนดเอง

Data Wrangler แปลง Spark DataFrames เป็นตัวอย่าง pandas โดยอัตโนมัติเพื่อเหตุผลด้านประสิทธิภาพการทํางาน อย่างไรก็ตาม โค้ดทั้งหมดที่เครื่องมือสร้างจะถูกแปลเป็น PySpark ในท้ายที่สุดเมื่อส่งออกกลับไปยังสมุดบันทึก เช่นเดียวกับ Pandas DataFrame คุณสามารถกําหนดค่าตัวอย่างเริ่มต้นได้ หากต้องการเปิดตัวอย่างแบบกําหนดเองของ DataFrame ที่ใช้งานอยู่ด้วย Data Wrangler ให้เลือก "เลือกตัวอย่างแบบกําหนดเอง" จากดรอปดาวน์ดังที่แสดงในภาพหน้าจอนี้:

การดําเนินการนี้จะเปิดใช้ป็อปอัพด้วยตัวเลือกเพื่อระบุขนาดของตัวอย่างที่ต้องการ (จํานวนแถว) และวิธีการสุ่มตัวอย่าง (เรกคอร์ดแรก เรคคอร์ดสุดท้าย หรือชุดแบบสุ่ม) ดังที่แสดงในภาพหน้าจอนี้:

การดูสถิติสรุป

เมื่อโหลด Data Wrangler ระบบจะแสดงแบนเนอร์ข้อมูลที่สูงกว่าเส้นตารางการแสดงตัวอย่าง แบนเนอร์นี้อธิบายว่า Spark DataFrames จะถูกแปลงเป็นตัวอย่าง pandas ชั่วคราว แต่โค้ดที่สร้างขึ้นทั้งหมดจะถูกแปลงเป็น PySpark ในท้ายที่สุด การใช้ Data Wrangler บน Spark DataFrames จะไม่แตกต่างจากการใช้งานบน pandas DataFrames ภาพรวมเชิงพรรณาในแผง "สรุป" แสดงข้อมูลเกี่ยวกับมิติของตัวอย่าง ค่าที่หายไป และอื่น ๆ การเลือกคอลัมน์ใด ๆ ในตาราง Data Wrangler จะพร้อมท์แผง "สรุป" เพื่ออัปเดตและแสดงสถิติที่เป็นคําอธิบายเกี่ยวกับคอลัมน์ที่เฉพาะเจาะจง ข้อมูลเชิงลึกด่วนเกี่ยวกับทุกคอลัมน์จะพร้อมใช้งานในส่วนหัวด้วย

เคล็ดลับ

สถิติและวิชวลเฉพาะคอลัมน์ (ทั้งในแผง "สรุป" และในส่วนหัวของคอลัมน์) จะขึ้นอยู่กับชนิดข้อมูลของคอลัมน์ ตัวอย่างเช่น ฮิสโทแกรมที่ผูกไว้ของคอลัมน์ตัวเลขจะปรากฏในส่วนหัวของคอลัมน์ก็ต่อเมื่อคอลัมน์ถูกแปลงเป็นชนิดตัวเลขดังที่แสดงในภาพหน้าจอนี้:

การเรียกดูการดําเนินการทําความสะอาดข้อมูล

รายการขั้นตอนการทําความสะอาดข้อมูลที่สามารถค้นหาได้สามารถพบได้ในแผง "การดําเนินการ" จากแผง "การดําเนินการ" การเลือกขั้นตอนการทําความสะอาดข้อมูลจะพร้อมท์ให้คุณระบุคอลัมน์เป้าหมายหรือคอลัมน์พร้อมกับพารามิเตอร์ที่จําเป็นเพื่อทําตามขั้นตอน ตัวอย่างเช่น พร้อมท์ให้ปรับขนาดคอลัมน์ตามตัวเลข จําเป็นต้องมีช่วงของค่าใหม่ ดังที่แสดงในสกรีนช็อตนี้:

เคล็ดลับ

คุณสามารถใช้การดําเนินการที่มีขนาดเล็กกว่าจากเมนูของแต่ละส่วนหัวของคอลัมน์ ดังที่แสดงในภาพหน้าจอนี้:

การแสดงตัวอย่างและการใช้การดําเนินการ

Data Wrangler แสดงเส้นตารางโดยอัตโนมัติแสดงตัวอย่างผลลัพธ์ของการดําเนินการที่เลือก และรหัสที่สอดคล้องกันจะปรากฏในแผงด้านล่างเส้นตารางโดยอัตโนมัติ หากต้องการยอมรับโค้ดที่แสดงตัวอย่าง ให้เลือก "นําไปใช้" ในที่ใดที่หนึ่ง หากต้องการลบโค้ดที่แสดงตัวอย่างและลองใช้การดําเนินการใหม่ ให้เลือก "ละทิ้ง" ดังที่แสดงในภาพหน้าจอนี้:

เมื่อการดําเนินการถูกนําไปใช้ Data Wrangler จะแสดงการอัปเดตตารางและสถิติสรุปเพื่อแสดงผลลัพธ์ รหัสจะปรากฏในรายการการดําเนินการที่ผูกมัดซึ่งอยู่ในแผง "ขั้นตอนการทําความสะอาด" ดังที่แสดงในภาพหน้าจอนี้:

เคล็ดลับ

คุณสามารถยกเลิกขั้นตอนที่ใช้ล่าสุดได้เสมอ ในแผง "ขั้นตอนการทําความสะอาด" ไอคอนถังขยะจะปรากฏขึ้นหากคุณเลื่อนเคอร์เซอร์ของคุณเหนือขั้นตอนที่ใช้ล่าสุดดังที่แสดงในภาพหน้าจอนี้:

ตารางนี้สรุปการดําเนินการที่ Data Wrangler สนับสนุนในขณะนี้:

การดำเนินการ	คำอธิบาย:
จัดเรียง	เรียงลําดับคอลัมน์จากน้อยไปหามากหรือจากมากไปหาน้อย
ตัวกรอง	กรองแถวโดยยึดตามเงื่อนไขอย่างน้อยหนึ่งข้อ
เข้ารหัสหนึ่งร้อน	สร้างคอลัมน์ใหม่สําหรับแต่ละค่าที่ไม่ซ้ํากันในคอลัมน์ที่มีอยู่ ที่ระบุการมีอยู่หรือไม่มีค่าเหล่านั้นสําหรับแต่ละแถว
การเข้ารหัสที่ร้อนด้วยตัวคั่น	แยกและเข้ารหัสข้อมูลตามประเภทอย่างหนึ่งร้อนโดยใช้ตัวคั่น
เปลี่ยนชนิดคอลัมน์	เปลี่ยนชนิดข้อมูลของคอลัมน์
ปล่อยคอลัมน์	ลบคอลัมน์อย่างน้อยหนึ่งคอลัมน์
เลือกคอลัมน์	เลือกหนึ่งหรือหลายคอลัมน์เพื่อเก็บ และลบส่วนที่เหลือ
เปลี่ยนชื่อคอลัมน์	เปลี่ยนชื่อคอลัมน์
ปล่อยค่าที่หายไป	ลบแถวที่มีค่าที่ขาดหายไป
ทิ้งแถวที่ซ้ํากัน	วางแถวทั้งหมดที่มีค่าที่ซ้ํากันในหนึ่งคอลัมน์หรือมากกว่า
เติมค่าที่หายไป	แทนที่เซลล์ด้วยค่าที่หายไปด้วยค่าใหม่
ค้นหาและแทนที่	แทนที่เซลล์ด้วยรูปแบบที่ตรงกัน
จัดกลุ่มตามคอลัมน์และรวม	จัดกลุ่มตามค่าคอลัมน์และรวมผลลัพธ์
แถบช่องว่าง	เอาช่องว่างออกจากส่วนเริ่มต้นและส่วนท้ายของข้อความ
แยกข้อความ	แยกคอลัมน์ออกเป็นหลายคอลัมน์โดยยึดตามตัวคั่นที่ผู้ใช้กําหนดเอง
แปลงข้อความเป็นตัวพิมพ์เล็ก	แปลงข้อความเป็นตัวพิมพ์เล็ก
แปลงข้อความเป็นตัวพิมพ์ใหญ่	แปลงข้อความเป็นตัวพิมพ์ใหญ่
ค่าต่ําสุด/สูงสุดของสเกล	ปรับมาตราส่วนคอลัมน์ตัวเลขระหว่างค่าต่ําสุดและสูงสุด
การเติมแฟลช	สร้างคอลัมน์ใหม่โดยอัตโนมัติตามตัวอย่างที่สืบทอดมาจากคอลัมน์ที่มีอยู่

ปรับเปลี่ยนจอแสดงผลของคุณ

คุณสามารถกําหนดอินเทอร์เฟซด้วยแท็บ "มุมมอง" ในแถบเครื่องมือที่อยู่เหนือเส้นตารางแสดงผล Data Wrangler ได้ตลอดเวลา ซึ่งสามารถซ่อนหรือแสดงบานหน้าต่างต่าง ๆ ตามการกําหนดลักษณะและขนาดหน้าจอของคุณ ดังที่แสดงในภาพหน้าจอนี้:

การบันทึกและการส่งออกรหัส

แถบเครื่องมือด้านบนเส้นตารางการแสดงผล Data Wrangler มีตัวเลือกในการบันทึกรหัสที่สร้างขึ้น คุณสามารถคัดลอกโค้ดไปยังคลิปบอร์ด หรือส่งออกไปยังสมุดบันทึกเป็นฟังก์ชันได้ สําหรับ Spark DataFrame รหัสทั้งหมดที่สร้างขึ้นในตัวอย่าง pandas จะถูกแปลเป็น PySpark ก่อนที่จะลงจอดอีกครั้งในสมุดบันทึก ก่อนที่ Data Wrangler จะปิด เครื่องมือจะแสดงตัวอย่างของโค้ด PySpark ที่แปลและมีตัวเลือกในการส่งออกรหัส pandas ระดับกลางด้วย

เคล็ดลับ

Data Wrangler สร้างโค้ดที่นําไปใช้เฉพาะเมื่อคุณเรียกใช้เซลล์ใหม่ด้วยตนเอง และจะไม่เขียนทับ DataFrame เดิมของคุณ ดังที่แสดงในสกรีนช็อตนี้:

รหัสจะถูกแปลงเป็น PySpark ดังที่แสดงในสกรีนช็อตนี้:

จากนั้นคุณสามารถเรียกใช้โค้ดที่ส่งออกตามที่แสดงในภาพหน้าจอนี้:

สําหรับภาพรวมของ Data Wrangler โปรดเยี่ยมชม บทความเกี่ยวกับมาด้วยนี้
หากต้องการลองใช้ Data Wrangler ใน Visual Studio Code ให้ไปที่ Data Wrangler ใน VS Code
เราพลาดคุณลักษณะที่คุณต้องการหรือไม่ แจ้งให้เราทราบ! แนะนําได้ที่ ฟอรั่ม Fabric Ideas

แชร์ผ่าน

วิธีใช้ Data Wrangler บน Spark DataFrames

ข้อกำหนดเบื้องต้น

ข้อจำกัด

เปิดใช้งาน Data Wrangler ด้วย Spark DataFrame

การเลือกตัวอย่างแบบกําหนดเอง

การดูสถิติสรุป

การเรียกดูการดําเนินการทําความสะอาดข้อมูล

การแสดงตัวอย่างและการใช้การดําเนินการ

ปรับเปลี่ยนจอแสดงผลของคุณ

การบันทึกและการส่งออกรหัส

คำติชม

แหล่งทรัพยากรเพิ่มเติม

แชร์ผ่าน

วิธีใช้ Data Wrangler บน Spark DataFrames

ข้อกำหนดเบื้องต้น

ข้อจำกัด

เปิดใช้งาน Data Wrangler ด้วย Spark DataFrame

การเลือกตัวอย่างแบบกําหนดเอง

การดูสถิติสรุป

การเรียกดูการดําเนินการทําความสะอาดข้อมูล

การแสดงตัวอย่างและการใช้การดําเนินการ

ปรับเปลี่ยนจอแสดงผลของคุณ

การบันทึกและการส่งออกรหัส

เนื้อหาที่เกี่ยวข้อง

คำติชม

แหล่งทรัพยากรเพิ่มเติม