แชร์ผ่าน


วิธีใช้ Data Wrangler บน Spark DataFrames

Data Wrangler ซึ่งเป็นเครื่องมือที่ใช้สมุดบันทึกสําหรับการวิเคราะห์ข้อมูลการสํารวจ ตอนนี้สนับสนุนทั้ง Spark DataFrames และ pandas DataFrames ซึ่งสร้างรหัส PySpark นอกเหนือจากรหัส Python สําหรับภาพรวมทั่วไปของ Data Wrangler ครอบคลุมวิธีการสํารวจและแปลง DataFrame ของ pandas ไปที่ บทช่วยสอนหลัก บทช่วยสอนนี้แสดงวิธีใช้ Data Wrangler เพื่อสํารวจและแปลง Spark DataFrames

ข้อกำหนดเบื้องต้น

ข้อจำกัด

  • การดําเนินการโค้ดแบบกําหนดเองได้รับการสนับสนุนสําหรับ pandas DataFrames เท่านั้น
  • จอแสดงผล Data Wrangler ทํางานได้ดีที่สุดบนจอภาพขนาดใหญ่ แม้ว่าคุณสามารถย่อหรือซ่อนส่วนต่างๆ ของอินเทอร์เฟซเพื่อรองรับหน้าจอที่มีขนาดเล็กลงได้

เปิดใช้งาน Data Wrangler ด้วย Spark DataFrame

ผู้ใช้สามารถเปิด Spark DataFrames ใน Data Wrangler ได้โดยตรงจากสมุดบันทึก Microsoft Fabric โดยไปยังพร้อมท์ดรอปดาวน์เดียวกันที่แสดง pandas DataFrames รายการของ Spark DataFrames ที่ใช้งานอยู่จะปรากฏในดรอปดาวน์ภายใต้รายการของตัวแปร pandas ที่ใช้งานอยู่

ส่วนย่อยของโค้ดนี้สร้าง Spark DataFrame ด้วยข้อมูลตัวอย่างเดียวกันที่ใช้ใน บทช่วยสอน Pandas Data Wrangler:

import pandas as pd

# Read a CSV into a Spark DataFrame
sdf = spark.createDataFrame(pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv"))
display(sdf)

ในแถบเครื่องมือริบบอนสมุดบันทึก "หน้าแรก" ให้ใช้พร้อมท์ดรอปดาวน์ Data Wrangler เพื่อเรียกดู DataFrame ที่ใช้งานอยู่ซึ่งพร้อมสําหรับการแก้ไข เลือกรายการที่คุณต้องการเปิดใน Data Wrangler

เคล็ดลับ

ไม่สามารถเปิด Data Wrangler ได้ในขณะที่เคอร์เนลสมุดบันทึกไม่ว่าง เซลล์ที่ดําเนินการต้องดําเนินการให้เสร็จสิ้นก่อนที่ Data Wrangler จะสามารถเปิดใช้งานได้ ดังที่แสดงในภาพหน้าจอนี้:

สกรีนช็อตแสดงสมุดบันทึก Fabric ที่มีพร้อมท์ดรอปดาวน์ Data Wrangler

การเลือกตัวอย่างแบบกําหนดเอง

Data Wrangler แปลง Spark DataFrames เป็นตัวอย่าง pandas โดยอัตโนมัติเพื่อเหตุผลด้านประสิทธิภาพการทํางาน อย่างไรก็ตาม โค้ดทั้งหมดที่เครื่องมือสร้างจะถูกแปลเป็น PySpark ในท้ายที่สุดเมื่อส่งออกกลับไปยังสมุดบันทึก เช่นเดียวกับ Pandas DataFrame คุณสามารถกําหนดค่าตัวอย่างเริ่มต้นได้ หากต้องการเปิดตัวอย่างแบบกําหนดเองของ DataFrame ที่ใช้งานอยู่ด้วย Data Wrangler ให้เลือก "เลือกตัวอย่างแบบกําหนดเอง" จากดรอปดาวน์ดังที่แสดงในภาพหน้าจอนี้:

สกรีนช็อตแสดงข้อความดรอปดาวน์ Data Wrangler พร้อมตัวเลือกตัวอย่างแบบกําหนดเองที่ระบุไว้

การดําเนินการนี้จะเปิดใช้ป็อปอัพด้วยตัวเลือกเพื่อระบุขนาดของตัวอย่างที่ต้องการ (จํานวนแถว) และวิธีการสุ่มตัวอย่าง (เรกคอร์ดแรก เรคคอร์ดสุดท้าย หรือชุดแบบสุ่ม) ดังที่แสดงในภาพหน้าจอนี้:

สกรีนช็อตที่แสดงพร้อมท์ตัวอย่างแบบกําหนดเองของ Data Wrangler

การดูสถิติสรุป

เมื่อโหลด Data Wrangler ระบบจะแสดงแบนเนอร์ข้อมูลที่สูงกว่าเส้นตารางการแสดงตัวอย่าง แบนเนอร์นี้อธิบายว่า Spark DataFrames จะถูกแปลงเป็นตัวอย่าง pandas ชั่วคราว แต่โค้ดที่สร้างขึ้นทั้งหมดจะถูกแปลงเป็น PySpark ในท้ายที่สุด การใช้ Data Wrangler บน Spark DataFrames จะไม่แตกต่างจากการใช้งานบน pandas DataFrames ภาพรวมเชิงพรรณาในแผง "สรุป" แสดงข้อมูลเกี่ยวกับมิติของตัวอย่าง ค่าที่หายไป และอื่น ๆ การเลือกคอลัมน์ใด ๆ ในตาราง Data Wrangler จะพร้อมท์แผง "สรุป" เพื่ออัปเดตและแสดงสถิติที่เป็นคําอธิบายเกี่ยวกับคอลัมน์ที่เฉพาะเจาะจง ข้อมูลเชิงลึกด่วนเกี่ยวกับทุกคอลัมน์จะพร้อมใช้งานในส่วนหัวด้วย

เคล็ดลับ

สถิติและวิชวลเฉพาะคอลัมน์ (ทั้งในแผง "สรุป" และในส่วนหัวของคอลัมน์) จะขึ้นอยู่กับชนิดข้อมูลของคอลัมน์ ตัวอย่างเช่น ฮิสโทแกรมที่ผูกไว้ของคอลัมน์ตัวเลขจะปรากฏในส่วนหัวของคอลัมน์ก็ต่อเมื่อคอลัมน์ถูกแปลงเป็นชนิดตัวเลขดังที่แสดงในภาพหน้าจอนี้:

สกรีนช็อตที่แสดงบานหน้าต่างแสดงเส้นตารางและสรุปของ Data Wrangler

การเรียกดูการดําเนินการทําความสะอาดข้อมูล

รายการขั้นตอนการทําความสะอาดข้อมูลที่สามารถค้นหาได้สามารถพบได้ในแผง "การดําเนินการ" จากแผง "การดําเนินการ" การเลือกขั้นตอนการทําความสะอาดข้อมูลจะพร้อมท์ให้คุณระบุคอลัมน์เป้าหมายหรือคอลัมน์พร้อมกับพารามิเตอร์ที่จําเป็นเพื่อทําตามขั้นตอน ตัวอย่างเช่น พร้อมท์ให้ปรับขนาดคอลัมน์ตามตัวเลข จําเป็นต้องมีช่วงของค่าใหม่ ดังที่แสดงในสกรีนช็อตนี้:

สกรีนช็อตที่แสดงแผงการดําเนินงาน Data Wrangler

เคล็ดลับ

คุณสามารถใช้การดําเนินการที่มีขนาดเล็กกว่าจากเมนูของแต่ละส่วนหัวของคอลัมน์ ดังที่แสดงในภาพหน้าจอนี้:

สกรีนช็อตแสดงการดําเนินการ Data Wrangler ที่สามารถนําไปใช้จากเมนูส่วนหัวของคอลัมน์ได้

การแสดงตัวอย่างและการใช้การดําเนินการ

Data Wrangler แสดงเส้นตารางโดยอัตโนมัติแสดงตัวอย่างผลลัพธ์ของการดําเนินการที่เลือก และรหัสที่สอดคล้องกันจะปรากฏในแผงด้านล่างเส้นตารางโดยอัตโนมัติ หากต้องการยอมรับโค้ดที่แสดงตัวอย่าง ให้เลือก "นําไปใช้" ในที่ใดที่หนึ่ง หากต้องการลบโค้ดที่แสดงตัวอย่างและลองใช้การดําเนินการใหม่ ให้เลือก "ละทิ้ง" ดังที่แสดงในภาพหน้าจอนี้:

สกรีนช็อตที่แสดงการดําเนินการของ Data Wrangler ที่กําลังดําเนินการ

เมื่อการดําเนินการถูกนําไปใช้ Data Wrangler จะแสดงการอัปเดตตารางและสถิติสรุปเพื่อแสดงผลลัพธ์ รหัสจะปรากฏในรายการการดําเนินการที่ผูกมัดซึ่งอยู่ในแผง "ขั้นตอนการทําความสะอาด" ดังที่แสดงในภาพหน้าจอนี้:

สกรีนช็อตที่แสดงการดําเนินการของ Data Wrangler ที่ใช้

เคล็ดลับ

คุณสามารถยกเลิกขั้นตอนที่ใช้ล่าสุดได้เสมอ ในแผง "ขั้นตอนการทําความสะอาด" ไอคอนถังขยะจะปรากฏขึ้นหากคุณเลื่อนเคอร์เซอร์ของคุณเหนือขั้นตอนที่ใช้ล่าสุดดังที่แสดงในภาพหน้าจอนี้:

สกรีนช็อตที่แสดงการดําเนินการ Data Wrangler ที่สามารถยกเลิกได้

ตารางนี้สรุปการดําเนินการที่ Data Wrangler สนับสนุนในขณะนี้:

การดำเนินการ คำอธิบาย:
จัดเรียง เรียงลําดับคอลัมน์จากน้อยไปหามากหรือจากมากไปหาน้อย
ตัวกรอง กรองแถวโดยยึดตามเงื่อนไขอย่างน้อยหนึ่งข้อ
เข้ารหัสหนึ่งร้อน สร้างคอลัมน์ใหม่สําหรับแต่ละค่าที่ไม่ซ้ํากันในคอลัมน์ที่มีอยู่ ที่ระบุการมีอยู่หรือไม่มีค่าเหล่านั้นสําหรับแต่ละแถว
การเข้ารหัสที่ร้อนด้วยตัวคั่น แยกและเข้ารหัสข้อมูลตามประเภทอย่างหนึ่งร้อนโดยใช้ตัวคั่น
เปลี่ยนชนิดคอลัมน์ เปลี่ยนชนิดข้อมูลของคอลัมน์
ปล่อยคอลัมน์ ลบคอลัมน์อย่างน้อยหนึ่งคอลัมน์
เลือกคอลัมน์ เลือกหนึ่งหรือหลายคอลัมน์เพื่อเก็บ และลบส่วนที่เหลือ
เปลี่ยนชื่อคอลัมน์ เปลี่ยนชื่อคอลัมน์
ปล่อยค่าที่หายไป ลบแถวที่มีค่าที่ขาดหายไป
ทิ้งแถวที่ซ้ํากัน วางแถวทั้งหมดที่มีค่าที่ซ้ํากันในหนึ่งคอลัมน์หรือมากกว่า
เติมค่าที่หายไป แทนที่เซลล์ด้วยค่าที่หายไปด้วยค่าใหม่
ค้นหาและแทนที่ แทนที่เซลล์ด้วยรูปแบบที่ตรงกัน
จัดกลุ่มตามคอลัมน์และรวม จัดกลุ่มตามค่าคอลัมน์และรวมผลลัพธ์
แถบช่องว่าง เอาช่องว่างออกจากส่วนเริ่มต้นและส่วนท้ายของข้อความ
แยกข้อความ แยกคอลัมน์ออกเป็นหลายคอลัมน์โดยยึดตามตัวคั่นที่ผู้ใช้กําหนดเอง
แปลงข้อความเป็นตัวพิมพ์เล็ก แปลงข้อความเป็นตัวพิมพ์เล็ก
แปลงข้อความเป็นตัวพิมพ์ใหญ่ แปลงข้อความเป็นตัวพิมพ์ใหญ่
ค่าต่ําสุด/สูงสุดของสเกล ปรับมาตราส่วนคอลัมน์ตัวเลขระหว่างค่าต่ําสุดและสูงสุด
การเติมแฟลช สร้างคอลัมน์ใหม่โดยอัตโนมัติตามตัวอย่างที่สืบทอดมาจากคอลัมน์ที่มีอยู่

ปรับเปลี่ยนจอแสดงผลของคุณ

คุณสามารถกําหนดอินเทอร์เฟซด้วยแท็บ "มุมมอง" ในแถบเครื่องมือที่อยู่เหนือเส้นตารางแสดงผล Data Wrangler ได้ตลอดเวลา ซึ่งสามารถซ่อนหรือแสดงบานหน้าต่างต่าง ๆ ตามการกําหนดลักษณะและขนาดหน้าจอของคุณ ดังที่แสดงในภาพหน้าจอนี้:

สกรีนช็อตที่แสดงเมนู Data Wrangler สําหรับการกําหนดมุมมองการแสดงผล

การบันทึกและการส่งออกรหัส

แถบเครื่องมือด้านบนเส้นตารางการแสดงผล Data Wrangler มีตัวเลือกในการบันทึกรหัสที่สร้างขึ้น คุณสามารถคัดลอกโค้ดไปยังคลิปบอร์ด หรือส่งออกไปยังสมุดบันทึกเป็นฟังก์ชันได้ สําหรับ Spark DataFrame รหัสทั้งหมดที่สร้างขึ้นในตัวอย่าง pandas จะถูกแปลเป็น PySpark ก่อนที่จะลงจอดอีกครั้งในสมุดบันทึก ก่อนที่ Data Wrangler จะปิด เครื่องมือจะแสดงตัวอย่างของโค้ด PySpark ที่แปลและมีตัวเลือกในการส่งออกรหัส pandas ระดับกลางด้วย

เคล็ดลับ

Data Wrangler สร้างโค้ดที่นําไปใช้เฉพาะเมื่อคุณเรียกใช้เซลล์ใหม่ด้วยตนเอง และจะไม่เขียนทับ DataFrame เดิมของคุณ ดังที่แสดงในสกรีนช็อตนี้:

สกรีนช็อตแสดงตัวเลือกในการส่งออกรหัสใน Data Wrangler

รหัสจะถูกแปลงเป็น PySpark ดังที่แสดงในสกรีนช็อตนี้:

สกรีนช็อตแสดงตัวอย่าง PySpark ในพร้อมท์รหัสการส่งออกใน Data Wrangler

จากนั้นคุณสามารถเรียกใช้โค้ดที่ส่งออกตามที่แสดงในภาพหน้าจอนี้:

สกรีนช็อตแสดงรหัสที่สร้างขึ้นโดย Data Wrangler กลับในสมุดบันทึก