สถานการณ์แบบครบวงจรสําหรับวิทยาศาสตร์ข้อมูล: บทนําและสถาปัตยกรรม

บทช่วยสอนเหล่านี้นําเสนอสถานการณ์แบบครอบคลุมในประสบการณ์วิทยาศาสตร์ข้อมูล Fabric ครอบคลุมแต่ละขั้นตอนจาก

การนำเข้าข้อมูล
การทําความสะอาดข้อมูล
การเตรียมข้อมูล

การฝึกอบรมแบบจําลองการเรียนรู้ของเครื่อง
การสร้างข้อมูลเชิงลึก

จากนั้นครอบคลุมการใช้งานข้อมูลเชิงลึกเหล่านั้นด้วยเครื่องมือการแสดงผลข้อมูลด้วยภาพ เช่น Power BI

ผู้คนที่ไม่เคยใช้ Microsoft Fabric ควรเยี่ยมชม Microsoft Fabric คืออะไร?

แนะ นำ

วงจรชีวิตของโครงการวิทยาศาสตร์ข้อมูลโดยทั่วไปจะประกอบด้วยขั้นตอนเหล่านี้:

ทําความเข้าใจกฎทางธุรกิจ
รับข้อมูล
สํารวจ ทําความสะอาด เตรียมพร้อม และแสดงภาพข้อมูล
ฝึกแบบจําลองและติดตามการทดลอง
ให้คะแนนแบบจําลองและสร้างข้อมูลเชิงลึก

ขั้นตอนมักจะดําเนินการซ้ํา ๆ เป้าหมายและเกณฑ์ความสําเร็จของแต่ละขั้นตอนขึ้นอยู่กับการทํางานร่วมกัน การแชร์ข้อมูล และเอกสารประกอบ ประสบการณ์ด้านวิทยาศาสตร์ข้อมูล Fabric เกี่ยวข้องกับคุณสมบัติที่สร้างขึ้นในแบบดั้งเดิมหลายรายการซึ่งช่วยให้การทํางานร่วมกันที่ราบรื่นการรวบรวมข้อมูลการแชร์และการบริโภค

บทช่วยสอนเหล่านี้ช่วยให้คุณมีบทบาทของนักวิทยาศาสตร์ข้อมูลที่ต้องสํารวจ ทําความสะอาด และแปลงชุดข้อมูลที่มีสถานะการเลิกใช้บริการของลูกค้าธนาคาร 10,000 ราย จากนั้นคุณสร้างแบบจําลองการเรียนรู้ของเครื่องเพื่อคาดการณ์ว่าลูกค้าธนาคารรายใดจะลาออก

คุณดําเนินกิจกรรมต่อไปนี้ในบทช่วยสอน:

ใช้สมุดบันทึก Fabric สําหรับสถานการณ์ทางวิทยาศาสตร์ข้อมูล
ใช้ Apache Spark เพื่อนําเข้าข้อมูลลงในเลคเฮาส์ Fabric
โหลดข้อมูลที่มีอยู่จากตารางเดลต้าของเลคเฮาส์
ใช้เครื่องมือ Apache Spark และ Python เพื่อทําความสะอาดและแปลงข้อมูล
สร้างการทดลองและเรียกใช้เพื่อฝึกแบบจําลองการเรียนรู้ของเครื่องที่แตกต่างกัน
ใช้ MLflow และ Fabric UI เพื่อลงทะเบียนและติดตามแบบจําลองที่ได้รับการฝึก
เรียกใช้การให้คะแนนตามขนาดและบันทึกการคาดการณ์และผลลัพธ์การอนุมานไปยังเลคเฮ้าส์
ใช้ DirectLake เพื่อแสดงภาพการคาดการณ์ใน Power BI

สถาปัตยกรรม

ชุดบทช่วยสอนนี้แสดงสถานการณ์ทางวิทยาศาสตร์ข้อมูลแบบครบวงจรที่ประยุกต์ซึ่งเกี่ยวข้องกับ:

ส่วนประกอบที่แตกต่างกันของสถานการณ์ทางวิทยาศาสตร์ข้อมูล

แหล่งข้อมูล - เมื่อต้องการนําเข้าข้อมูลด้วย Fabric คุณสามารถเชื่อมต่อไปยัง Azure Data Services แพลตฟอร์มคลาวด์อื่น ๆ และแหล่งข้อมูลภายในองค์กรได้อย่างง่ายดายและรวดเร็ว ด้วย Fabric Notebooks คุณสามารถนําเข้าข้อมูลจากแหล่งข้อมูลเหล่านี้:

เลคเฮ้าส์ภายในตัว
คลังข้อมูล
Semantic models
แหล่งข้อมูล Apache Spark ต่าง ๆ
แหล่งข้อมูลต่าง ๆ ที่สนับสนุน Python

ชุดบทช่วยสอนนี้มุ่งเน้นไปที่การนําเข้าข้อมูลและโหลดจากเลคเฮ้าส์

สํารวจ ทําความสะอาด และเตรียม - ประสบการณ์วิทยาศาสตร์ข้อมูลผ้ารองรับการทําความสะอาดข้อมูล การแปลง การสํารวจ และการแสดงคุณลักษณะ ใช้ประสบการณ์ Spark ในตัวและเครื่องมือที่ใช้ Python - ตัวอย่างเช่น Data Wrangler และ SemPy Library บทช่วยสอนนี้แสดงการสํารวจข้อมูลด้วย seaborn ไลบรารี Python และการทําความสะอาดข้อมูลและการเตรียมพร้อมด้วย Apache Spark

แบบจําลองและการทดลอง - ด้วย Fabric คุณสามารถฝึก ประเมิน และให้คะแนนแบบจําลองการเรียนรู้ของเครื่องด้วยการทดลองที่มีอยู่แล้วภายในได้ เพื่อลงทะเบียนและปรับใช้แบบจําลองของคุณและติดตามการทดลอง MLflow นําเสนอการรวมที่ราบรื่นกับ Fabric ซึ่งเป็นวิธีในการจําลองรายการ เพื่อสร้างและแชร์ข้อมูลเชิงลึกทางธุรกิจ Fabric เสนอคุณลักษณะอื่น ๆ สําหรับการคาดการณ์แบบจําลองตามขนาด (PREDICT) เพื่อสร้างและแชร์ข้อมูลเชิงลึกทางธุรกิจ

ที่เก็บข้อมูล - Fabric สร้างมาตรฐานบน Delta Lake ซึ่งหมายความว่าเครื่องยนต์ Fabric ทั้งหมดสามารถโต้ตอบกับชุดข้อมูลเดียวกันที่จัดเก็บไว้ในเลคเฮ้าส์ได้ ด้วยเลเยอร์ที่เก็บข้อมูลนั้น คุณสามารถจัดเก็บข้อมูลทั้งที่มีโครงสร้างและไม่มีโครงสร้างที่สนับสนุนทั้งการจัดเก็บไฟล์และรูปแบบตาราง คุณสามารถเข้าถึงชุดข้อมูลและไฟล์ที่จัดเก็บผ่านรายการประสบการณ์ Fabric ทั้งหมดได้อย่างง่ายดาย เช่น สมุดบันทึกและไปป์ไลน์

เปิดเผยการวิเคราะห์และข้อมูลเชิงลึก - Power BI ซึ่งเป็นเครื่องมือข่าวกรองธุรกิจชั้นนําในอุตสาหกรรมสามารถใช้ข้อมูลเลคเฮ้าส์สําหรับการรายงานและการสร้างการแสดงภาพได้ ในแหล่งข้อมูลสมุดบันทึก ไลบรารีการแสดงภาพแบบเนทีฟ Python หรือ Spark

matplotlib
seaborn
plotly
ฯลฯ

สามารถแสดงภาพข้อมูลยังคงอยู่ในเลคเฮ้าส์ นอกจากนี้ ไลบรารี SemPy ยังสนับสนุนการแสดงภาพข้อมูล ไลบรารีนี้สนับสนุนการแสดงภาพเฉพาะงานที่มีอยู่ภายในสําหรับ

แบบจําลองข้อมูลเชิงความหมาย
การขึ้นต่อกันและการละเมิด
กรณีการใช้งานการจัดประเภทและการถดถอย

ขั้นตอนถัดไป

เตรียมระบบของคุณสําหรับ บทช่วยสอนวิทยาศาสตร์ข้อมูล

คำติชม

หน้านี้มีประโยชน์หรือไม่

Last updated on 2025-04-21