สถานการณ์แบบครบวงจรสําหรับวิทยาศาสตร์ข้อมูล: บทนําและสถาปัตยกรรม
ชุดบทช่วยสอนนี้สาธิตสถานการณ์อย่างครอบคลุมในประสบการณ์วิทยาศาสตร์ข้อมูล Fabric คุณใช้แต่ละขั้นตอนจากการนําเข้าข้อมูล การทําความสะอาด และการเตรียมการ ไปยังแบบจําลองการเรียนรู้ของเครื่องการฝึกอบรม และสร้างข้อมูลเชิงลึก จากนั้นใช้ข้อมูลเชิงลึกเหล่านั้นโดยใช้เครื่องมือการแสดงผลข้อมูลด้วยภาพ เช่น Power BI
ถ้าคุณไม่คุ้นเคยกับ Microsoft Fabric ให้ดู Microsoft Fabric คืออะไร
บทนำ
วงจรชีวิตของโครงการวิทยาศาสตร์ข้อมูลโดยทั่วไปแล้วประกอบด้วยขั้นตอนต่อไปนี้ (มักจะทําซ้ํา ๆ) ดังนี้:
- ความเข้าใจทางธุรกิจ
- การรวบรวมข้อมูล
- การสํารวจข้อมูล การทําความสะอาด การเตรียมการ และการแสดงภาพ
- การติดตามการฝึกแบบจําลองและการทดสอบ
- การให้คะแนนแบบจําลองและการสร้างข้อมูลเชิงลึก
เป้าหมายและเกณฑ์ความสําเร็จของแต่ละขั้นตอนขึ้นอยู่กับการทํางานร่วมกัน การแชร์ข้อมูล และเอกสารประกอบ ประสบการณ์ด้านวิทยาศาสตร์ข้อมูล Fabric ประกอบด้วยคุณลักษณะที่สร้างขึ้นในแบบดั้งเดิมหลายตัวที่ช่วยให้การทํางานร่วมกัน การรวบรวมข้อมูล การแชร์ และการบริโภคเป็นวิธีที่ราบรื่น
ในบทช่วยสอนเหล่านี้ คุณจะรับบทบาทของนักวิทยาศาสตร์ข้อมูลที่ได้รับมอบหมายงานให้สํารวจ ทําความสะอาด และแปลงชุดข้อมูลที่ประกอบด้วยสถานะการเลิกใช้บริการของลูกค้า 10,000 รายที่ธนาคาร จากนั้นคุณสร้างแบบจําลองการเรียนรู้ของเครื่องเพื่อคาดการณ์ว่าลูกค้าธนาคารรายใดมีแนวโน้มที่จะลาออก
คุณจะได้เรียนรู้วิธีการดําเนินการกิจกรรมต่อไปนี้:
- ใช้สมุดบันทึก Fabric สําหรับสถานการณ์ทางวิทยาศาสตร์ข้อมูล
- นําเข้าข้อมูลลงในทะเลสาบ Fabric โดยใช้ Apache Spark
- โหลดข้อมูลที่มีอยู่จากตารางเดลต้าของเลคเฮ้าส์
- ทําความสะอาดและแปลงข้อมูลโดยใช้เครื่องมือ Apache Spark และ Python
- สร้างการทดลองและเรียกใช้เพื่อฝึกแบบจําลองการเรียนรู้ของเครื่องที่แตกต่างกัน
- ลงทะเบียนและติดตามแบบจําลองที่ได้รับการฝึกโดยใช้ MLflow และ Fabric UI
- เรียกใช้การให้คะแนนตามขนาดและบันทึกการคาดการณ์และผลลัพธ์การอนุมานไปยังเลคเฮ้าส์
- แสดงภาพการคาดการณ์ใน Power BI โดยใช้ DirectLake
สถาปัตยกรรม
ในชุดบทช่วยสอนนี้ เราจะแสดงสถานการณ์ทางวิทยาศาสตร์ข้อมูลแบบครบวงจรที่เกี่ยวข้องกับ:
- การนําเข้าข้อมูลจากแหล่งข้อมูลภายนอก
- สํารวจและล้างข้อมูล
- ฝึกและลงทะเบียนแบบจําลองการเรียนรู้ของเครื่อง
- ดําเนินการให้คะแนนแบทช์และบันทึกการคาดการณ์
- แสดงผลลัพธ์การคาดการณ์ด้วยภาพใน Power BI
ส่วนประกอบที่แตกต่างกันของสถานการณ์ทางวิทยาศาสตร์ข้อมูล
แหล่งข้อมูล - Fabric ทําให้ง่ายและรวดเร็วในการเชื่อมต่อกับ Azure Data Services แพลตฟอร์มคลาวด์อื่น ๆ และแหล่งข้อมูลภายในองค์กรเพื่อนําเข้าข้อมูลจาก การใช้ Fabric Notebook คุณสามารถรวบรวมข้อมูลจาก Lakehouse, คลังข้อมูล, แบบจําลองความหมาย และ Apache Spark ต่าง ๆ และแหล่งข้อมูลแบบกําหนดเองที่รองรับ Python ที่มีอยู่ภายในได้ ชุดบทช่วยสอนนี้มุ่งเน้นไปที่การนําเข้าและโหลดข้อมูลจากเลคเฮ้าส์
สํารวจ ทําความสะอาด และเตรียม - ประสบการณ์ด้านวิทยาศาสตร์ข้อมูลบน Fabric สนับสนุนการทําความสะอาด การแปลง การสํารวจ และการทําให้เป็นคุณลักษณะโดยใช้ประสบการณ์ที่มีอยู่ภายในบน Spark รวมถึงเครื่องมือที่ใช้ Python เช่น Data Wrangler และ SemPy Library บทช่วยสอนนี้จะแสดงการสํารวจข้อมูลโดยใช้ไลบรารี seaborn
Python และการเตรียมการและทําความสะอาดข้อมูลโดยใช้ Apache Spark
แบบจําลองและการทดลอง - Fabric ช่วยให้คุณสามารถฝึก ประเมิน และให้คะแนนแบบจําลองการเรียนรู้ของเครื่องโดยใช้รายการการทดลองและแบบจําลองที่มีอยู่แล้วภายในพร้อมกับการรวมที่ราบรื่นกับ MLflow สําหรับการติดตามการทดลองและการลงทะเบียนแบบจําลอง/การปรับใช้ นอกจากนี้ Fabric ยังมีความสามารถในการคาดการณ์แบบจําลองในระดับมาตราส่วน (PREDICT) เพื่อรับและแชร์ข้อมูลเชิงลึกทางธุรกิจ
ที่เก็บข้อมูล - Fabric สร้างมาตรฐานบน Delta Lake ซึ่งหมายความว่าเครื่องยนต์ทั้งหมดของ Fabric สามารถโต้ตอบกับชุดข้อมูลเดียวกันที่เก็บไว้ในทะเลสาบได้ ชั้นที่เก็บข้อมูลนี้ช่วยให้คุณสามารถจัดเก็บข้อมูลทั้งที่มีโครงสร้างและไม่มีโครงสร้างที่สนับสนุนทั้งการจัดเก็บไฟล์และรูปแบบตาราง ชุดข้อมูลและไฟล์ที่จัดเก็บสามารถเข้าถึงได้อย่างง่ายดายผ่านรายการประสบการณ์ Fabric ทั้งหมดเช่นสมุดบันทึกและไปป์ไลน์
เปิดเผยการวิเคราะห์และข้อมูลเชิงลึก - ข้อมูลจากเลคเฮ้าส์สามารถใช้ได้โดย Power BI เครื่องมือข่าวกรองธุรกิจชั้นนําของอุตสาหกรรมสําหรับการรายงานและการแสดงภาพ ข้อมูลที่อยู่ในเลคเฮ้าส์ยังสามารถแสดงภาพในสมุดบันทึกได้โดยใช้ Spark หรือไลบรารีการแสดงภาพแบบเนทีฟของ Python เช่น matplotlib
seaborn
, plotly
, และอื่น ๆ ข้อมูลยังสามารถแสดงภาพได้โดยใช้ไลบรารี SemPy ที่สนับสนุนการแสดงภาพเฉพาะงานที่มีอยู่ภายในสําหรับแบบจําลองข้อมูลความหมาย สําหรับการอ้างอิงและการละเมิดของพวกเขา และสําหรับกรณีการใช้งานการจําแนกและการถดถอย