สถานการณ์แบบครบวงจรสําหรับวิทยาศาสตร์ข้อมูล: บทนําและสถาปัตยกรรม

ชุดบทช่วยสอนนี้สาธิตสถานการณ์อย่างครอบคลุมในประสบการณ์วิทยาศาสตร์ข้อมูล Fabric คุณใช้แต่ละขั้นตอนจากการนําเข้าข้อมูล การทําความสะอาด และการเตรียมการ ไปยังแบบจําลองการเรียนรู้ของเครื่องการฝึกอบรม และสร้างข้อมูลเชิงลึก จากนั้นใช้ข้อมูลเชิงลึกเหล่านั้นโดยใช้เครื่องมือการแสดงผลข้อมูลด้วยภาพ เช่น Power BI

ถ้าคุณไม่คุ้นเคยกับ Microsoft Fabric ให้ดู Microsoft Fabric คืออะไร

บทนำ

วงจรชีวิตของโครงการวิทยาศาสตร์ข้อมูลโดยทั่วไปแล้วประกอบด้วยขั้นตอนต่อไปนี้ (มักจะทําซ้ํา ๆ) ดังนี้:

  • ความเข้าใจทางธุรกิจ
  • การรวบรวมข้อมูล
  • การสํารวจข้อมูล การทําความสะอาด การเตรียมการ และการแสดงภาพ
  • การติดตามการฝึกแบบจําลองและการทดสอบ
  • การให้คะแนนแบบจําลองและการสร้างข้อมูลเชิงลึก

เป้าหมายและเกณฑ์ความสําเร็จของแต่ละขั้นตอนขึ้นอยู่กับการทํางานร่วมกัน การแชร์ข้อมูล และเอกสารประกอบ ประสบการณ์ด้านวิทยาศาสตร์ข้อมูล Fabric ประกอบด้วยคุณลักษณะที่สร้างขึ้นในแบบดั้งเดิมหลายตัวที่ช่วยให้การทํางานร่วมกัน การรวบรวมข้อมูล การแชร์ และการบริโภคเป็นวิธีที่ราบรื่น

ในบทช่วยสอนเหล่านี้ คุณจะรับบทบาทของนักวิทยาศาสตร์ข้อมูลที่ได้รับมอบหมายงานให้สํารวจ ทําความสะอาด และแปลงชุดข้อมูลที่ประกอบด้วยสถานะการเลิกใช้บริการของลูกค้า 10,000 รายที่ธนาคาร จากนั้นคุณสร้างแบบจําลองการเรียนรู้ของเครื่องเพื่อคาดการณ์ว่าลูกค้าธนาคารรายใดมีแนวโน้มที่จะลาออก

คุณจะได้เรียนรู้วิธีการดําเนินการกิจกรรมต่อไปนี้:

  1. ใช้สมุดบันทึก Fabric สําหรับสถานการณ์ทางวิทยาศาสตร์ข้อมูล
  2. นําเข้าข้อมูลลงในทะเลสาบ Fabric โดยใช้ Apache Spark
  3. โหลดข้อมูลที่มีอยู่จากตารางเดลต้าของเลคเฮ้าส์
  4. ทําความสะอาดและแปลงข้อมูลโดยใช้เครื่องมือ Apache Spark และ Python
  5. สร้างการทดลองและเรียกใช้เพื่อฝึกแบบจําลองการเรียนรู้ของเครื่องที่แตกต่างกัน
  6. ลงทะเบียนและติดตามแบบจําลองที่ได้รับการฝึกโดยใช้ MLflow และ Fabric UI
  7. เรียกใช้การให้คะแนนตามขนาดและบันทึกการคาดการณ์และผลลัพธ์การอนุมานไปยังเลคเฮ้าส์
  8. แสดงภาพการคาดการณ์ใน Power BI โดยใช้ DirectLake

สถาปัตยกรรม

ในชุดบทช่วยสอนนี้ เราจะแสดงสถานการณ์ทางวิทยาศาสตร์ข้อมูลแบบครบวงจรที่เกี่ยวข้องกับ:

  1. การนําเข้าข้อมูลจากแหล่งข้อมูลภายนอก
  2. สํารวจและล้างข้อมูล
  3. ฝึกและลงทะเบียนแบบจําลองการเรียนรู้ของเครื่อง
  4. ดําเนินการให้คะแนนแบทช์และบันทึกการคาดการณ์
  5. แสดงผลลัพธ์การคาดการณ์ด้วยภาพใน Power BI

Diagram of the Data science end-to-end scenario components.

ส่วนประกอบที่แตกต่างกันของสถานการณ์ทางวิทยาศาสตร์ข้อมูล

แหล่งข้อมูล - Fabric ทําให้ง่ายและรวดเร็วในการเชื่อมต่อกับ Azure Data Services แพลตฟอร์มคลาวด์อื่น ๆ และแหล่งข้อมูลภายในองค์กรเพื่อนําเข้าข้อมูลจาก การใช้ Fabric Notebook คุณสามารถรวบรวมข้อมูลจาก Lakehouse, คลังข้อมูล, แบบจําลองความหมาย และ Apache Spark ต่าง ๆ และแหล่งข้อมูลแบบกําหนดเองที่รองรับ Python ที่มีอยู่ภายในได้ ชุดบทช่วยสอนนี้มุ่งเน้นไปที่การนําเข้าและโหลดข้อมูลจากเลคเฮ้าส์

สํารวจ ทําความสะอาด และเตรียม - ประสบการณ์ด้านวิทยาศาสตร์ข้อมูลบน Fabric สนับสนุนการทําความสะอาด การแปลง การสํารวจ และการทําให้เป็นคุณลักษณะโดยใช้ประสบการณ์ที่มีอยู่ภายในบน Spark รวมถึงเครื่องมือที่ใช้ Python เช่น Data Wrangler และ SemPy Library บทช่วยสอนนี้จะแสดงการสํารวจข้อมูลโดยใช้ไลบรารี seaborn Python และการเตรียมการและทําความสะอาดข้อมูลโดยใช้ Apache Spark

แบบจําลองและการทดลอง - Fabric ช่วยให้คุณสามารถฝึก ประเมิน และให้คะแนนแบบจําลองการเรียนรู้ของเครื่องโดยใช้รายการการทดลองและแบบจําลองที่มีอยู่แล้วภายในพร้อมกับการรวมที่ราบรื่นกับ MLflow สําหรับการติดตามการทดลองและการลงทะเบียนแบบจําลอง/การปรับใช้ นอกจากนี้ Fabric ยังมีความสามารถในการคาดการณ์แบบจําลองในระดับมาตราส่วน (PREDICT) เพื่อรับและแชร์ข้อมูลเชิงลึกทางธุรกิจ

ที่เก็บข้อมูล - Fabric สร้างมาตรฐานบน Delta Lake ซึ่งหมายความว่าเครื่องยนต์ทั้งหมดของ Fabric สามารถโต้ตอบกับชุดข้อมูลเดียวกันที่เก็บไว้ในทะเลสาบได้ ชั้นที่เก็บข้อมูลนี้ช่วยให้คุณสามารถจัดเก็บข้อมูลทั้งที่มีโครงสร้างและไม่มีโครงสร้างที่สนับสนุนทั้งการจัดเก็บไฟล์และรูปแบบตาราง ชุดข้อมูลและไฟล์ที่จัดเก็บสามารถเข้าถึงได้อย่างง่ายดายผ่านรายการประสบการณ์ Fabric ทั้งหมดเช่นสมุดบันทึกและไปป์ไลน์

เปิดเผยการวิเคราะห์และข้อมูลเชิงลึก - ข้อมูลจากเลคเฮ้าส์สามารถใช้ได้โดย Power BI เครื่องมือข่าวกรองธุรกิจชั้นนําของอุตสาหกรรมสําหรับการรายงานและการแสดงภาพ ข้อมูลที่อยู่ในเลคเฮ้าส์ยังสามารถแสดงภาพในสมุดบันทึกได้โดยใช้ Spark หรือไลบรารีการแสดงภาพแบบเนทีฟของ Python เช่น matplotlibseaborn, plotly, และอื่น ๆ ข้อมูลยังสามารถแสดงภาพได้โดยใช้ไลบรารี SemPy ที่สนับสนุนการแสดงภาพเฉพาะงานที่มีอยู่ภายในสําหรับแบบจําลองข้อมูลความหมาย สําหรับการอ้างอิงและการละเมิดของพวกเขา และสําหรับกรณีการใช้งานการจําแนกและการถดถอย

ขั้นตอนถัดไป