แชร์ผ่าน


สถานการณ์แบบครบวงจรสําหรับวิทยาศาสตร์ข้อมูล: บทนําและสถาปัตยกรรม

บทช่วยสอนเหล่านี้นําเสนอสถานการณ์แบบครอบคลุมในประสบการณ์วิทยาศาสตร์ข้อมูล Fabric ครอบคลุมแต่ละขั้นตอนจาก

  • การนำเข้าข้อมูล
  • การทําความสะอาดข้อมูล
  • การเตรียมข้อมูล

to

  • การฝึกอบรมแบบจําลองการเรียนรู้ของเครื่อง
  • การสร้างข้อมูลเชิงลึก

จากนั้นครอบคลุมการใช้งานข้อมูลเชิงลึกเหล่านั้นด้วยเครื่องมือการแสดงผลข้อมูลด้วยภาพ เช่น Power BI

ผู้คนที่ไม่เคยใช้ Microsoft Fabric ควรเยี่ยมชม Microsoft Fabric คืออะไร?

แนะ นำ

วงจรชีวิตของโครงการวิทยาศาสตร์ข้อมูลโดยทั่วไปจะประกอบด้วยขั้นตอนเหล่านี้:

  • ทําความเข้าใจกฎทางธุรกิจ
  • รับข้อมูล
  • สํารวจ ทําความสะอาด เตรียมพร้อม และแสดงภาพข้อมูล
  • ฝึกแบบจําลองและติดตามการทดลอง
  • ให้คะแนนแบบจําลองและสร้างข้อมูลเชิงลึก

ขั้นตอนมักจะดําเนินการซ้ํา ๆ เป้าหมายและเกณฑ์ความสําเร็จของแต่ละขั้นตอนขึ้นอยู่กับการทํางานร่วมกัน การแชร์ข้อมูล และเอกสารประกอบ ประสบการณ์ด้านวิทยาศาสตร์ข้อมูล Fabric เกี่ยวข้องกับคุณสมบัติที่สร้างขึ้นในแบบดั้งเดิมหลายรายการซึ่งช่วยให้การทํางานร่วมกันที่ราบรื่นการรวบรวมข้อมูลการแชร์และการบริโภค

บทช่วยสอนเหล่านี้ช่วยให้คุณมีบทบาทของนักวิทยาศาสตร์ข้อมูลที่ต้องสํารวจ ทําความสะอาด และแปลงชุดข้อมูลที่มีสถานะการเลิกใช้บริการของลูกค้าธนาคาร 10,000 ราย จากนั้นคุณสร้างแบบจําลองการเรียนรู้ของเครื่องเพื่อคาดการณ์ว่าลูกค้าธนาคารรายใดจะลาออก

คุณดําเนินกิจกรรมต่อไปนี้ในบทช่วยสอน:

  1. ใช้สมุดบันทึก Fabric สําหรับสถานการณ์ทางวิทยาศาสตร์ข้อมูล
  2. ใช้ Apache Spark เพื่อนําเข้าข้อมูลลงในเลคเฮาส์ Fabric
  3. โหลดข้อมูลที่มีอยู่จากตารางเดลต้าของเลคเฮาส์
  4. ใช้เครื่องมือ Apache Spark และ Python เพื่อทําความสะอาดและแปลงข้อมูล
  5. สร้างการทดลองและเรียกใช้เพื่อฝึกแบบจําลองการเรียนรู้ของเครื่องที่แตกต่างกัน
  6. ใช้ MLflow และ Fabric UI เพื่อลงทะเบียนและติดตามแบบจําลองที่ได้รับการฝึก
  7. เรียกใช้การให้คะแนนตามขนาดและบันทึกการคาดการณ์และผลลัพธ์การอนุมานไปยังเลคเฮ้าส์
  8. ใช้ DirectLake เพื่อแสดงภาพการคาดการณ์ใน Power BI

สถาปัตยกรรม

ชุดบทช่วยสอนนี้แสดงสถานการณ์ทางวิทยาศาสตร์ข้อมูลแบบครบวงจรที่ประยุกต์ซึ่งเกี่ยวข้องกับ:

  1. การนําเข้าข้อมูลจากแหล่งข้อมูลภายนอก
  2. การสํารวจและการทําความสะอาดข้อมูล
  3. การฝึกอบรมและการลงทะเบียนแบบจําลองการเรียนรู้ของเครื่อง
  4. การให้คะแนนและการบันทึกการคาดการณ์ของชุดงาน
  5. การแสดงภาพผลลัพธ์การคาดการณ์ใน Power BI

ไดอะแกรมของคอมโพเนนต์สถานการณ์แบบ end-to-end วิทยาศาสตร์ข้อมูล

ส่วนประกอบที่แตกต่างกันของสถานการณ์ทางวิทยาศาสตร์ข้อมูล

แหล่งข้อมูล - เมื่อต้องการนําเข้าข้อมูลด้วย Fabric คุณสามารถเชื่อมต่อไปยัง Azure Data Services แพลตฟอร์มคลาวด์อื่น ๆ และแหล่งข้อมูลภายในองค์กรได้อย่างง่ายดายและรวดเร็ว ด้วย Fabric Notebooks คุณสามารถนําเข้าข้อมูลจากแหล่งข้อมูลเหล่านี้:

  • เลคเฮ้าส์ภายในตัว
  • คลังข้อมูล
  • Semantic models
  • แหล่งข้อมูล Apache Spark ต่าง ๆ
  • แหล่งข้อมูลต่าง ๆ ที่สนับสนุน Python

ชุดบทช่วยสอนนี้มุ่งเน้นไปที่การนําเข้าข้อมูลและโหลดจากเลคเฮ้าส์

สํารวจ ทําความสะอาด และเตรียม - ประสบการณ์วิทยาศาสตร์ข้อมูลผ้ารองรับการทําความสะอาดข้อมูล การแปลง การสํารวจ และการแสดงคุณลักษณะ ใช้ประสบการณ์ Spark ในตัวและเครื่องมือที่ใช้ Python - ตัวอย่างเช่น Data Wrangler และ SemPy Library บทช่วยสอนนี้แสดงการสํารวจข้อมูลด้วย seaborn ไลบรารี Python และการทําความสะอาดข้อมูลและการเตรียมพร้อมด้วย Apache Spark

แบบจําลองและการทดลอง - ด้วย Fabric คุณสามารถฝึก ประเมิน และให้คะแนนแบบจําลองการเรียนรู้ของเครื่องด้วยการทดลองที่มีอยู่แล้วภายในได้ เพื่อลงทะเบียนและปรับใช้แบบจําลองของคุณและติดตามการทดลอง MLflow นําเสนอการรวมที่ราบรื่นกับ Fabric ซึ่งเป็นวิธีในการจําลองรายการ เพื่อสร้างและแชร์ข้อมูลเชิงลึกทางธุรกิจ Fabric เสนอคุณลักษณะอื่น ๆ สําหรับการคาดการณ์แบบจําลองตามขนาด (PREDICT) เพื่อสร้างและแชร์ข้อมูลเชิงลึกทางธุรกิจ

ที่เก็บข้อมูล - Fabric สร้างมาตรฐานบน Delta Lake ซึ่งหมายความว่าเครื่องยนต์ Fabric ทั้งหมดสามารถโต้ตอบกับชุดข้อมูลเดียวกันที่จัดเก็บไว้ในเลคเฮ้าส์ได้ ด้วยเลเยอร์ที่เก็บข้อมูลนั้น คุณสามารถจัดเก็บข้อมูลทั้งที่มีโครงสร้างและไม่มีโครงสร้างที่สนับสนุนทั้งการจัดเก็บไฟล์และรูปแบบตาราง คุณสามารถเข้าถึงชุดข้อมูลและไฟล์ที่จัดเก็บผ่านรายการประสบการณ์ Fabric ทั้งหมดได้อย่างง่ายดาย เช่น สมุดบันทึกและไปป์ไลน์

เปิดเผยการวิเคราะห์และข้อมูลเชิงลึก - Power BI ซึ่งเป็นเครื่องมือข่าวกรองธุรกิจชั้นนําในอุตสาหกรรมสามารถใช้ข้อมูลเลคเฮ้าส์สําหรับการรายงานและการสร้างการแสดงภาพได้ ในแหล่งข้อมูลสมุดบันทึก ไลบรารีการแสดงภาพแบบเนทีฟ Python หรือ Spark

  • matplotlib
  • seaborn
  • plotly
  • ฯลฯ

สามารถแสดงภาพข้อมูลยังคงอยู่ในเลคเฮ้าส์ นอกจากนี้ ไลบรารี SemPy ยังสนับสนุนการแสดงภาพข้อมูล ไลบรารีนี้สนับสนุนการแสดงภาพเฉพาะงานที่มีอยู่ภายในสําหรับ

  • แบบจําลองข้อมูลเชิงความหมาย
  • การขึ้นต่อกันและการละเมิด
  • กรณีการใช้งานการจัดประเภทและการถดถอย

ขั้นตอนถัดไป

เตรียมระบบของคุณสําหรับ บทช่วยสอนวิทยาศาสตร์ข้อมูล