หมายเหตุ
การเข้าถึงหน้านี้ต้องได้รับการอนุญาต คุณสามารถลอง ลงชื่อเข้าใช้หรือเปลี่ยนไดเรกทอรีได้
การเข้าถึงหน้านี้ต้องได้รับการอนุญาต คุณสามารถลองเปลี่ยนไดเรกทอรีได้
บทช่วยสอนเหล่านี้นําเสนอสถานการณ์แบบครอบคลุมในประสบการณ์วิทยาศาสตร์ข้อมูล Fabric ครอบคลุมแต่ละขั้นตอนจาก
- การนำเข้าข้อมูล
- การทําความสะอาดข้อมูล
- การเตรียมข้อมูล
to
- การฝึกอบรมแบบจําลองการเรียนรู้ของเครื่อง
- การสร้างข้อมูลเชิงลึก
จากนั้นครอบคลุมการใช้งานข้อมูลเชิงลึกเหล่านั้นด้วยเครื่องมือการแสดงผลข้อมูลด้วยภาพ เช่น Power BI
ผู้คนที่ไม่เคยใช้ Microsoft Fabric ควรเยี่ยมชม Microsoft Fabric คืออะไร?
แนะ นำ
วงจรชีวิตของโครงการวิทยาศาสตร์ข้อมูลโดยทั่วไปจะประกอบด้วยขั้นตอนเหล่านี้:
- ทําความเข้าใจกฎทางธุรกิจ
- รับข้อมูล
- สํารวจ ทําความสะอาด เตรียมพร้อม และแสดงภาพข้อมูล
- ฝึกแบบจําลองและติดตามการทดลอง
- ให้คะแนนแบบจําลองและสร้างข้อมูลเชิงลึก
ขั้นตอนมักจะดําเนินการซ้ํา ๆ เป้าหมายและเกณฑ์ความสําเร็จของแต่ละขั้นตอนขึ้นอยู่กับการทํางานร่วมกัน การแชร์ข้อมูล และเอกสารประกอบ ประสบการณ์ด้านวิทยาศาสตร์ข้อมูล Fabric เกี่ยวข้องกับคุณสมบัติที่สร้างขึ้นในแบบดั้งเดิมหลายรายการซึ่งช่วยให้การทํางานร่วมกันที่ราบรื่นการรวบรวมข้อมูลการแชร์และการบริโภค
บทช่วยสอนเหล่านี้ช่วยให้คุณมีบทบาทของนักวิทยาศาสตร์ข้อมูลที่ต้องสํารวจ ทําความสะอาด และแปลงชุดข้อมูลที่มีสถานะการเลิกใช้บริการของลูกค้าธนาคาร 10,000 ราย จากนั้นคุณสร้างแบบจําลองการเรียนรู้ของเครื่องเพื่อคาดการณ์ว่าลูกค้าธนาคารรายใดจะลาออก
คุณดําเนินกิจกรรมต่อไปนี้ในบทช่วยสอน:
- ใช้สมุดบันทึก Fabric สําหรับสถานการณ์ทางวิทยาศาสตร์ข้อมูล
- ใช้ Apache Spark เพื่อนําเข้าข้อมูลลงในเลคเฮาส์ Fabric
- โหลดข้อมูลที่มีอยู่จากตารางเดลต้าของเลคเฮาส์
- ใช้เครื่องมือ Apache Spark และ Python เพื่อทําความสะอาดและแปลงข้อมูล
- สร้างการทดลองและเรียกใช้เพื่อฝึกแบบจําลองการเรียนรู้ของเครื่องที่แตกต่างกัน
- ใช้ MLflow และ Fabric UI เพื่อลงทะเบียนและติดตามแบบจําลองที่ได้รับการฝึก
- เรียกใช้การให้คะแนนตามขนาดและบันทึกการคาดการณ์และผลลัพธ์การอนุมานไปยังเลคเฮ้าส์
- ใช้ DirectLake เพื่อแสดงภาพการคาดการณ์ใน Power BI
สถาปัตยกรรม
ชุดบทช่วยสอนนี้แสดงสถานการณ์ทางวิทยาศาสตร์ข้อมูลแบบครบวงจรที่ประยุกต์ซึ่งเกี่ยวข้องกับ:
- การนําเข้าข้อมูลจากแหล่งข้อมูลภายนอก
- การสํารวจและการทําความสะอาดข้อมูล
- การฝึกอบรมและการลงทะเบียนแบบจําลองการเรียนรู้ของเครื่อง
- การให้คะแนนและการบันทึกการคาดการณ์ของชุดงาน
- การแสดงภาพผลลัพธ์การคาดการณ์ใน Power BI
ส่วนประกอบที่แตกต่างกันของสถานการณ์ทางวิทยาศาสตร์ข้อมูล
แหล่งข้อมูล - เมื่อต้องการนําเข้าข้อมูลด้วย Fabric คุณสามารถเชื่อมต่อไปยัง Azure Data Services แพลตฟอร์มคลาวด์อื่น ๆ และแหล่งข้อมูลภายในองค์กรได้อย่างง่ายดายและรวดเร็ว ด้วย Fabric Notebooks คุณสามารถนําเข้าข้อมูลจากแหล่งข้อมูลเหล่านี้:
- เลคเฮ้าส์ภายในตัว
- คลังข้อมูล
- Semantic models
- แหล่งข้อมูล Apache Spark ต่าง ๆ
- แหล่งข้อมูลต่าง ๆ ที่สนับสนุน Python
ชุดบทช่วยสอนนี้มุ่งเน้นไปที่การนําเข้าข้อมูลและโหลดจากเลคเฮ้าส์
สํารวจ ทําความสะอาด และเตรียม - ประสบการณ์วิทยาศาสตร์ข้อมูลผ้ารองรับการทําความสะอาดข้อมูล การแปลง การสํารวจ และการแสดงคุณลักษณะ ใช้ประสบการณ์ Spark ในตัวและเครื่องมือที่ใช้ Python - ตัวอย่างเช่น Data Wrangler และ SemPy Library บทช่วยสอนนี้แสดงการสํารวจข้อมูลด้วย seaborn ไลบรารี Python และการทําความสะอาดข้อมูลและการเตรียมพร้อมด้วย Apache Spark
แบบจําลองและการทดลอง - ด้วย Fabric คุณสามารถฝึก ประเมิน และให้คะแนนแบบจําลองการเรียนรู้ของเครื่องด้วยการทดลองที่มีอยู่แล้วภายในได้ เพื่อลงทะเบียนและปรับใช้แบบจําลองของคุณและติดตามการทดลอง MLflow นําเสนอการรวมที่ราบรื่นกับ Fabric ซึ่งเป็นวิธีในการจําลองรายการ เพื่อสร้างและแชร์ข้อมูลเชิงลึกทางธุรกิจ Fabric เสนอคุณลักษณะอื่น ๆ สําหรับการคาดการณ์แบบจําลองตามขนาด (PREDICT) เพื่อสร้างและแชร์ข้อมูลเชิงลึกทางธุรกิจ
ที่เก็บข้อมูล - Fabric สร้างมาตรฐานบน Delta Lake ซึ่งหมายความว่าเครื่องยนต์ Fabric ทั้งหมดสามารถโต้ตอบกับชุดข้อมูลเดียวกันที่จัดเก็บไว้ในเลคเฮ้าส์ได้ ด้วยเลเยอร์ที่เก็บข้อมูลนั้น คุณสามารถจัดเก็บข้อมูลทั้งที่มีโครงสร้างและไม่มีโครงสร้างที่สนับสนุนทั้งการจัดเก็บไฟล์และรูปแบบตาราง คุณสามารถเข้าถึงชุดข้อมูลและไฟล์ที่จัดเก็บผ่านรายการประสบการณ์ Fabric ทั้งหมดได้อย่างง่ายดาย เช่น สมุดบันทึกและไปป์ไลน์
เปิดเผยการวิเคราะห์และข้อมูลเชิงลึก - Power BI ซึ่งเป็นเครื่องมือข่าวกรองธุรกิจชั้นนําในอุตสาหกรรมสามารถใช้ข้อมูลเลคเฮ้าส์สําหรับการรายงานและการสร้างการแสดงภาพได้ ในแหล่งข้อมูลสมุดบันทึก ไลบรารีการแสดงภาพแบบเนทีฟ Python หรือ Spark
matplotlibseabornplotly- ฯลฯ
สามารถแสดงภาพข้อมูลยังคงอยู่ในเลคเฮ้าส์ นอกจากนี้ ไลบรารี SemPy ยังสนับสนุนการแสดงภาพข้อมูล ไลบรารีนี้สนับสนุนการแสดงภาพเฉพาะงานที่มีอยู่ภายในสําหรับ
- แบบจําลองข้อมูลเชิงความหมาย
- การขึ้นต่อกันและการละเมิด
- กรณีการใช้งานการจัดประเภทและการถดถอย
ขั้นตอนถัดไป
เตรียมระบบของคุณสําหรับ บทช่วยสอนวิทยาศาสตร์ข้อมูล