หมายเหตุ
การเข้าถึงหน้านี้ต้องได้รับการอนุญาต คุณสามารถลอง ลงชื่อเข้าใช้หรือเปลี่ยนไดเรกทอรีได้
การเข้าถึงหน้านี้ต้องได้รับการอนุญาต คุณสามารถลองเปลี่ยนไดเรกทอรีได้
สําหรับการเสริมสร้างข้อมูลและข้อมูลเชิงลึกทางธุรกิจ Microsoft Fabric มอบประสบการณ์ด้านวิทยาศาสตร์ข้อมูลที่ช่วยให้ผู้ใช้สร้างเวิร์กโฟลว์วิทยาศาสตร์ข้อมูลแบบครบวงจรได้ คุณสามารถทํากิจกรรมที่หลากหลายได้ตลอดกระบวนการวิทยาศาสตร์ข้อมูลทั้งหมด:
- การสํารวจข้อมูล
- การเตรียมข้อมูล
- การทําความสะอาดข้อมูล
- การทดลอง
- modeling
- การให้คะแนนแบบจําลอง
- ให้บริการข้อมูลเชิงลึกเชิงทํานายไปยังรายงาน BI
ผู้ใช้ Microsoft Fabric สามารถเข้าถึงหน้าแรกของวิทยาศาสตร์ข้อมูลได้ จากนั้น พวกเขาจึงสามารถค้นหาและเข้าถึงแหล่งข้อมูลต่าง ๆ ที่เกี่ยวข้องดังที่แสดงในภาพหน้าจอต่อไปนี้:
โครงการการเรียนรู้ของเครื่องส่วนใหญ่เป็นไปตามกระบวนการวิทยาศาสตร์ข้อมูล ในระดับสูง กระบวนการนั้นเกี่ยวข้องกับขั้นตอนเหล่านี้:
- สูตรและความคิดที่มีปัญหา
- การค้นหาข้อมูลและการประมวลผลล่วงหน้า
- การทดลองและการวางรูปแบบ
- เสริมสร้างและดําเนินการ
- สร้างข้อมูลเชิงลึก
บทความนี้อธิบายความสามารถของ Microsoft Fabric Data Science จากมุมมองของกระบวนการวิทยาศาสตร์ข้อมูล สําหรับแต่ละขั้นตอนในกระบวนการวิทยาศาสตร์ข้อมูล บทความนี้สรุปความสามารถของ Microsoft Fabric ที่สามารถช่วยได้
สูตรและความคิดที่มีปัญหา
ผู้ใช้วิทยาศาสตร์ข้อมูลใน Microsoft Fabric ทํางานบนแพลตฟอร์มเดียวกันกับผู้ใช้ทางธุรกิจและนักวิเคราะห์ ดังนั้นการแชร์ข้อมูลและการทํางานร่วมกันจะราบรื่นมากขึ้นในบทบาทต่าง ๆ นักวิเคราะห์สามารถแชร์รายงาน Power BI และชุดข้อมูลกับผู้ฝึกสอนด้านวิทยาศาสตร์ข้อมูลได้อย่างง่ายดาย ความสะดวกในการทํางานร่วมกันข้ามบทบาทใน Microsoft Fabric ทําให้การแฮนด์ออฟในระหว่างขั้นตอนการกําหนดปัญหาง่ายขึ้น
การค้นหาข้อมูลและการประมวลผลล่วงหน้า
ผู้ใช้ Microsoft Fabric สามารถโต้ตอบกับข้อมูลใน OneLake โดยใช้ทรัพยากร Lakehouse ได้ หากต้องการเรียกดูและโต้ตอบกับข้อมูล Lakehouse จะแนบไปกับสมุดบันทึกได้อย่างง่ายดาย ผู้ใช้สามารถอ่านข้อมูลจากเลคเฮ้าส์ลงในกรอบข้อมูล Pandas ได้โดยตรง สําหรับการสํารวจ ข้อมูลที่ไร้รอยต่ออ่านจาก OneLake จากนั้นก็เป็นไปได้
มีชุดเครื่องมือที่มีประสิทธิภาพสําหรับการนําเข้าข้อมูลและไปป์ไลน์การเรียงลําดับข้อมูลด้วยไปป์ไลน์การรวมข้อมูล - ส่วนรวมแบบเนทีฟของ Microsoft Fabric ไปป์ไลน์ข้อมูลที่ง่ายต่อการสร้างสามารถเข้าถึงและแปลงข้อมูลเป็นรูปแบบที่การเรียนรู้ของเครื่องสามารถใช้ได้
การสํารวจข้อมูล
ส่วนสําคัญของกระบวนการเรียนรู้ของเครื่องเกี่ยวข้องกับการทําความเข้าใจข้อมูลผ่านการสํารวจและการแสดงภาพ
Microsoft Fabric มีเครื่องมือในการสํารวจและเตรียมข้อมูลสําหรับการวิเคราะห์และการเรียนรู้ของเครื่อง ทั้งนี้ขึ้นอยู่กับตําแหน่งที่เก็บข้อมูล สมุดบันทึกกลายเป็นเครื่องมือการสํารวจข้อมูลที่มีประสิทธิภาพและมีประสิทธิภาพ
Apache Spark และ Python สําหรับการเตรียมข้อมูล
Microsoft Fabric สามารถแปลง เตรียมการ และสํารวจข้อมูลของคุณตามขนาด ด้วย Spark ผู้ใช้สามารถใช้เครื่องมือ PySpark/Python, Scala และ SparkR/SparklyR เพื่อประมวลผลข้อมูลล่วงหน้าในระดับมาตราส่วนได้ ไลบรารีการแสดงภาพข้อมูลโอเพนซอร์สที่มีประสิทธิภาพสามารถเพิ่มประสบการณ์การสํารวจข้อมูลเพื่อความเข้าใจข้อมูลที่ดีขึ้น
Data Wrangler สําหรับการทําความสะอาดข้อมูลที่ราบรื่น
หากต้องการใช้ Data Wrangler ประสบการณ์การใช้งาน Microsoft Fabric Notebook ได้เพิ่มคุณลักษณะเครื่องมือโค้ดที่เตรียมข้อมูลและสร้างรหัส Python ประสบการณ์นี้ทําให้ง่ายต่อการเร่งงานที่น่าเบื่อและยุ่งยาก เช่น การทําความสะอาดข้อมูล นอกจากนี้ คุณยังสามารถสร้างการทํางานอัตโนมัติและการทําซ้ําผ่านโค้ดที่สร้างขึ้นได้ด้วย เรียนรู้เพิ่มเติมเกี่ยวกับ Data Wrangler ในส่วน Data Wrangler ของเอกสารนี้
การทดลองและการสร้างแบบจําลอง ML
ด้วยเครื่องมือเช่น PySpark/Python และ SparklyR/R สมุดบันทึกสามารถจัดการการฝึกแบบจําลองการเรียนรู้ของเครื่องได้ อัลกอริทึมการเรียนรู้ของเครื่องและไลบรารีสามารถช่วยฝึกแบบจําลองการเรียนรู้ของเครื่องได้ เครื่องมือการจัดการไลบรารีสามารถติดตั้งไลบรารีและอัลกอริทึมเหล่านี้ได้ ผู้ใช้สามารถใช้ไลบรารีการเรียนรู้ของเครื่องที่ได้รับความนิยมเพื่อเสร็จสิ้นการฝึกอบรมแบบจําลอง ML ใน Microsoft Fabric นอกจากนี้ไลบรารียอดนิยมเช่น Scikit Learn ยังสามารถพัฒนาแบบจําลองได้
การทดลองและการทํางาน MLflow สามารถติดตามการฝึกแบบจําลอง ML ได้ เพื่อบันทึกการทดลองและแบบจําลอง Microsoft Fabric มอบประสบการณ์ MLflow ในตัวที่สนับสนุนการโต้ตอบ เรียนรู้เพิ่มเติมเกี่ยวกับวิธีใช้ MLflow เพื่อติดตามการทดลองและจัดการแบบจําลองใน Microsoft Fabric
SynapseML
Microsoft เป็นเจ้าของและดําเนินการไลบรารีโอเพนซอร์ส SynapseML (ซึ่งรู้จักก่อนหน้าว่า MMLSpark) ลดความซับซ้อนของการสร้างไปป์ไลน์การเรียนรู้ของเครื่องที่ปรับขนาดได้อย่างมาก ในฐานะที่เป็นระบบนิเวศของเครื่องมือ การดําเนินการจะขยายเฟรมเวิร์ก Apache Spark ในหลายทิศทางใหม่ SynapseML จะรวมเฟรมเวิร์กการเรียนรู้ของเครื่องที่มีอยู่หลายเฟรมเวิร์กและอัลกอริทึม Microsoft ใหม่ให้เป็น API เดียวที่ปรับขนาดได้ ไลบรารี SynapseML แบบโอเพนซอร์สประกอบด้วยระบบนิเวศที่สมบูรณ์ของเครื่องมือ ML สําหรับการพัฒนาแบบจําลองเชิงคาดการณ์และใช้แบบจําลอง AI ที่ได้รับการฝึกฝนไว้ล่วงหน้าจากบริการ Azure AI สําหรับข้อมูลเพิ่มเติม โปรดเยี่ยมชมทรัพยากร SynapseML
เสริมสร้างและดําเนินการ
สมุดบันทึกสามารถจัดการการให้คะแนนแบบจําลองการเรียนรู้ของเครื่องด้วยไลบรารีโอเพนซอร์สสําหรับการคาดการณ์ พวกเขายังสามารถจัดการกับฟังก์ชันการคาดการณ์ Spark แบบสากลที่ปรับขนาดได้ของ Microsoft Fabric ฟังก์ชันนี้สนับสนุนแบบจําลองแพคเกจ MLflow ในรีจิสทรีแบบจําลอง Microsoft Fabric
รับข้อมูลเชิงลึก
ใน Microsoft Fabric คุณสามารถเขียนค่าที่คาดการณ์ไปยัง OneLake ได้อย่างง่ายดาย จากที่นั่น รายงาน Power BI สามารถใช้ได้อย่างราบรื่นด้วยโหมด Power BI Direct Lake จากนั้นผู้ประกอบวิชาชีพด้านวิทยาศาสตร์ข้อมูลสามารถแบ่งปันผลลัพธ์ของงานกับผู้เกี่ยวข้องได้อย่างง่ายดายและทําให้การดําเนินงานง่ายขึ้น
คุณสามารถใช้ฟีเจอร์การกําหนดตารางเวลาของสมุดบันทึกเพื่อกําหนดเวลาการเรียกใช้สมุดบันทึกที่มีการให้คะแนนกลุ่ม คุณยังสามารถจัดกําหนดการการให้คะแนนเป็นกลุ่มโดยเป็นส่วนหนึ่งของกิจกรรมไปป์ไลน์ข้อมูลหรืองาน Spark ด้วยโหมด Direct lake ใน Microsoft Fabric, Power BI จะได้รับการคาดการณ์ล่าสุดโดยอัตโนมัติโดยไม่จําเป็นต้องโหลดข้อมูลหรือรีเฟรช
การสํารวจข้อมูลด้วยลิงก์ความหมาย
นักวิทยาศาสตร์ข้อมูลและนักวิเคราะห์ธุรกิจใช้เวลาจํานวนมากในการพยายามทําความเข้าใจ ทําความสะอาด และแปลงข้อมูลก่อนที่การวิเคราะห์ที่มีความหมายจะเริ่มขึ้น โดยทั่วไปนักวิเคราะห์ธุรกิจจะทํางานกับแบบจําลองความหมายและเข้ารหัสความรู้โดเมนและตรรกะทางธุรกิจเป็นหน่วยวัด Power BI ในทางกลับกัน นักวิทยาศาสตร์ข้อมูลสามารถทํางานกับข้อมูลเดียวกันได้ แต่โดยทั่วไปแล้วจะอยู่ในสภาพแวดล้อมหรือภาษาของโค้ดที่แตกต่างกัน ด้วยการเชื่อมโยงเชิงความหมาย นักวิทยาศาสตร์ข้อมูลสามารถสร้างการเชื่อมต่อระหว่างแบบจําลองความหมายของ Power BI และวิทยาศาสตร์ข้อมูล Synapse ในประสบการณ์ Microsoft Fabric ผ่านไลบรารี SemPy Python เพื่อลดความซับซ้อนของการวิเคราะห์ข้อมูล SemPy จะจับและใช้ตรรกะข้อมูลเนื่องจากผู้ใช้ทําการแปลงต่าง ๆ บนแบบจําลองความหมาย เมื่อนักวิทยาศาสตร์ข้อมูลใช้ลิงก์เชิงความหมาย พวกเขาสามารถ
- หลีกเลี่ยงการเติมตรรกะทางธุรกิจและความรู้โดเมนในโค้ดของตน
- เข้าถึงและใช้หน่วยวัด Power BI ในโค้ดได้อย่างง่ายดาย
- ใช้ตรรกะเพื่อยกระดับประสบการณ์การใช้งานใหม่ - ตัวอย่างเช่น ฟังก์ชันความหมาย
- สํารวจและตรวจสอบการขึ้นต่อกันของฟังก์ชันการทํางานและความสัมพันธ์ระหว่างข้อมูล
เมื่อองค์กรใช้ SemPy พวกเขาสามารถคาดหวังได้
- ผลผลิตที่เพิ่มขึ้นและการทํางานร่วมกันได้เร็วขึ้นทั่วทั้งทีมที่ทํางานบนชุดข้อมูลเดียวกัน
- การทํางานร่วมกันข้ามระหว่างทีมข่าวกรองธุรกิจและทีม AI เพิ่มขึ้น
- ลดความกํากวมและเส้นโค้งการเรียนรู้ที่ง่ายขึ้นเมื่อออนบอร์ดไปยังแบบจําลองหรือชุดข้อมูลใหม่
สําหรับข้อมูลเพิ่มเติมเกี่ยวกับลิงก์แสดงความหมาย โปรดเยี่ยมชมทรัพยากร ลิงก์ความหมายคืออะไร
เนื้อหาที่เกี่ยวข้อง
- เยี่ยมชม บทช่วยสอนวิทยาศาสตร์ข้อมูล เพื่อเริ่มต้นใช้งานตัวอย่างวิทยาศาสตร์ข้อมูลแบบครบวงจร
- เยี่ยมชม Data Wrangler สําหรับข้อมูลเพิ่มเติมเกี่ยวกับการเตรียมข้อมูลและการทําความสะอาดด้วย Data Wrangler
- เยี่ยมชม การทดสอบการเรียนรู้ของเครื่อง เพื่อเรียนรู้เพิ่มเติมเกี่ยวกับการติดตามการทดลอง
- เยี่ยมชม แบบจําลองการเรียนรู้ของเครื่อง เพื่อเรียนรู้เพิ่มเติมเกี่ยวกับการจัดการแบบจําลอง
- เยี่ยมชม แบบจําลองคะแนนที่มีการทํานาย เพื่อเรียนรู้เพิ่มเติมเกี่ยวกับการให้คะแนนชุดด้วยการทํานาย
- รองรับการทํานายของเลคเฮ้าส์ไปยัง Power BI ด้วย โหมด Direct lake