วิทยาศาสตร์ข้อมูลใน Microsoft Fabric คืออะไร
Microsoft Fabric มอบประสบการณ์ด้านวิทยาศาสตร์ข้อมูลเพื่อสนับสนุนให้ผู้ใช้ดําเนินการเวิร์กโฟลว์วิทยาศาสตร์ข้อมูลแบบ end-to-end ให้เสร็จสมบูรณ์เพื่อวัตถุประสงค์เพื่อการเสริมสร้างข้อมูลและข้อมูลเชิงลึกทางธุรกิจ คุณสามารถทํากิจกรรมที่หลากหลายได้ตลอดกระบวนการวิทยาศาสตร์ข้อมูลทั้งหมดตั้งแต่การสํารวจข้อมูล การเตรียมการและทําความสะอาดไปจนถึงการทดลอง การวางรูปแบบ การให้คะแนนแบบจําลอง และการให้บริการข้อมูลเชิงลึกเชิงทํานายไปยังรายงาน BI
ผู้ใช้ Microsoft Fabric สามารถเข้าถึงหน้าแรกของวิทยาศาสตร์ข้อมูลได้ จากจุดนั้น พวกเขาสามารถค้นหาและเข้าถึงแหล่งข้อมูลต่าง ๆ ที่เกี่ยวข้อง ตัวอย่างเช่น พวกเขาสามารถสร้างการทดลองการเรียนรู้ของเครื่อง แบบจําลอง และสมุดบันทึกได้ นอกจากนี้ พวกเขายังสามารถนําเข้าสมุดบันทึกที่มีอยู่ในหน้าแรกของวิทยาศาสตร์ข้อมูลได้อีกด้วย
คุณอาจทราบวิธีการทํางานของกระบวนการวิทยาศาสตร์ข้อมูลทั่วไป เช่นเดียวกับกระบวนการที่เป็นที่รู้จักกันดี โครงการการเรียนรู้ของเครื่องส่วนใหญ่จะติดตามไปด้วย
ในระดับสูง กระบวนการเกี่ยวข้องกับขั้นตอนเหล่านี้:
- สูตรและความคิดที่มีปัญหา
- การค้นพบข้อมูลและการประมวลผลล่วงหน้า
- การทดลองและการวางรูปแบบ
- เสริมสร้างและดําเนินการ
- รับข้อมูลเชิงลึก
บทความนี้อธิบายความสามารถของ Microsoft Fabric Data Science จากมุมมองของกระบวนการวิทยาศาสตร์ข้อมูล สําหรับแต่ละขั้นตอนในกระบวนการวิทยาศาสตร์ข้อมูล บทความนี้สรุปความสามารถของ Microsoft Fabric ที่สามารถช่วยได้
สูตรและความคิดที่มีปัญหา
ผู้ใช้วิทยาศาสตร์ข้อมูลใน Microsoft Fabric ทํางานบนแพลตฟอร์มเดียวกันกับผู้ใช้ทางธุรกิจและนักวิเคราะห์ ดังนั้นการแชร์ข้อมูลและการทํางานร่วมกันจะราบรื่นมากขึ้นในบทบาทต่าง ๆ นักวิเคราะห์สามารถแชร์รายงาน Power BI และชุดข้อมูลกับผู้ฝึกสอนด้านวิทยาศาสตร์ข้อมูลได้อย่างง่ายดาย ความสะดวกในการทํางานร่วมกันข้ามบทบาทใน Microsoft Fabric ทําให้การแฮนด์ออฟในระหว่างขั้นตอนการกําหนดปัญหาง่ายขึ้นมาก
การค้นพบข้อมูลและการประมวลผลล่วงหน้า
ผู้ใช้ Microsoft Fabric สามารถโต้ตอบกับข้อมูลใน OneLake ได้โดยใช้รายการ Lakehouse Lakehouse แนบไปกับสมุดบันทึกเพื่อเรียกดูและโต้ตอบกับข้อมูลได้อย่างง่ายดาย
ผู้ใช้สามารถอ่านข้อมูลจากเลคเฮ้าส์ลงในกรอบข้อมูล Pandas ได้โดยตรง สําหรับการสํารวจ ทําให้สามารถอ่านข้อมูลจาก OneLake ได้อย่างราบรื่น
มีชุดเครื่องมือที่มีประสิทธิภาพสําหรับการนําเข้าข้อมูลและไปป์ไลน์การเรียงลําดับข้อมูลด้วยไปป์ไลน์การรวมข้อมูล - ส่วนรวมแบบเนทีฟของ Microsoft Fabric ไปป์ไลน์ข้อมูลที่ง่ายต่อการสร้างสามารถเข้าถึงและแปลงข้อมูลเป็นรูปแบบที่การเรียนรู้ของเครื่องสามารถใช้ได้
การสํารวจข้อมูล
ส่วนสําคัญของกระบวนการเรียนรู้ของเครื่องคือการทําความเข้าใจข้อมูลผ่านการสํารวจและการแสดงภาพ
Microsoft Fabric มีชุดเครื่องมือต่าง ๆ เพื่อสํารวจและเตรียมข้อมูลสําหรับการวิเคราะห์และการเรียนรู้ของเครื่อง ทั้งนี้ขึ้นอยู่กับตําแหน่งที่เก็บข้อมูล สมุดบันทึกกลายเป็นหนึ่งในวิธีที่รวดเร็วที่สุดในการเริ่มต้นใช้งานการสํารวจข้อมูล
Apache Spark และ Python สําหรับการเตรียมข้อมูล
Microsoft Fabric มีความสามารถในการแปลง เตรียมพร้อม และสํารวจข้อมูลของคุณตามขนาด ด้วย Spark ผู้ใช้สามารถใช้ประโยชน์จากเครื่องมือ PySpark/Python, Scala และ SparkR/SparklyR สําหรับการประมวลผลข้อมูลล่วงหน้าในระดับมาตราส่วนได้ ไลบรารีการแสดงภาพข้อมูลโอเพนซอร์สที่มีประสิทธิภาพสามารถปรับปรุงประสบการณ์การสํารวจข้อมูลเพื่อช่วยให้เข้าใจข้อมูลได้ดียิ่งขึ้น
Data Wrangler สําหรับการทําความสะอาดข้อมูลที่ราบรื่น
ประสบการณ์การใช้งาน Microsoft Fabric Notebook เพิ่มคุณลักษณะในการใช้ Data Wrangler ซึ่งเป็นเครื่องมือโค้ดที่เตรียมข้อมูลและสร้างรหัส Python ประสบการณ์นี้ทําให้ง่ายต่อการเร่งงานที่น่าเบื่อและยุ่งยาก เช่น การล้างข้อมูล และสร้างความสามารถในการทําซ้ําและระบบอัตโนมัติผ่านโค้ดที่สร้างขึ้น เรียนรู้เพิ่มเติมเกี่ยวกับ Data Wrangler ในส่วน Data Wrangler ของเอกสารนี้
การทดลองและการสร้างแบบจําลอง ML
ด้วยเครื่องมือเช่น PySpark/Python, SparklyR/R ทําให้สมุดบันทึกสามารถจัดการการฝึกแบบจําลองการเรียนรู้ของเครื่องได้
อัลกอริทึมและไลบรารี ML สามารถช่วยฝึกแบบจําลองการเรียนรู้ของเครื่อง เครื่องมือการจัดการไลบรารีสามารถติดตั้งไลบรารีและอัลกอริทึมเหล่านี้ได้ ดังนั้นผู้ใช้จึงมีตัวเลือกในการใช้ประโยชน์จากไลบรารีการเรียนรู้ของเครื่องที่ได้รับความนิยมจํานวนมากเพื่อเสร็จสิ้นการฝึกอบรมแบบจําลอง ML ใน Microsoft Fabric
นอกจากนี้ไลบรารียอดนิยมเช่น Scikit Learn ยังสามารถพัฒนาแบบจําลองได้
การทดลองและการทํางาน MLflow สามารถติดตามการฝึกแบบจําลอง ML ได้ Microsoft Fabric มอบประสบการณ์ MLflow ในตัวที่ผู้ใช้สามารถโต้ตอบได้เพื่อบันทึกการทดลองและแบบจําลอง เรียนรู้เพิ่มเติมเกี่ยวกับวิธีการใช้ MLflow เพื่อติดตามการทดลองและจัดการแบบจําลองใน Microsoft Fabric
SynapseML
ไลบรารีแบบโอเพนซอร์ส SynapseML (ก่อนหน้านี้เรียกว่า MMLSpark) ที่ Microsoft เป็นเจ้าของและบํารุงรักษา ทําให้การสร้างไปป์ไลน์การเรียนรู้ของเครื่องที่ปรับขนาดได้กว้างขวางง่ายขึ้น ในฐานะที่เป็นระบบนิเวศของเครื่องมือ การดําเนินการจะขยายเฟรมเวิร์ก Apache Spark ในหลายทิศทางใหม่ SynapseML จะรวมเฟรมเวิร์กการเรียนรู้ของเครื่องที่มีอยู่หลายรายการและอัลกอริทึม Microsoft ใหม่ลงใน API เดียวที่ปรับขนาดได้ ไลบรารี SynapseML แบบโอเพนซอร์สประกอบด้วยระบบนิเวศที่สมบูรณ์ของเครื่องมือ ML สําหรับการพัฒนาแบบจําลองคาดการณ์เช่นเดียวกับการใช้ประโยชน์จากแบบจําลอง AI ที่ได้รับการฝึกไว้ล่วงหน้าจากบริการ Azure AI เรียนรู้เพิ่มเติมเกี่ยวกับ SynapseML
เสริมสร้างและดําเนินการ
สมุดบันทึกสามารถจัดการการให้คะแนนชุดแบบจําลองการเรียนรู้ของเครื่องด้วยไลบรารีโอเพนซอร์สสําหรับการคาดการณ์หรือฟังก์ชัน Microsoft Fabric ที่ปรับขนาดได้สําหรับ Spark Predict สากลซึ่งสนับสนุนแบบจําลองแพคเกจ MLflow ในรีจิสทรีแบบจําลอง Microsoft Fabric
รับข้อมูลเชิงลึก
ใน Microsoft Fabric สามารถเขียนค่าที่คาดการณ์ไปยัง OneLake และใช้งานอย่างราบรื่นจากรายงาน Power BI ด้วยโหมด Power BI Direct Lake ซึ่งทําให้ง่ายมากสําหรับผู้ปฏิบัติงานด้านวิทยาศาสตร์ข้อมูลในการแชร์ผลลัพธ์จากงานของพวกเขากับผู้เกี่ยวข้อง และยังลดความยุ่งยากในการดําเนินงานอีกด้วย
สมุดบันทึกที่มีการให้คะแนนเป็นกลุ่มสามารถจัดกําหนดการให้ทํางานโดยใช้ความสามารถในการจัดกําหนดการสมุดบันทึก การให้คะแนนเป็นกลุ่มยังสามารถกําหนดเวลาเป็นส่วนหนึ่งของกิจกรรมไปป์ไลน์ข้อมูลหรืองาน Spark Power BI รับการคาดการณ์ล่าสุดโดยอัตโนมัติโดยไม่จําเป็นต้องโหลดหรือรีเฟรชข้อมูล ด้วยโหมด Direct lake ใน Microsoft Fabric
การสํารวจข้อมูลด้วยลิงก์ความหมาย (ตัวอย่าง)
สำคัญ
คุณลักษณะนี้อยู่ในตัวอย่าง
นักวิทยาศาสตร์ข้อมูลและนักวิเคราะห์ธุรกิจใช้เวลาจํานวนมากในการพยายามทําความเข้าใจ ทําความสะอาด และแปลงข้อมูลก่อนที่จะสามารถเริ่มการวิเคราะห์ที่มีความหมาย โดยทั่วไปนักวิเคราะห์ธุรกิจจะทํางานกับแบบจําลองความหมายและเข้ารหัสความรู้โดเมนและตรรกะทางธุรกิจเป็นหน่วยวัด Power BI ในทางกลับกัน นักวิทยาศาสตร์ข้อมูลสามารถทํางานกับข้อมูลเดียวกันได้ แต่โดยทั่วไปแล้วจะอยู่ในสภาพแวดล้อมหรือภาษาของโค้ดที่แตกต่างกัน
การเชื่อมโยงเชิงความหมาย (ตัวอย่าง) ช่วยให้นักวิทยาศาสตร์ข้อมูลสามารถสร้างการเชื่อมต่อระหว่างแบบจําลองความหมายของ Power BI และประสบการณ์ Synapse Data Science ใน Microsoft Fabric ผ่าน ไลบรารี SemPy Python SemPy ทําให้การวิเคราะห์ข้อมูลง่ายขึ้นโดยการจับและใช้ประโยชน์จากความหมายข้อมูลเนื่องจากผู้ใช้ดําเนินการแปลงต่าง ๆ บนแบบจําลองความหมาย นักวิทยาศาสตร์ข้อมูลสามารถ:
- หลีกเลี่ยงความจําเป็นในการใช้ตรรกะทางธุรกิจและความรู้โดเมนในโค้ดของพวกเขาอีกครั้ง
- เข้าถึงและใช้หน่วยวัด Power BI ในโค้ดได้อย่างง่ายดาย
- ใช้ตรรกะเพื่อเสริมสร้างประสบการณ์การใช้งานใหม่ เช่น ฟังก์ชันความหมาย
- สํารวจและตรวจสอบการขึ้นต่อกันของฟังก์ชันการทํางานและความสัมพันธ์ระหว่างข้อมูล
ด้วยการใช้ SemPy องค์กรสามารถคาดหวังที่จะเห็น:
- ผลผลิตที่เพิ่มขึ้นและการทํางานร่วมกันได้เร็วขึ้นทั่วทั้งทีมที่ทํางานบนชุดข้อมูลเดียวกัน
- การทํางานร่วมกันข้ามระหว่างทีมข่าวกรองธุรกิจและทีม AI เพิ่มขึ้น
- ลดความกํากวมและเส้นโค้งการเรียนรู้ที่ง่ายขึ้นเมื่อเข้าร่วมกับแบบจําลองหรือชุดข้อมูลใหม่
สําหรับข้อมูลเพิ่มเติมเกี่ยวกับลิงก์ความหมาย ให้ดู ลิงก์ความหมาย (ตัวอย่าง) คืออะไร
เนื้อหาที่เกี่ยวข้อง
- เริ่มต้นใช้งานตัวอย่างวิทยาศาสตร์ข้อมูลแบบ end-to-end ดู บทช่วยสอนวิทยาศาสตร์ข้อมูล
- เรียนรู้เพิ่มเติมเกี่ยวกับการเตรียมข้อมูลและทําความสะอาดด้วย Data Wrangler ดู Data Wrangler
- เรียนรู้เพิ่มเติมเกี่ยวกับการติดตามการทดลอง ดู การทดสอบการเรียนรู้ของเครื่อง
- เรียนรู้เพิ่มเติมเกี่ยวกับการจัดการแบบจําลอง ดู แบบจําลองการเรียนรู้ของเครื่อง
- เรียนรู้เพิ่มเติมเกี่ยวกับการให้คะแนนแบบกลุ่มด้วยการทํานาย ดู ที่แบบจําลองคะแนนด้วยการทํานาย
- รองรับการคาดการณ์จากเลคเฮ้าส์ไปยัง Power BI ด้วย โหมด Direct lake