วิทยาศาสตร์ข้อมูลใน Microsoft Fabric คืออะไร

สําหรับการเสริมสร้างข้อมูลและข้อมูลเชิงลึกทางธุรกิจ Microsoft Fabric มอบประสบการณ์ด้านวิทยาศาสตร์ข้อมูลที่ช่วยให้ผู้ใช้สร้างเวิร์กโฟลว์วิทยาศาสตร์ข้อมูลแบบครบวงจรได้ ปริมาณงานวิทยาศาสตร์ข้อมูลทํางานโดยตรงกับข้อมูลองค์กรที่มีการควบคุมใน OneLake ดังนั้นคุณจึงสามารถเข้าถึงชุดข้อมูลที่ดูแลจัดการ ข้อมูลที่แชร์ และการคาดการณ์โดยไม่ต้องย้ายข้อมูลระหว่างระบบ เมื่อต้องการเริ่มต้นใช้งาน โปรดดูบทช่วยสอนแบบครบวงจรของวิทยาศาสตร์ข้อมูล

คุณสามารถทํากิจกรรมที่หลากหลายได้ตลอดกระบวนการวิทยาศาสตร์ข้อมูลทั้งหมด:

ผู้ใช้ Microsoft Fabric สามารถเข้าถึงหน้าแรกของวิทยาศาสตร์ข้อมูลได้ จากนั้น พวกเขาจึงสามารถค้นหาและเข้าถึงแหล่งข้อมูลต่าง ๆ ที่เกี่ยวข้องดังที่แสดงในภาพหน้าจอต่อไปนี้:

โครงการการเรียนรู้ของเครื่องส่วนใหญ่เป็นไปตามกระบวนการวิทยาศาสตร์ข้อมูล ในระดับสูง กระบวนการนั้นเกี่ยวข้องกับขั้นตอนเหล่านี้:

บทความนี้อธิบายความสามารถของ Microsoft Fabric Data Science จากมุมมองของกระบวนการวิทยาศาสตร์ข้อมูล สําหรับแต่ละขั้นตอนในกระบวนการวิทยาศาสตร์ข้อมูล บทความนี้สรุปความสามารถของ Microsoft Fabric ที่สามารถช่วยได้

สูตรและความคิดที่มีปัญหา

ผู้ใช้วิทยาศาสตร์ข้อมูลใน Microsoft Fabric ทํางานบนแพลตฟอร์มเดียวกันกับผู้ใช้ทางธุรกิจและนักวิเคราะห์ ดังนั้นการแชร์ข้อมูลและการทํางานร่วมกันจะราบรื่นมากขึ้นในบทบาทต่าง ๆ นักวิเคราะห์สามารถแชร์รายงาน Power BI และชุดข้อมูลกับผู้ฝึกสอนด้านวิทยาศาสตร์ข้อมูลได้อย่างง่ายดาย ความสะดวกในการทํางานร่วมกันข้ามบทบาทใน Microsoft Fabric ทําให้การแฮนด์ออฟในระหว่างขั้นตอนการกําหนดปัญหาง่ายขึ้น การแชร์ข้อมูลข้ามผู้เช่าใน OneLake ช่วยให้สามารถทํางานร่วมกันได้หลายองค์กร ทําให้ทีมวิทยาศาสตร์ข้อมูลสามารถเข้าถึงชุดข้อมูลที่มีการควบคุมที่แชร์โดยคู่ค้าภายนอกหรือบริษัทในเครือ

การค้นหาข้อมูลและการประมวลผลล่วงหน้า

ผู้ใช้ Microsoft Fabric สามารถโต้ตอบกับข้อมูลใน OneLake ได้โดยใช้ทรัพยากร Lakehouse หากต้องการเรียกดูและโต้ตอบกับข้อมูล Lakehouse จะแนบไปกับสมุดบันทึกได้อย่างง่ายดาย ผู้ใช้สามารถอ่านข้อมูลจากเลคเฮ้าส์ลงในกรอบข้อมูล Pandas ได้โดยตรง สําหรับการสํารวจ ข้อมูลที่ไร้รอยต่ออ่านจาก OneLake จากนั้นก็เป็นไปได้

ทางลัด OneLake ขยายความสามารถนี้โดยให้การเข้าถึงข้อมูลที่จัดเก็บไว้ในระบบภายนอกหรือแชร์จากพื้นที่ทํางานและผู้เช่า Fabric อื่นๆ โดยไม่ต้องคัดลอก คุณสามารถแนบทางลัดไปยังเลคเฮาส์และอ่านข้อมูลที่อ้างอิงในสมุดบันทึกได้โดยไม่ต้องทําซ้ําหรือ ETL

มีชุดเครื่องมือที่มีประสิทธิภาพสําหรับการนําเข้าข้อมูลและไปป์ไลน์การเรียงลําดับข้อมูลด้วยไปป์ไลน์การรวมข้อมูล - ส่วนรวมแบบเนทีฟของ Microsoft Fabric ไปป์ไลน์ที่สร้างได้ง่ายสามารถเข้าถึงและแปลงข้อมูลให้เป็นรูปแบบที่แมชชีนเลิร์นนิงสามารถใช้ได้

การสํารวจข้อมูล

ส่วนสําคัญของกระบวนการเรียนรู้ของเครื่องเกี่ยวข้องกับการทําความเข้าใจข้อมูลผ่านการสํารวจและการแสดงภาพ

Microsoft Fabric มีเครื่องมือในการสํารวจและเตรียมข้อมูลสําหรับการวิเคราะห์และการเรียนรู้ของเครื่อง ทั้งนี้ขึ้นอยู่กับตําแหน่งที่เก็บข้อมูล สมุดบันทึกกลายเป็นเครื่องมือการสํารวจข้อมูลที่มีประสิทธิภาพและมีประสิทธิภาพ

Apache Spark และ Python สําหรับการเตรียมข้อมูล

Microsoft Fabric สามารถแปลง เตรียมการ และสํารวจข้อมูลของคุณตามขนาด ด้วย Spark ผู้ใช้สามารถใช้เครื่องมือ PySpark/Python, Scala และ SparkR/SparklyR เพื่อประมวลผลข้อมูลล่วงหน้าในระดับมาตราส่วนได้ ไลบรารีการแสดงภาพข้อมูลโอเพนซอร์สที่มีประสิทธิภาพสามารถเพิ่มประสบการณ์การสํารวจข้อมูลเพื่อความเข้าใจข้อมูลที่ดีขึ้น

Data Wrangler สําหรับการทําความสะอาดข้อมูลที่ราบรื่น

หากต้องการใช้ Data Wrangler ประสบการณ์การใช้งาน Microsoft Fabric Notebook ได้เพิ่มคุณลักษณะเครื่องมือโค้ดที่เตรียมข้อมูลและสร้างรหัส Python ประสบการณ์นี้ทําให้ง่ายต่อการเร่งงานที่น่าเบื่อและยุ่งยาก เช่น การทําความสะอาดข้อมูล นอกจากนี้ คุณยังสามารถสร้างการทํางานอัตโนมัติและการทําซ้ําผ่านโค้ดที่สร้างขึ้นได้ด้วย เรียนรู้เพิ่มเติมเกี่ยวกับ Data Wrangler ในส่วน Data Wrangler ของเอกสารนี้

การทดลองและการสร้างแบบจําลอง ML

ด้วยเครื่องมือเช่น PySpark/Python และ SparklyR/R สมุดบันทึกสามารถจัดการการฝึกแบบจําลองการเรียนรู้ของเครื่องได้ อัลกอริทึมการเรียนรู้ของเครื่องและไลบรารีสามารถช่วยฝึกแบบจําลองการเรียนรู้ของเครื่องได้ เครื่องมือการจัดการไลบรารีสามารถติดตั้งไลบรารีและอัลกอริทึมเหล่านี้ได้ ผู้ใช้สามารถใช้ไลบรารีการเรียนรู้ของเครื่องที่ได้รับความนิยมเพื่อเสร็จสิ้นการฝึกอบรมแบบจําลอง ML ใน Microsoft Fabric นอกจากนี้ไลบรารียอดนิยมเช่น Scikit Learn ยังสามารถพัฒนาแบบจําลองได้

การทดลองและการทํางาน MLflow สามารถติดตามการฝึกแบบจําลอง ML ได้ เพื่อบันทึกการทดลองและแบบจําลอง Microsoft Fabric มอบประสบการณ์ MLflow ในตัวที่สนับสนุนการโต้ตอบ เรียนรู้เพิ่มเติมเกี่ยวกับวิธีใช้ MLflow เพื่อติดตามการทดลองและจัดการแบบจําลองใน Microsoft Fabric

SynapseML

Microsoft เป็นเจ้าของและดําเนินการไลบรารีโอเพ่นซอร์ส SynapseML (เดิมชื่อ MMLSpark) ช่วยลดความยุ่งยากในการสร้างไปป์ไลน์แมชชีนเลิร์นนิงที่ปรับขนาดได้มหาศาล ในฐานะที่เป็นระบบนิเวศของเครื่องมือ การดําเนินการจะขยายเฟรมเวิร์ก Apache Spark ในหลายทิศทางใหม่ SynapseML รวมเฟรมเวิร์กแมชชีนเลิร์นนิงที่มีอยู่หลายเฟรมเวิร์กและอัลกอริทึมใหม่ของ Microsoft ไว้ใน API เดียวที่ปรับขนาดได้ ไลบรารี SynapseML แบบโอเพ่นซอร์สประกอบด้วยระบบนิเวศที่หลากหลายของเครื่องมือ ML สําหรับการพัฒนาโมเดลเชิงคาดการณ์ และใช้โมเดล AI ที่ผ่านการฝึกอบรมล่วงหน้าจาก Foundry Tools สําหรับข้อมูลเพิ่มเติม โปรดเยี่ยมชมทรัพยากร SynapseML

เสริมสร้างและดําเนินการ

สมุดบันทึกสามารถจัดการการให้คะแนนแบบจําลองการเรียนรู้ของเครื่องด้วยไลบรารีโอเพนซอร์สสําหรับการคาดการณ์ พวกเขายังสามารถจัดการกับฟังก์ชันการคาดการณ์ Spark แบบสากลที่ปรับขนาดได้ของ Microsoft Fabric ฟังก์ชันนี้สนับสนุนแบบจําลองแพคเกจ MLflow ในรีจิสทรีแบบจําลอง Microsoft Fabric

รับข้อมูลเชิงลึก

ใน Microsoft Fabric คุณสามารถเขียนค่าที่คาดการณ์ไปยัง OneLake ได้อย่างง่ายดาย จากที่นั่น รายงาน Power BI สามารถใช้รายงานเหล่านั้นได้อย่างราบรื่นด้วยโหมด Power BI Direct Lake ซึ่งจะอ่านข้อมูลโดยตรงจาก OneLake โดยไม่ต้องคัดลอกลงในแบบจําลองความหมาย รูปแบบการเข้าถึงแบบไม่ต้องคัดลอกนี้ช่วยให้การคาดการณ์เป็นปัจจุบันอยู่เสมอและกําจัดการเคลื่อนย้ายข้อมูลที่ซ้ําซ้อน ผู้ปฏิบัติงานด้านวิทยาศาสตร์ข้อมูลสามารถแบ่งปันผลงานกับผู้มีส่วนได้ส่วนเสียได้อย่างง่ายดาย และทําให้การดําเนินงานง่ายขึ้น

คุณสามารถใช้ฟีเจอร์การกําหนดตารางเวลาของสมุดบันทึกเพื่อกําหนดเวลาการเรียกใช้สมุดบันทึกที่มีการให้คะแนนกลุ่ม คุณยังสามารถจัดกําหนดการการให้คะแนนชุดงานเป็นส่วนหนึ่งของกิจกรรมไปป์ไลน์หรืองาน Spark ได้อีกด้วย ด้วยโหมด Direct lake ใน Microsoft Fabric, Power BI จะได้รับการคาดการณ์ล่าสุดโดยอัตโนมัติโดยไม่จําเป็นต้องโหลดข้อมูลหรือรีเฟรช

การสํารวจข้อมูลด้วยลิงก์ความหมาย

นักวิทยาศาสตร์ข้อมูลและนักวิเคราะห์ธุรกิจใช้เวลาจํานวนมากในการพยายามทําความเข้าใจ ทําความสะอาด และแปลงข้อมูลก่อนที่การวิเคราะห์ที่มีความหมายจะเริ่มขึ้น โดยทั่วไปแล้วนักวิเคราะห์ธุรกิจจะทํางานกับแบบจําลองความหมายและเข้ารหัสความรู้โดเมนและตรรกะทางธุรกิจลงในหน่วยวัด Power BI ในทางกลับกัน นักวิทยาศาสตร์ข้อมูลสามารถทํางานกับข้อมูลเดียวกันได้ แต่โดยทั่วไปจะใช้สภาพแวดล้อมหรือภาษาของโค้ดที่แตกต่างกัน ด้วยการเชื่อมโยงเชิงความหมาย นักวิทยาศาสตร์ข้อมูลสามารถสร้างการเชื่อมต่อระหว่างแบบจําลองความหมายของ Power BI และวิทยาศาสตร์ข้อมูล Synapse ในประสบการณ์ Microsoft Fabric ผ่านไลบรารี SemPy Python เพื่อลดความซับซ้อนของการวิเคราะห์ข้อมูล SemPy จะจับและใช้ตรรกะข้อมูลเนื่องจากผู้ใช้ทําการแปลงต่าง ๆ บนแบบจําลองความหมาย เมื่อนักวิทยาศาสตร์ข้อมูลใช้ลิงก์เชิงความหมาย พวกเขาสามารถ

หลีกเลี่ยงการเติมตรรกะทางธุรกิจและความรู้โดเมนในโค้ดของตน
เข้าถึงและใช้หน่วยวัด Power BI ในโค้ดได้อย่างง่ายดาย
ใช้ตรรกะเพื่อยกระดับประสบการณ์การใช้งานใหม่ - ตัวอย่างเช่น ฟังก์ชันความหมาย
สํารวจและตรวจสอบการขึ้นต่อกันของฟังก์ชันการทํางานและความสัมพันธ์ระหว่างข้อมูล

เมื่อองค์กรใช้ SemPy พวกเขาสามารถคาดหวังได้

ผลผลิตที่เพิ่มขึ้นและการทํางานร่วมกันได้เร็วขึ้นทั่วทั้งทีมที่ทํางานบนชุดข้อมูลเดียวกัน
การทํางานร่วมกันข้ามระหว่างทีมข่าวกรองธุรกิจและทีม AI เพิ่มขึ้น
ลดความกํากวมและเส้นโค้งการเรียนรู้ที่ง่ายขึ้นเมื่อออนบอร์ดไปยังแบบจําลองหรือชุดข้อมูลใหม่

สําหรับข้อมูลเพิ่มเติมเกี่ยวกับการเชื่อมโยงความหมาย โปรดดู การเชื่อมโยงความหมายคืออะไร

เยี่ยมชม บทช่วยสอนวิทยาศาสตร์ข้อมูล เพื่อเริ่มต้นใช้งานตัวอย่างวิทยาศาสตร์ข้อมูลแบบครบวงจร
เยี่ยมชม Data Wrangler สําหรับข้อมูลเพิ่มเติมเกี่ยวกับการเตรียมข้อมูลและการทําความสะอาดด้วย Data Wrangler
เยี่ยมชม การทดสอบการเรียนรู้ของเครื่อง เพื่อเรียนรู้เพิ่มเติมเกี่ยวกับการติดตามการทดลอง
เยี่ยมชม แบบจําลองการเรียนรู้ของเครื่อง เพื่อเรียนรู้เพิ่มเติมเกี่ยวกับการจัดการแบบจําลอง
เยี่ยมชม แบบจําลองคะแนนที่มีการทํานาย เพื่อเรียนรู้เพิ่มเติมเกี่ยวกับการให้คะแนนชุดด้วยการทํานาย
ให้บริการการคาดการณ์ Lakehouse ไปยัง Power BI ด้วย Direct Lake

คำติชม

หน้านี้มีประโยชน์หรือไม่

Last updated on 2026-03-31