วิทยาศาสตร์ข้อมูลใน Microsoft Fabric คืออะไร

บทความ
11/15/2023

Microsoft Fabric มอบประสบการณ์ด้านวิทยาศาสตร์ข้อมูลเพื่อสนับสนุนให้ผู้ใช้ดําเนินการเวิร์กโฟลว์วิทยาศาสตร์ข้อมูลแบบ end-to-end ให้เสร็จสมบูรณ์เพื่อวัตถุประสงค์เพื่อการเสริมสร้างข้อมูลและข้อมูลเชิงลึกทางธุรกิจ คุณสามารถทํากิจกรรมที่หลากหลายได้ตลอดกระบวนการวิทยาศาสตร์ข้อมูลทั้งหมดตั้งแต่การสํารวจข้อมูล การเตรียมการและทําความสะอาดไปจนถึงการทดลอง การวางรูปแบบ การให้คะแนนแบบจําลอง และการให้บริการข้อมูลเชิงลึกเชิงทํานายไปยังรายงาน BI

ผู้ใช้ Microsoft Fabric สามารถเข้าถึงหน้าแรกของวิทยาศาสตร์ข้อมูลได้ จากจุดนั้น พวกเขาสามารถค้นหาและเข้าถึงแหล่งข้อมูลต่าง ๆ ที่เกี่ยวข้อง ตัวอย่างเช่น พวกเขาสามารถสร้างการทดลองการเรียนรู้ของเครื่อง แบบจําลอง และสมุดบันทึกได้ นอกจากนี้ พวกเขายังสามารถนําเข้าสมุดบันทึกที่มีอยู่ในหน้าแรกของวิทยาศาสตร์ข้อมูลได้อีกด้วย

คุณอาจทราบวิธีการทํางานของกระบวนการวิทยาศาสตร์ข้อมูลทั่วไป เช่นเดียวกับกระบวนการที่เป็นที่รู้จักกันดี โครงการการเรียนรู้ของเครื่องส่วนใหญ่จะติดตามไปด้วย

ในระดับสูง กระบวนการเกี่ยวข้องกับขั้นตอนเหล่านี้:

สูตรและความคิดที่มีปัญหา
การค้นพบข้อมูลและการประมวลผลล่วงหน้า
การทดลองและการวางรูปแบบ
เสริมสร้างและดําเนินการ
รับข้อมูลเชิงลึก

บทความนี้อธิบายความสามารถของ Microsoft Fabric Data Science จากมุมมองของกระบวนการวิทยาศาสตร์ข้อมูล สําหรับแต่ละขั้นตอนในกระบวนการวิทยาศาสตร์ข้อมูล บทความนี้สรุปความสามารถของ Microsoft Fabric ที่สามารถช่วยได้

สูตรและความคิดที่มีปัญหา

ผู้ใช้วิทยาศาสตร์ข้อมูลใน Microsoft Fabric ทํางานบนแพลตฟอร์มเดียวกันกับผู้ใช้ทางธุรกิจและนักวิเคราะห์ ดังนั้นการแชร์ข้อมูลและการทํางานร่วมกันจะราบรื่นมากขึ้นในบทบาทต่าง ๆ นักวิเคราะห์สามารถแชร์รายงาน Power BI และชุดข้อมูลกับผู้ฝึกสอนด้านวิทยาศาสตร์ข้อมูลได้อย่างง่ายดาย ความสะดวกในการทํางานร่วมกันข้ามบทบาทใน Microsoft Fabric ทําให้การแฮนด์ออฟในระหว่างขั้นตอนการกําหนดปัญหาง่ายขึ้นมาก

การค้นพบข้อมูลและการประมวลผลล่วงหน้า

ผู้ใช้ Microsoft Fabric สามารถโต้ตอบกับข้อมูลใน OneLake ได้โดยใช้รายการ Lakehouse Lakehouse แนบไปกับสมุดบันทึกเพื่อเรียกดูและโต้ตอบกับข้อมูลได้อย่างง่ายดาย

ผู้ใช้สามารถอ่านข้อมูลจากเลคเฮ้าส์ลงในกรอบข้อมูล Pandas ได้โดยตรง สําหรับการสํารวจ ทําให้สามารถอ่านข้อมูลจาก OneLake ได้อย่างราบรื่น

มีชุดเครื่องมือที่มีประสิทธิภาพสําหรับการนําเข้าข้อมูลและไปป์ไลน์การเรียงลําดับข้อมูลด้วยไปป์ไลน์การรวมข้อมูล - ส่วนรวมแบบเนทีฟของ Microsoft Fabric ไปป์ไลน์ข้อมูลที่ง่ายต่อการสร้างสามารถเข้าถึงและแปลงข้อมูลเป็นรูปแบบที่การเรียนรู้ของเครื่องสามารถใช้ได้

การสํารวจข้อมูล

ส่วนสําคัญของกระบวนการเรียนรู้ของเครื่องคือการทําความเข้าใจข้อมูลผ่านการสํารวจและการแสดงภาพ

Microsoft Fabric มีชุดเครื่องมือต่าง ๆ เพื่อสํารวจและเตรียมข้อมูลสําหรับการวิเคราะห์และการเรียนรู้ของเครื่อง ทั้งนี้ขึ้นอยู่กับตําแหน่งที่เก็บข้อมูล สมุดบันทึกกลายเป็นหนึ่งในวิธีที่รวดเร็วที่สุดในการเริ่มต้นใช้งานการสํารวจข้อมูล

Apache Spark และ Python สําหรับการเตรียมข้อมูล

Microsoft Fabric มีความสามารถในการแปลง เตรียมพร้อม และสํารวจข้อมูลของคุณตามขนาด ด้วย Spark ผู้ใช้สามารถใช้ประโยชน์จากเครื่องมือ PySpark/Python, Scala และ SparkR/SparklyR สําหรับการประมวลผลข้อมูลล่วงหน้าในระดับมาตราส่วนได้ ไลบรารีการแสดงภาพข้อมูลโอเพนซอร์สที่มีประสิทธิภาพสามารถปรับปรุงประสบการณ์การสํารวจข้อมูลเพื่อช่วยให้เข้าใจข้อมูลได้ดียิ่งขึ้น

Data Wrangler สําหรับการทําความสะอาดข้อมูลที่ราบรื่น

ประสบการณ์การใช้งาน Microsoft Fabric Notebook เพิ่มคุณลักษณะในการใช้ Data Wrangler ซึ่งเป็นเครื่องมือโค้ดที่เตรียมข้อมูลและสร้างรหัส Python ประสบการณ์นี้ทําให้ง่ายต่อการเร่งงานที่น่าเบื่อและยุ่งยาก เช่น การล้างข้อมูล และสร้างความสามารถในการทําซ้ําและระบบอัตโนมัติผ่านโค้ดที่สร้างขึ้น เรียนรู้เพิ่มเติมเกี่ยวกับ Data Wrangler ในส่วน Data Wrangler ของเอกสารนี้

การทดลองและการสร้างแบบจําลอง ML

ด้วยเครื่องมือเช่น PySpark/Python, SparklyR/R ทําให้สมุดบันทึกสามารถจัดการการฝึกแบบจําลองการเรียนรู้ของเครื่องได้

อัลกอริทึมและไลบรารี ML สามารถช่วยฝึกแบบจําลองการเรียนรู้ของเครื่อง เครื่องมือการจัดการไลบรารีสามารถติดตั้งไลบรารีและอัลกอริทึมเหล่านี้ได้ ดังนั้นผู้ใช้จึงมีตัวเลือกในการใช้ประโยชน์จากไลบรารีการเรียนรู้ของเครื่องที่ได้รับความนิยมจํานวนมากเพื่อเสร็จสิ้นการฝึกอบรมแบบจําลอง ML ใน Microsoft Fabric

นอกจากนี้ไลบรารียอดนิยมเช่น Scikit Learn ยังสามารถพัฒนาแบบจําลองได้

การทดลองและการทํางาน MLflow สามารถติดตามการฝึกแบบจําลอง ML ได้ Microsoft Fabric มอบประสบการณ์ MLflow ในตัวที่ผู้ใช้สามารถโต้ตอบได้เพื่อบันทึกการทดลองและแบบจําลอง เรียนรู้เพิ่มเติมเกี่ยวกับวิธีการใช้ MLflow เพื่อติดตามการทดลองและจัดการแบบจําลองใน Microsoft Fabric

SynapseML

ไลบรารีแบบโอเพนซอร์ส SynapseML (ก่อนหน้านี้เรียกว่า MMLSpark) ที่ Microsoft เป็นเจ้าของและบํารุงรักษา ทําให้การสร้างไปป์ไลน์การเรียนรู้ของเครื่องที่ปรับขนาดได้กว้างขวางง่ายขึ้น ในฐานะที่เป็นระบบนิเวศของเครื่องมือ การดําเนินการจะขยายเฟรมเวิร์ก Apache Spark ในหลายทิศทางใหม่ SynapseML จะรวมเฟรมเวิร์กการเรียนรู้ของเครื่องที่มีอยู่หลายรายการและอัลกอริทึม Microsoft ใหม่ลงใน API เดียวที่ปรับขนาดได้ ไลบรารี SynapseML แบบโอเพนซอร์สประกอบด้วยระบบนิเวศที่สมบูรณ์ของเครื่องมือ ML สําหรับการพัฒนาแบบจําลองคาดการณ์เช่นเดียวกับการใช้ประโยชน์จากแบบจําลอง AI ที่ได้รับการฝึกไว้ล่วงหน้าจากบริการ Azure AI เรียนรู้เพิ่มเติมเกี่ยวกับ SynapseML

เสริมสร้างและดําเนินการ

สมุดบันทึกสามารถจัดการการให้คะแนนชุดแบบจําลองการเรียนรู้ของเครื่องด้วยไลบรารีโอเพนซอร์สสําหรับการคาดการณ์หรือฟังก์ชัน Microsoft Fabric ที่ปรับขนาดได้สําหรับ Spark Predict สากลซึ่งสนับสนุนแบบจําลองแพคเกจ MLflow ในรีจิสทรีแบบจําลอง Microsoft Fabric

รับข้อมูลเชิงลึก

ใน Microsoft Fabric สามารถเขียนค่าที่คาดการณ์ไปยัง OneLake และใช้งานอย่างราบรื่นจากรายงาน Power BI ด้วยโหมด Power BI Direct Lake ซึ่งทําให้ง่ายมากสําหรับผู้ปฏิบัติงานด้านวิทยาศาสตร์ข้อมูลในการแชร์ผลลัพธ์จากงานของพวกเขากับผู้เกี่ยวข้อง และยังลดความยุ่งยากในการดําเนินงานอีกด้วย

สมุดบันทึกที่มีการให้คะแนนเป็นกลุ่มสามารถจัดกําหนดการให้ทํางานโดยใช้ความสามารถในการจัดกําหนดการสมุดบันทึก การให้คะแนนเป็นกลุ่มยังสามารถกําหนดเวลาเป็นส่วนหนึ่งของกิจกรรมไปป์ไลน์ข้อมูลหรืองาน Spark Power BI รับการคาดการณ์ล่าสุดโดยอัตโนมัติโดยไม่จําเป็นต้องโหลดหรือรีเฟรชข้อมูล ด้วยโหมด Direct lake ใน Microsoft Fabric

การสํารวจข้อมูลด้วยลิงก์ความหมาย

นักวิทยาศาสตร์ข้อมูลและนักวิเคราะห์ธุรกิจใช้เวลาจํานวนมากในการพยายามทําความเข้าใจ ทําความสะอาด และแปลงข้อมูลก่อนที่จะสามารถเริ่มการวิเคราะห์ที่มีความหมาย โดยทั่วไปนักวิเคราะห์ธุรกิจจะทํางานกับแบบจําลองความหมายและเข้ารหัสความรู้โดเมนและตรรกะทางธุรกิจเป็นหน่วยวัด Power BI ในทางกลับกัน นักวิทยาศาสตร์ข้อมูลสามารถทํางานกับข้อมูลเดียวกันได้ แต่โดยทั่วไปแล้วจะอยู่ในสภาพแวดล้อมหรือภาษาของโค้ดที่แตกต่างกัน

การเชื่อมโยงเชิงความหมายช่วยให้นักวิทยาศาสตร์ข้อมูลสามารถสร้างการเชื่อมต่อระหว่างแบบจําลองความหมายของ Power BI และวิทยาศาสตร์ข้อมูล Synapse ใน Microsoft Fabric ผ่านไลบรารี SemPy Python SemPy ทําให้การวิเคราะห์ข้อมูลง่ายขึ้นโดยการจับและใช้ประโยชน์จากความหมายข้อมูลเนื่องจากผู้ใช้ดําเนินการแปลงต่าง ๆ บนแบบจําลองความหมาย นักวิทยาศาสตร์ข้อมูลสามารถ:

หลีกเลี่ยงความจําเป็นในการใช้ตรรกะทางธุรกิจและความรู้โดเมนในโค้ดของพวกเขาอีกครั้ง
เข้าถึงและใช้หน่วยวัด Power BI ในโค้ดได้อย่างง่ายดาย
ใช้ตรรกะเพื่อเสริมสร้างประสบการณ์การใช้งานใหม่ เช่น ฟังก์ชันความหมาย
สํารวจและตรวจสอบการขึ้นต่อกันของฟังก์ชันการทํางานและความสัมพันธ์ระหว่างข้อมูล

ด้วยการใช้ SemPy องค์กรสามารถคาดหวังที่จะเห็น:

ผลผลิตที่เพิ่มขึ้นและการทํางานร่วมกันได้เร็วขึ้นทั่วทั้งทีมที่ทํางานบนชุดข้อมูลเดียวกัน
การทํางานร่วมกันข้ามระหว่างทีมข่าวกรองธุรกิจและทีม AI เพิ่มขึ้น
ลดความกํากวมและเส้นโค้งการเรียนรู้ที่ง่ายขึ้นเมื่อเข้าร่วมกับแบบจําลองหรือชุดข้อมูลใหม่

สําหรับข้อมูลเพิ่มเติมเกี่ยวกับลิงก์แสดงความหมาย โปรดดู ลิงก์ความหมายคืออะไร

เริ่มต้นใช้งานตัวอย่างวิทยาศาสตร์ข้อมูลแบบครบวงจร ดูบทช่วยสอน วิทยาศาสตร์ข้อมูล
เรียนรู้เพิ่มเติมเกี่ยวกับการเตรียมข้อมูลและทําความสะอาดด้วย Data Wrangler ดู Data Wrangler
เรียนรู้เพิ่มเติมเกี่ยวกับการติดตามการทดลอง โปรดดู การทดลอง Machine Learning
เรียนรู้เพิ่มเติมเกี่ยวกับการจัดการแบบจําลอง โปรดดู แบบจําลองการเรียนรู้ของเครื่อง
เรียนรู้เพิ่มเติมเกี่ยวกับการให้คะแนนแบบกลุ่มด้วยการทํานาย ดูที่แบบจําลองคะแนน ด้วย คาดการณ์
รองรับการคาดการณ์จาก Lakehouse ไปยัง Power BI ด้วย Direct lake Mode

แชร์ผ่าน

วิทยาศาสตร์ข้อมูลใน Microsoft Fabric คืออะไร

สูตรและความคิดที่มีปัญหา

การค้นพบข้อมูลและการประมวลผลล่วงหน้า

การสํารวจข้อมูล

Apache Spark และ Python สําหรับการเตรียมข้อมูล

Data Wrangler สําหรับการทําความสะอาดข้อมูลที่ราบรื่น

การทดลองและการสร้างแบบจําลอง ML

SynapseML

เสริมสร้างและดําเนินการ

รับข้อมูลเชิงลึก

การสํารวจข้อมูลด้วยลิงก์ความหมาย

คำติชม

แหล่งทรัพยากรเพิ่มเติม

แชร์ผ่าน

วิทยาศาสตร์ข้อมูลใน Microsoft Fabric คืออะไร

สูตรและความคิดที่มีปัญหา

การค้นพบข้อมูลและการประมวลผลล่วงหน้า

การสํารวจข้อมูล

Apache Spark และ Python สําหรับการเตรียมข้อมูล

Data Wrangler สําหรับการทําความสะอาดข้อมูลที่ราบรื่น

การทดลองและการสร้างแบบจําลอง ML

SynapseML

เสริมสร้างและดําเนินการ

รับข้อมูลเชิงลึก

การสํารวจข้อมูลด้วยลิงก์ความหมาย

เนื้อหาที่เกี่ยวข้อง

คำติชม

แหล่งทรัพยากรเพิ่มเติม