แชร์ผ่าน


ฝึกแบบจําลองการเรียนรู้ของเครื่อง

Apache Spark ซึ่งเป็นส่วนหนึ่งของ Microsoft Fabric ช่วยให้แมชชีนเลิร์นนิงในวงกว้าง ใช้เพื่อรับข้อมูลเชิงลึกจากข้อมูลที่มีโครงสร้าง ไม่มีโครงสร้าง และสตรีมมิ่งจํานวนมาก ฝึกโมเดลใน Microsoft Fabric ด้วยไลบรารีโอเพนซอร์ส เช่น Apache Spark MLlib, SynapseML และอื่นๆ

Apache SparkML และ MLlib

Apache Spark ซึ่งเป็นส่วนหนึ่งของ Microsoft Fabric เป็นเฟรมเวิร์กการประมวลผลข้อมูลแบบขนานแบบโอเพนซอร์สแบบรวม ใช้การประมวลผลในหน่วยความจําเพื่อเพิ่มความเร็วในการวิเคราะห์ข้อมูลขนาดใหญ่ Spark สร้างขึ้นเพื่อความเร็ว ใช้งานง่าย และการวิเคราะห์ขั้นสูง การคํานวณแบบกระจายในหน่วยความจําของ Spark เหมาะกับการเรียนรู้ของเครื่องและอัลกอริธึมกราฟแบบวนซ้ํา

ไลบรารีการเรียนรู้ของ เครื่องที่ปรับขนาดได้ของ MLlib และ SparkML นําความสามารถในการสร้างแบบจําลองอัลกอริทึมมาสู่สภาพแวดล้อมแบบกระจายนี้ MLlib มี API ที่ใช้ RDD ดั้งเดิม SparkML เป็นแพ็คเกจที่ใหม่กว่าซึ่งมี API ที่ใช้ DataFrame ระดับสูงสําหรับการสร้างไปป์ไลน์ ML ซึ่งมี API ระดับสูงที่สร้างขึ้นที่ด้านบนของ DataFrames สําหรับการสร้างไปป์ไลน์ ML SparkML ยังไม่รองรับคุณสมบัติ MLlib ทั้งหมด แต่กําลังแทนที่ MLlib เป็นไลบรารีแมชชีนเลิร์นนิง Spark มาตรฐาน

หมายเหตุ

เรียนรู้เพิ่มเติมใน ฝึกโมเดลด้วย Apache Spark MLlib

รันไทม์ Microsoft Fabric สําหรับ Apache Spark มีแพ็คเกจโอเพนซอร์สยอดนิยมหลายแพ็คเกจสําหรับการฝึกอบรมโมเดลแมชชีนเลิร์นนิ่ง ไลบรารีเหล่านี้มีโค้ดที่นํากลับมาใช้ใหม่ได้สําหรับโครงการของคุณ รันไทม์ประกอบด้วยไลบรารีแมชชีนเลิร์นนิงเหล่านี้:

  • Scikit-learn - ไลบรารีโหนดเดียวยอดนิยมสําหรับอัลกอริธึมการเรียนรู้ของเครื่องแบบคลาสสิก รองรับอัลกอริทึมที่มีการดูแลและไม่ได้รับการดูแลส่วนใหญ่ และจัดการการทําเหมืองข้อมูลและการวิเคราะห์ข้อมูล

  • XGBoost - ห้องสมุดยอดนิยมพร้อมอัลกอริทึมที่ปรับให้เหมาะสมสําหรับแผนผังการตัดสินใจในการฝึกอบรมและป่าสุ่ม

  • PyTorch และ Tensorflow เป็นไลบรารีการเรียนรู้เชิงลึกของ Python ที่มีประสิทธิภาพ ด้วยไลบรารีเหล่านี้ คุณสามารถตั้งค่าจํานวนผู้ปฏิบัติการบนพูลของคุณเป็นศูนย์เพื่อสร้างแบบจําลองแบบเครื่องเดียวได้ แม้ว่าการกําหนดค่านั้นจะไม่สนับสนุน Apache Spark แต่ก็เป็นวิธีที่ง่ายและคุ้มค่าในการสร้างแบบจําลองเครื่องเดียว

SynapseML

ไลบรารีโอเพนซอร์ส SynapseML (ก่อนหน้านี้เรียกว่า MMLSpark) ช่วยให้คุณสร้างไปป์ไลน์แมชชีนเลิร์นนิง (ML) ที่ปรับขนาดได้ ช่วยเพิ่มความเร็วในการทดลองและให้คุณใช้เทคนิคขั้นสูง รวมถึงการเรียนรู้เชิงลึก กับชุดข้อมูลขนาดใหญ่

SynapseML มีเลเยอร์เหนือ API ระดับต่ําของ SparkML เมื่อสร้างแบบจําลอง ML ที่ปรับขนาดได้ API เหล่านี้ทําดัชนีสตริง แอสเซมบลีเวกเตอร์คุณลักษณะ การแปลงข้อมูลเป็นเค้าโครงที่เหมาะสมสําหรับอัลกอริทึมการเรียนรู้ของเครื่อง และอื่น ๆ ไลบรารี SynapseML ช่วยลดความซับซ้อนเหล่านี้และงานทั่วไปอื่น ๆ สําหรับการสร้างแบบจําลองใน PySpark

สํารวจตัวเลือกสําหรับการฝึกอบรมโมเดลแมชชีนเลิร์นนิ่งใน Apache Spark ใน Microsoft Fabric สำหรับข้อมูลเพิ่มเติม โปรดดู: