หมายเหตุ
การเข้าถึงหน้านี้ต้องได้รับการอนุญาต คุณสามารถลอง ลงชื่อเข้าใช้หรือเปลี่ยนไดเรกทอรีได้
การเข้าถึงหน้านี้ต้องได้รับการอนุญาต คุณสามารถลองเปลี่ยนไดเรกทอรีได้
Apache Spark ซึ่งเป็นส่วนหนึ่งของ Microsoft Fabric ช่วยให้แมชชีนเลิร์นนิงในวงกว้าง ใช้เพื่อรับข้อมูลเชิงลึกจากข้อมูลที่มีโครงสร้าง ไม่มีโครงสร้าง และสตรีมมิ่งจํานวนมาก ฝึกโมเดลใน Microsoft Fabric ด้วยไลบรารีโอเพนซอร์ส เช่น Apache Spark MLlib, SynapseML และอื่นๆ
Apache SparkML และ MLlib
Apache Spark ซึ่งเป็นส่วนหนึ่งของ Microsoft Fabric เป็นเฟรมเวิร์กการประมวลผลข้อมูลแบบขนานแบบโอเพนซอร์สแบบรวม ใช้การประมวลผลในหน่วยความจําเพื่อเพิ่มความเร็วในการวิเคราะห์ข้อมูลขนาดใหญ่ Spark สร้างขึ้นเพื่อความเร็ว ใช้งานง่าย และการวิเคราะห์ขั้นสูง การคํานวณแบบกระจายในหน่วยความจําของ Spark เหมาะกับการเรียนรู้ของเครื่องและอัลกอริธึมกราฟแบบวนซ้ํา
ไลบรารีการเรียนรู้ของ เครื่องที่ปรับขนาดได้ของ MLlib และ SparkML นําความสามารถในการสร้างแบบจําลองอัลกอริทึมมาสู่สภาพแวดล้อมแบบกระจายนี้ MLlib มี API ที่ใช้ RDD ดั้งเดิม SparkML เป็นแพ็คเกจที่ใหม่กว่าซึ่งมี API ที่ใช้ DataFrame ระดับสูงสําหรับการสร้างไปป์ไลน์ ML ซึ่งมี API ระดับสูงที่สร้างขึ้นที่ด้านบนของ DataFrames สําหรับการสร้างไปป์ไลน์ ML SparkML ยังไม่รองรับคุณสมบัติ MLlib ทั้งหมด แต่กําลังแทนที่ MLlib เป็นไลบรารีแมชชีนเลิร์นนิง Spark มาตรฐาน
หมายเหตุ
เรียนรู้เพิ่มเติมใน ฝึกโมเดลด้วย Apache Spark MLlib
ไลบรารียอดนิยม
รันไทม์ Microsoft Fabric สําหรับ Apache Spark มีแพ็คเกจโอเพนซอร์สยอดนิยมหลายแพ็คเกจสําหรับการฝึกอบรมโมเดลแมชชีนเลิร์นนิ่ง ไลบรารีเหล่านี้มีโค้ดที่นํากลับมาใช้ใหม่ได้สําหรับโครงการของคุณ รันไทม์ประกอบด้วยไลบรารีแมชชีนเลิร์นนิงเหล่านี้:
Scikit-learn - ไลบรารีโหนดเดียวยอดนิยมสําหรับอัลกอริธึมการเรียนรู้ของเครื่องแบบคลาสสิก รองรับอัลกอริทึมที่มีการดูแลและไม่ได้รับการดูแลส่วนใหญ่ และจัดการการทําเหมืองข้อมูลและการวิเคราะห์ข้อมูล
XGBoost - ห้องสมุดยอดนิยมพร้อมอัลกอริทึมที่ปรับให้เหมาะสมสําหรับแผนผังการตัดสินใจในการฝึกอบรมและป่าสุ่ม
PyTorch และ Tensorflow เป็นไลบรารีการเรียนรู้เชิงลึกของ Python ที่มีประสิทธิภาพ ด้วยไลบรารีเหล่านี้ คุณสามารถตั้งค่าจํานวนผู้ปฏิบัติการบนพูลของคุณเป็นศูนย์เพื่อสร้างแบบจําลองแบบเครื่องเดียวได้ แม้ว่าการกําหนดค่านั้นจะไม่สนับสนุน Apache Spark แต่ก็เป็นวิธีที่ง่ายและคุ้มค่าในการสร้างแบบจําลองเครื่องเดียว
SynapseML
ไลบรารีโอเพนซอร์ส SynapseML (ก่อนหน้านี้เรียกว่า MMLSpark) ช่วยให้คุณสร้างไปป์ไลน์แมชชีนเลิร์นนิง (ML) ที่ปรับขนาดได้ ช่วยเพิ่มความเร็วในการทดลองและให้คุณใช้เทคนิคขั้นสูง รวมถึงการเรียนรู้เชิงลึก กับชุดข้อมูลขนาดใหญ่
SynapseML มีเลเยอร์เหนือ API ระดับต่ําของ SparkML เมื่อสร้างแบบจําลอง ML ที่ปรับขนาดได้ API เหล่านี้ทําดัชนีสตริง แอสเซมบลีเวกเตอร์คุณลักษณะ การแปลงข้อมูลเป็นเค้าโครงที่เหมาะสมสําหรับอัลกอริทึมการเรียนรู้ของเครื่อง และอื่น ๆ ไลบรารี SynapseML ช่วยลดความซับซ้อนเหล่านี้และงานทั่วไปอื่น ๆ สําหรับการสร้างแบบจําลองใน PySpark
เนื้อหาที่เกี่ยวข้อง
สํารวจตัวเลือกสําหรับการฝึกอบรมโมเดลแมชชีนเลิร์นนิ่งใน Apache Spark ใน Microsoft Fabric สำหรับข้อมูลเพิ่มเติม โปรดดู:
- ใช้ตัวอย่าง AI เพื่อสร้างแบบจําลองการเรียนรู้ของเครื่อง: ใช้ตัวอย่าง AI
- ติดตามการทํางานของการเรียนรู้ของเครื่องโดยใช้การทดลอง: การทดลองการเรียนรู้ของเครื่อง