ฝึกแบบจําลองการเรียนรู้ของเครื่อง
Apache Spark ใน Microsoft Fabric ช่วยให้การเรียนรู้ของเครื่องมีข้อมูลขนาดใหญ่ ทําให้มีความสามารถในการรับข้อมูลเชิงลึกที่มีประโยชน์จากข้อมูลที่มีโครงสร้าง ไม่มีโครงสร้าง และย้ายที่รวดเร็ว มีหลายตัวเลือกเมื่อแบบจําลองการเรียนรู้ของเครื่องฝึกใช้ Apache Spark ใน Microsoft Fabric: Apache Spark MLlib, SynapseML และไลบรารีโอเพนซอร์สอื่น ๆ
Apache SparkML และ MLlib
Apache Spark ใน Microsoft Fabric มีเฟรมเวิร์กการประมวลผลข้อมูลที่เป็นแบบรวมและโอเพนซอร์สที่สนับสนุนการประมวลผลในหน่วยความจําเพื่อเพิ่มประสิทธิภาพการวิเคราะห์ข้อมูลขนาดใหญ่ กลไกการประมวลผล Spark ถูกสร้างขึ้นสําหรับความเร็ว ความสะดวกในการใช้งาน และการวิเคราะห์ที่ซับซ้อน ความสามารถในการคํานวณแบบกระจายในหน่วยความจําของ Spark ทําให้เป็นตัวเลือกที่ดีสําหรับอัลกอริทึมแบบวนซ้ําที่ใช้ในการเรียนรู้ของเครื่องและการคํานวณกราฟ
มีไลบรารีการเรียนรู้ของเครื่องที่ปรับขนาดได้สองรายการซึ่งนําความสามารถในการสร้างแบบจําลองอัลกอริทึมไปยังสภาพแวดล้อมแบบกระจายนี้: MLlib และ SparkML MLlib ประกอบด้วย API ต้นฉบับที่สร้างขึ้นที่ด้านบนของ RDDs SparkML เป็นแพคเกจที่ใหม่กว่าที่มี API ระดับสูงที่สร้างขึ้นจาก DataFrames สําหรับการสร้างไปป์ไลน์ ML SparkML ยังไม่รองรับคุณลักษณะทั้งหมดของ MLlib แต่จะแทนที่ MLlib เป็นไลบรารีการเรียนรู้ของเครื่องมาตรฐานของ Spark
หมายเหตุ
คุณสามารถเรียนรู้เพิ่มเติมเกี่ยวกับการสร้างแบบจําลอง SparkML ได้ในบทความ ฝึกแบบจําลองด้วย Apache Spark MLlib
ไลบรารียอดนิยม
รันไทม์ Microsoft Fabric สําหรับ Apache Spark มีแพคเกจโอเพนซอร์สที่ได้รับความนิยมมากมายสําหรับแบบจําลองการเรียนรู้ของเครื่องฝึกสอน ไลบรารีเหล่านี้มีโค้ดที่สามารถนํากลับมาใช้ใหม่ได้ซึ่งคุณอาจต้องการรวมไว้ในโปรแกรมหรือโครงการของคุณ ไลบรารีการเรียนรู้ของเครื่องที่เกี่ยวข้องบางส่วนที่รวมอยู่ตามค่าเริ่มต้นได้แก่:
Scikit-learn เป็นหนึ่งในไลบรารีการเรียนรู้ของเครื่องโหนดเดียวที่ได้รับความนิยมมากที่สุดสําหรับอัลกอริทึม ML แบบคลาสสิก Scikit-learn รองรับอัลกอริทึมการเรียนรู้แบบควบคุมและไม่ได้ใช้งานส่วนใหญ่ และยังสามารถใช้สําหรับการทําเหมืองข้อมูลและการวิเคราะห์ข้อมูล
XGBoost เป็นไลบรารีการเรียนรู้ของเครื่องที่ได้รับความนิยมซึ่งมีอัลกอริทึมที่เหมาะสมที่สุดสําหรับต้นไม้แห่งการตัดสินใจและป่าแบบสุ่ม
PyTorch & Tensorflow เป็นไลบรารีการเรียนรู้เชิงลึกของ Python ที่มีประสิทธิภาพ คุณสามารถใช้ไลบรารีเหล่านี้เพื่อสร้างแบบจําลองแบบเครื่องเดียวโดยการตั้งค่าจํานวนของตัวดําเนินการบนพูลของคุณให้เป็นศูนย์ แม้ว่า Apache Spark จะไม่สามารถใช้งานได้ภายใต้การกําหนดค่านี้ แต่ก็เป็นวิธีที่ง่ายและคุ้มค่าในการสร้างแบบจําลองเครื่องเดียว
SynapseML
SynapseML (ก่อนหน้านี้เรียกว่า MMLSpark) เป็นไลบรารีโอเพนซอร์สที่ทําให้การสร้างไปป์ไลน์การเรียนรู้ของเครื่อง (ML) ปรับขนาดได้กว้างขวางง่ายขึ้น ไลบรารีนี้ออกแบบมาเพื่อทําให้นักวิทยาศาสตร์ข้อมูลมีประสิทธิภาพมากขึ้นบน Spark เพิ่มอัตราการทดลอง และใช้ประโยชน์จากเทคนิคการเรียนรู้ของเครื่องที่ล้ําสมัย รวมถึงการเรียนรู้เชิงลึกบนชุดข้อมูลขนาดใหญ่
SynapseML มีเลเยอร์ที่ด้านบนของ SparkML ของ API ระดับต่ําของ SparkML เมื่อสร้างแบบจําลอง ML ที่ปรับขนาดได้ เช่น สตริงการทําดัชนี การแปลงข้อมูลลงในเค้าโครงที่คาดหวังโดยอัลกอริทึมการเรียนรู้ของเครื่อง และการรวมเวกเตอร์คุณลักษณะ ไลบรารี SynapseML ช่วยลดความซับซ้อนเหล่านี้และงานทั่วไปอื่น ๆ สําหรับการสร้างแบบจําลองใน PySpark
เนื้อหาที่เกี่ยวข้อง
บทความนี้ให้ภาพรวมของตัวเลือกต่างๆ ในการฝึกแบบจําลองการเรียนรู้ของเครื่องภายใน Apache Spark ใน Microsoft Fabric คุณสามารถเรียนรู้เพิ่มเติมเกี่ยวกับการฝึกอบรมแบบจําลองโดยทําตามบทช่วยสอนด้านล่าง:
- ใช้ตัวอย่าง AI เพื่อสร้างแบบจําลองการเรียนรู้ของเครื่อง: ใช้ตัวอย่าง AI
- ติดตามการทํางานของการเรียนรู้ของเครื่องโดยใช้การทดลอง: การทดลองการเรียนรู้ของเครื่อง
คำติชม
https://aka.ms/ContentUserFeedback
เร็วๆ นี้: ตลอดปี 2024 เราจะขจัดปัญหา GitHub เพื่อเป็นกลไกคำติชมสำหรับเนื้อหา และแทนที่ด้วยระบบคำติชมใหม่ สำหรับข้อมูลเพิ่มเติม ให้ดู:ส่งและดูข้อคิดเห็นสำหรับ