แชร์ผ่าน


ฝึกแบบจําลองการเรียนรู้ของเครื่อง

Apache Spark ใน Microsoft Fabric ช่วยให้การเรียนรู้ของเครื่องมีข้อมูลขนาดใหญ่ ทําให้มีความสามารถในการรับข้อมูลเชิงลึกที่มีประโยชน์จากข้อมูลที่มีโครงสร้าง ไม่มีโครงสร้าง และย้ายที่รวดเร็ว มีหลายตัวเลือกเมื่อแบบจําลองการเรียนรู้ของเครื่องฝึกใช้ Apache Spark ใน Microsoft Fabric: Apache Spark MLlib, SynapseML และไลบรารีโอเพนซอร์สอื่น ๆ

Apache SparkML และ MLlib

Apache Spark ใน Microsoft Fabric มีเฟรมเวิร์กการประมวลผลข้อมูลที่เป็นแบบรวมและโอเพนซอร์สที่สนับสนุนการประมวลผลในหน่วยความจําเพื่อเพิ่มประสิทธิภาพการวิเคราะห์ข้อมูลขนาดใหญ่ กลไกการประมวลผล Spark ถูกสร้างขึ้นสําหรับความเร็ว ความสะดวกในการใช้งาน และการวิเคราะห์ที่ซับซ้อน ความสามารถในการคํานวณแบบกระจายในหน่วยความจําของ Spark ทําให้เป็นตัวเลือกที่ดีสําหรับอัลกอริทึมแบบวนซ้ําที่ใช้ในการเรียนรู้ของเครื่องและการคํานวณกราฟ

มีไลบรารีการเรียนรู้ของเครื่องที่ปรับขนาดได้สองรายการซึ่งนําความสามารถในการสร้างแบบจําลองอัลกอริทึมไปยังสภาพแวดล้อมแบบกระจายนี้: MLlib และ SparkML MLlib ประกอบด้วย API ต้นฉบับที่สร้างขึ้นที่ด้านบนของ RDDs SparkML เป็นแพคเกจที่ใหม่กว่าที่มี API ระดับสูงที่สร้างขึ้นจาก DataFrames สําหรับการสร้างไปป์ไลน์ ML SparkML ยังไม่รองรับคุณลักษณะทั้งหมดของ MLlib แต่จะแทนที่ MLlib เป็นไลบรารีการเรียนรู้ของเครื่องมาตรฐานของ Spark

หมายเหตุ

คุณสามารถเรียนรู้เพิ่มเติมเกี่ยวกับการสร้างแบบจําลอง SparkML ได้ในบทความ ฝึกแบบจําลองด้วย Apache Spark MLlib

รันไทม์ Microsoft Fabric สําหรับ Apache Spark มีแพคเกจโอเพนซอร์สที่ได้รับความนิยมมากมายสําหรับแบบจําลองการเรียนรู้ของเครื่องฝึกสอน ไลบรารีเหล่านี้มีโค้ดที่สามารถนํากลับมาใช้ใหม่ได้ซึ่งคุณอาจต้องการรวมไว้ในโปรแกรมหรือโครงการของคุณ ไลบรารีการเรียนรู้ของเครื่องที่เกี่ยวข้องบางส่วนที่รวมอยู่ตามค่าเริ่มต้นได้แก่:

  • Scikit-learn เป็นหนึ่งในไลบรารีการเรียนรู้ของเครื่องโหนดเดียวที่ได้รับความนิยมมากที่สุดสําหรับอัลกอริทึม ML แบบคลาสสิก Scikit-learn รองรับอัลกอริทึมการเรียนรู้แบบควบคุมและไม่ได้ใช้งานส่วนใหญ่ และยังสามารถใช้สําหรับการทําเหมืองข้อมูลและการวิเคราะห์ข้อมูล

  • XGBoost เป็นไลบรารีการเรียนรู้ของเครื่องที่ได้รับความนิยมซึ่งมีอัลกอริทึมที่เหมาะสมที่สุดสําหรับต้นไม้แห่งการตัดสินใจและป่าแบบสุ่ม

  • PyTorch & Tensorflow เป็นไลบรารีการเรียนรู้เชิงลึกของ Python ที่มีประสิทธิภาพ คุณสามารถใช้ไลบรารีเหล่านี้เพื่อสร้างแบบจําลองแบบเครื่องเดียวโดยการตั้งค่าจํานวนของตัวดําเนินการบนพูลของคุณให้เป็นศูนย์ แม้ว่า Apache Spark จะไม่สามารถใช้งานได้ภายใต้การกําหนดค่านี้ แต่ก็เป็นวิธีที่ง่ายและคุ้มค่าในการสร้างแบบจําลองเครื่องเดียว

SynapseML

SynapseML (ก่อนหน้านี้เรียกว่า MMLSpark) เป็นไลบรารีโอเพนซอร์สที่ทําให้การสร้างไปป์ไลน์การเรียนรู้ของเครื่อง (ML) ปรับขนาดได้กว้างขวางง่ายขึ้น ไลบรารีนี้ออกแบบมาเพื่อทําให้นักวิทยาศาสตร์ข้อมูลมีประสิทธิภาพมากขึ้นบน Spark เพิ่มอัตราการทดลอง และใช้ประโยชน์จากเทคนิคการเรียนรู้ของเครื่องที่ล้ําสมัย รวมถึงการเรียนรู้เชิงลึกบนชุดข้อมูลขนาดใหญ่

SynapseML มีเลเยอร์ที่ด้านบนของ SparkML ของ API ระดับต่ําของ SparkML เมื่อสร้างแบบจําลอง ML ที่ปรับขนาดได้ เช่น สตริงการทําดัชนี การแปลงข้อมูลลงในเค้าโครงที่คาดหวังโดยอัลกอริทึมการเรียนรู้ของเครื่อง และการรวมเวกเตอร์คุณลักษณะ ไลบรารี SynapseML ช่วยลดความซับซ้อนเหล่านี้และงานทั่วไปอื่น ๆ สําหรับการสร้างแบบจําลองใน PySpark

บทความนี้ให้ภาพรวมของตัวเลือกต่างๆ ในการฝึกแบบจําลองการเรียนรู้ของเครื่องภายใน Apache Spark ใน Microsoft Fabric คุณสามารถเรียนรู้เพิ่มเติมเกี่ยวกับการฝึกอบรมแบบจําลองโดยทําตามบทช่วยสอนด้านล่าง: