Melatih model pembelajaran mesin

Apache Spark di Microsoft Fabric memungkinkan pembelajaran mesin dengan big data, memberikan kemampuan untuk mendapatkan wawasan berharga dari sejumlah besar data terstruktur, tidak terstruktur, dan bergerak cepat. Ada beberapa opsi saat melatih model pembelajaran mesin menggunakan Apache Spark di Microsoft Fabric: Apache Spark MLlib, SynapseML, dan berbagai pustaka sumber terbuka lainnya.

Apache SparkML dan MLlib

Apache Spark di Microsoft Fabric menyediakan kerangka kerja pemrosesan data paralel terpadu, sumber terbuka, yang mendukung pemrosesan dalam memori untuk meningkatkan analitik big data. Mesin pemrosesan Spark dibangun untuk memberikan kecepatan, kemudahan penggunaan, dan analitik canggih. Kemampuan komputasi terdistribusi dalam memori Spark menjadikannya pilihan yang tepat untuk algoritma iteratif yang digunakan dalam pembelajaran mesin dan komputasi grafik.

Ada tiga pustaka pembelajaran mesin yang dapat diskalakan yang membawa kemampuan pemodelan algoritmik ke lingkungan terdistribusi ini: MLIib dan SparkML. MLlib berisi API asli yang dibangun dalam RDD. SparkML adalah paket lebih baru yang menyediakan API tingkat lebih tinggi yang dibangun dalam DataFrames untuk membangun alur ML. SparkML belum mendukung semua fitur MLlib, tetapi menggantikan MLlib sebagai pustaka pembelajaran mesin standar Spark.

Catatan

Anda dapat mempelajari selengkapnya tentang membuat model SparkML dalam artikel Melatih model dengan Apache Spark MLlib.

Runtime Microsoft Fabric untuk Apache Spark mencakup beberapa paket sumber terbuka populer untuk melatih model pembelajaran mesin. Pustaka ini menyediakan kode yang dapat digunakan kembali yang mungkin ingin Anda sertakan dalam program atau proyek Anda. Beberapa library pembelajaran mesin yang relevan yang disertakan secara default meliputi:

  • Scikit-learn adalah salah satu pustaka pembelajaran mesin simpul tunggal paling populer untuk algoritme ML klasik. Scikit-learn mendukung sebagian besar algoritma pembelajaran yang diawasi dan tidak diawasi dan juga dapat digunakan untuk penambangan data dan analisis data.

  • XGBoost adalah pustaka pembelajaran mesin populer yang berisi algoritma yang dioptimalkan untuk melatih pohon keputusan dan hutan acak.

  • PyTorch & Tensorflow adalah pustaka pembelajaran mendalam Python yang kuat. Anda dapat menggunakan pustaka ini untuk membangun model komputer tunggal dengan mengatur jumlah pelaksana pada kumpulan Anda menjadi nol. Meskipun Apache Spark tidak berfungsi dalam konfigurasi ini, cara tersebut yang paling sederhana dan hemat biaya untuk membuat model mesin tunggal.

SynapseML

SynapseML (sebelumnya dikenal sebagai MMLSpark), adalah pustaka sumber terbuka yang menyederhanakan pembuatan alur pembelajaran mesin (ML) yang dapat diskalakan secara besar-besaran. Pustaka ini dirancang untuk membuat ilmuwan data lebih produktif di Spark, meningkatkan tingkat eksperimen, dan memanfaatkan teknik pembelajaran mesin yang canggih, termasuk pembelajaran mendalam, pada himpunan data dalam jumlah yang sangat besar.

SynapseML menyediakan lapisan di atas API tingkat rendah SparkML saat membangun model ML yang dapat diskalakan, seperti string pengindeksan, memaksa data ke dalam tata letak yang diharapkan oleh algoritma pembelajaran mesin, dan merakit vektor fitur. Pustaka SynapseML menyederhanakan ini dan tugas umum lainnya untuk membangun model di PySpark.

Artikel ini memberikan gambaran umum tentang berbagai opsi untuk melatih model pembelajaran mesin dalam Apache Spark di Microsoft Fabric. Anda dapat mempelajari pelatihan model lebih lanjut dengan mengikuti tutorial berikut: