Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Apache Spark di Azure Synapse Analytics memungkinkan pembelajaran mesin dengan data besar, memberikan kemampuan untuk memperoleh wawasan berharga dari sejumlah besar data terstruktur, tidak terstruktur, dan data yang bergerak cepat. Ada beberapa opsi saat melatih model pembelajaran mesin menggunakan Azure Spark di Azure Synapse Analytics: Apache Spark MLlib, Azure Machine Learning, dan berbagai pustaka sumber terbuka lainnya.
Apache SparkML dan MLlib
Apache Spark di Azure Synapse Analytics adalah salah satu implementasi Microsoft dari Apache Spark di cloud. Apache Spark dilengkapi dengan kerangka kerja pemrosesan data yang paralel, sumber terbuka, dan terpadu yang mendukung pemrosesan dalam memori untuk mendorong analitik data besar. Mesin pemrosesan Spark dibangun untuk memberikan kecepatan, kemudahan penggunaan, dan analitik canggih. Kemampuan komputasi terdistribusi dalam memori Spark menjadikannya pilihan yang tepat untuk algoritma iteratif yang digunakan dalam pembelajaran mesin dan komputasi grafik.
Ada tiga pustaka pembelajaran mesin yang dapat diskalakan yang membawa kemampuan pemodelan algoritmik ke lingkungan terdistribusi ini: MLIib dan SparkML. MLlib berisi API asli yang dibangun dalam RDD. SparkML adalah paket lebih baru yang menyediakan API tingkat lebih tinggi yang dibangun dalam DataFrames untuk membangun alur ML. SparkML belum mendukung semua fitur MLlib, tetapi menggantikan MLlib sebagai pustaka pembelajaran mesin standar Spark.
Catatan
Anda dapat mempelajari lebih lanjut cara membuat model SparkML dengan mengikuti tutorial ini.
Pustaka populer
Setiap kumpulan Apache Spark di Azure Synapse Analytics dilengkapi dengan kumpulan pustaka pembelajaran mesin yang telah dimuat sebelumnya dan populer. Pustaka ini menyediakan kode yang dapat digunakan kembali yang mungkin ingin Anda sertakan dalam program atau proyek Anda. Beberapa library pembelajaran mesin yang relevan yang disertakan secara default meliputi:
Scikit-learn adalah salah satu pustaka pembelajaran mesin simpul tunggal paling populer untuk algoritme ML klasik. Scikit-learn mendukung sebagian besar algoritma pembelajaran yang diawasi dan tidak diawasi dan juga dapat digunakan untuk penambangan data dan analisis data.
XGBoost adalah pustaka pembelajaran mesin populer yang berisi algoritma yang dioptimalkan untuk melatih pohon keputusan dan hutan acak.
PyTorch & TensorFlow adalah pustaka pembelajaran mendalam Python yang kuat. Dalam kumpulan Apache Spark di Azure Synapse Analytics, Anda dapat menggunakan pustaka ini untuk membuat model mesin tunggal dengan mengatur jumlah pelaksana di kumpulan Anda ke nol. Meskipun Apache Spark tidak berfungsi dalam konfigurasi ini, cara tersebut yang paling sederhana dan hemat biaya untuk membuat model mesin tunggal.
Anda dapat mempelajari lebih lanjut tentang pustaka yang tersedia dan versi terkait dengan melihat waktu proses Azure Synapse Analytics yang dipublikasikan.
MMLSpark
Pustaka Microsoft Azure Machine Learning untuk Apache Spark adalah MMLSpark. Pustaka ini dirancang untuk membuat ilmuwan data lebih produktif di Spark, meningkatkan tingkat eksperimen, dan memanfaatkan teknik pembelajaran mesin yang canggih, termasuk pembelajaran mendalam, pada himpunan data dalam jumlah yang sangat besar.
MMLSpark menyediakan lapisan di atas API tingkat rendah SparkML saat membangun model ML yang dapat diskalakan, seperti mengindeks string, mengubah data ke dalam tata letak yang diharapkan oleh algoritma pembelajaran mesin, dan merakit vektor fitur. Pustaka MMLSpark memudahkan tugas ini dan tugas umum lainnya dalam membuat model di PySpark.
Alat Pengecoran
Foundry Tools menyediakan kemampuan pembelajaran mesin untuk menyelesaikan masalah umum seperti menganalisis teks untuk sentimen emosional atau menganalisis gambar untuk mengenali objek atau wajah. Anda tidak memerlukan pengetahuan pembelajaran mesin atau ilmu data khusus untuk menggunakan layanan ini. Cognitive Services menyediakan sebagian atau seluruh komponen dalam solusi pembelajaran mesin: data, algoritme, dan model terlatih. Layanan ini ditujukan untuk mengharuskan pengetahuan umum tentang data Anda tanpa perlu pengalaman tentang pembelajaran mesin atau ilmu data. Anda dapat memanfaatkan Alat Foundry yang telah dilatih sebelumnya ini secara otomatis dalam Azure Synapse Analytics.
Langkah berikutnya
Artikel ini berisi ringkasan berbagai opsi untuk melatih model pembelajaran mesin dalam kumpulan Apache Spark di Azure Synapse Analytics. Anda dapat mempelajari pelatihan model lebih lanjut dengan mengikuti tutorial berikut:
- Menjalankan eksperimen ML otomatis menggunakan Azure Machine Learning dan Azure Synapse Analytics: Tutorial ML Otomatis
- Menjalankan eksperimen SparkML: Tutorial Apache SparkML
- Lihat pustaka default: Runtime Azure Synapse Analytics