Melatih model pembelajaran mesin

Apache Spark—bagian dari Microsoft Fabric—memungkinkan pembelajaran mesin dalam skala besar. Gunakanlah untuk mendapatkan wawasan dari sejumlah besar data terstruktur, tidak terstruktur, dan data yang dipancarkan secara langsung. Latih model di Microsoft Fabric dengan pustaka sumber terbuka seperti Apache Spark MLlib, SynapseML, dan lainnya.

Apache SparkML dan MLlib

Apache Spark—bagian dari Microsoft Fabric—adalah kerangka kerja pemrosesan data paralel terpadu, sumber terbuka, dan paralel. Ini menggunakan pemrosesan dalam memori untuk mempercepat analitik big data. Spark dibangun untuk kecepatan, kemudahan penggunaan, dan analitik tingkat lanjut. Komputasi terdistribusi dalam memori Spark sesuai dengan pembelajaran mesin berulang dan algoritma grafik.

Pustaka pembelajaran mesin yang dapat diskalakan MLlib dan SparkML menghadirkan kemampuan pemodelan algoritma ke lingkungan terdistribusi ini. MLlib menyediakan API berbasis RDD asli. SparkML adalah paket yang lebih baru yang menyediakan API berbasis DataFrame tingkat lebih tinggi untuk membangun alur ML. Ini menyediakan API tingkat yang lebih tinggi yang dibangun di atas DataFrames untuk konstruksi alur ML. SparkML belum mendukung semua fitur MLlib, tetapi menggantikan MLlib sebagai pustaka pembelajaran mesin Spark standar.

Catatan

Pelajari selengkapnya di Melatih model dengan Apache Spark MLlib.

Runtime Microsoft Fabric untuk Apache Spark mencakup beberapa paket sumber terbuka populer untuk melatih model pembelajaran mesin. Pustaka ini menyediakan kode yang dapat digunakan kembali untuk proyek Anda. Runtime termasuk pustaka pembelajaran mesin berikut:

  • Scikit-learn - pustaka simpul tunggal populer untuk algoritma pembelajaran mesin klasik. Ini mendukung algoritma yang paling diawasi dan tidak diawasi dan menangani penambangan data dan analisis data.

  • XGBoost - pustaka populer dengan algoritma yang dioptimalkan untuk melatih pohon keputusan dan hutan acak.

  • PyTorch dan Tensorflow adalah pustaka pembelajaran mendalam Python yang kuat. Dengan pustaka ini, Anda dapat mengatur jumlah pelaksana pada kumpulan Anda ke nol, untuk membangun model komputer tunggal. Meskipun konfigurasi tersebut tidak mendukung Apache Spark, ini adalah cara sederhana dan hemat biaya untuk membuat model mesin tunggal.

SynapseML

Pustaka sumber terbuka SynapseML (sebelumnya dikenal sebagai MMLSpark) membantu Anda membangun alur pembelajaran mesin (ML) yang dapat diskalakan. Ini mempercepat eksperimen dan memungkinkan Anda menerapkan teknik lanjutan, termasuk pembelajaran mendalam, ke himpunan data besar.

SynapseML menyediakan lapisan di atas API tingkat rendah SparkML saat membangun model ML yang dapat diskalakan. API ini mencakup pengindeksan string, perakitan vektor fitur, pemaksaan data ke dalam tata letak yang sesuai untuk algoritma pembelajaran mesin, dan banyak lagi. Pustaka SynapseML menyederhanakan ini dan tugas umum lainnya untuk membangun model di PySpark.

Jelajahi opsi untuk melatih model pembelajaran mesin di Apache Spark di Microsoft Fabric. Untuk informasi selengkapnya, lihat: