Kemampuan Pembelajaran Mesin di Azure Synapse Analytics

Artikel
03/12/2024

Azure Synapse Analytics menawarkan berbagai kemampuan pembelajaran mesin. Artikel ini memberikan gambaran umum tentang bagaimana Anda dapat menerapkan Pembelajaran Mesin dalam konteks Azure Synapse.

Gambaran umum ini mencakup berbagai kemampuan dalam Synapse yang terkait dengan pembelajaran mesin, dari perspektif proses ilmu data.

Anda mungkin akrab dengan bagaimana proses ilmu data secara umum terlihat. Ini adalah proses yang terkenal, yang diikuti sebagian besar proyek pembelajaran mesin.

Pada tingkat tinggi, prosesnya berisi langkah-langkah berikut:

Pemahaman bisnis (tidak dibahas dalam artikel ini)
Akuisisi dan pemahaman data
Pemodelan
Penyebaran dan penilaian model

Artikel ini menjelaskan kemampuan pembelajaran mesin Azure Synapse di berbagai mesin analitik, dari perspektif proses ilmu data. Untuk setiap langkah dalam proses ilmu data, kemampuan Azure Synapse yang dapat membantu diringkas.

Akuisisi dan pemahaman data

Sebagian besar proyek pembelajaran mesin melibatkan langkah-langkah yang mapan, dan salah satunya adalah mengakses serta memahami data.

Sumber dan alur data

Berkat Azure Data Factory bagian asli yang terintegrasi dari Azure Synapse, ada sekumpulan alat canggih yang tersedia untuk alur penyerapan data dan orkestrasi data. Ini memungkinkan Anda untuk dengan mudah membangun alur data guna mengakses dan mengubah data menjadi format yang dapat dikonsumsi untuk pembelajaran mesin. Pelajari selengkapnya tentang alur data di Synapse.

Persiapan dan eksplorasi/visualisasi data

Bagian penting dari proses pembelajaran mesin adalah memahami data dengan eksplorasi dan visualisasi.

Tergantung di mana data disimpan, Synapse menawarkan serangkaian alat yang berbeda untuk menjelajahi serta menyiapkannya untuk analisis dan pembelajaran mesin. Salah satu cara tercepat untuk memulai eksplorasi data adalah dengan menggunakan kumpulan Apache Spark atau SQL tanpa server langsung melalui data di data lake.

Apache Spark untuk Azure Synapse menawarkan kemampuan untuk mengubah, menyiapkan, dan menjelajahi data dalam skala besar. Kumpulan spark tersebut menawarkan alat seperti PySpark/Python, Scala, dan .NET untuk pemrosesan data dalam skala besar. Menggunakan pustaka visualisasi yang canggih, pengalaman eksplorasi data dapat ditingkatkan untuk membantu memahami data dengan lebih baik. Pelajari selengkapnya tentang cara menjelajahi dan memvisualisasikan data di Synapse menggunakan Spark.
Kumpulan SQL tanpa server menawarkan cara untuk menjelajahi data menggunakan TSQL langsung melalui data lake. Kumpulan SQL tanpa server juga menawarkan beberapa visualisasi bawaan di Synapse Studio. Pelajari selengkapnya tentang cara menjelajahi data dengan kumpulan SQL tanpa server.

Pemodelan

Di Azure Synapse, pelatihan model pembelajaran mesin dapat dilakukan di Apache Spark Pools dengan alat seperti PySpark/Python, Scala, atau .NET.

Melatih model di Spark Pools dengan MLlib

Model pembelajaran mesin dapat dilatih dengan bantuan dari berbagai algoritma dan pustaka. Spark MLlib menawarkan algoritma pembelajaran mesin yang dapat diskalakan yang dapat membantu memecahkan sebagian besar masalah pembelajaran mesin umum. Untuk tutorial tentang cara melatih model menggunakan MLlib di Synapse, lihat Membuat aplikasi pembelajaran mesin dengan Apache Spark MLlib dan Azure Synapse Analytics.

Selain MLlib, pustaka populer seperti Scikit Learn juga dapat digunakan untuk mengembangkan model. Lihat Mengelola pustaka untuk Apache Spark di Azure Synapse Analytics untuk detail tentang cara menginstal pustaka di Synapse Spark Pools.

Melatih model dengan Pembelajaran Mesin otomatis Azure Machine Learning

Cara lain untuk melatih model pembelajaran mesin, yang tidak memerlukan banyak keakraban sebelumnya dengan pembelajaran mesin, adalah dengan menggunakan Pembelajaran Mesin otomatis. Pembelajaran Mesin Otomatis adalah fitur yang secara otomatis melatih serangkaian model pembelajaran mesin dan memungkinkan pengguna untuk memilih model terbaik berdasarkan metrik tertentu. Berkat integrasi yang mulus dengan Azure Pembelajaran Mesin dari Azure Synapse Notebooks, pengguna dapat dengan mudah memanfaatkan ML otomatis di Synapse dengan autentikasi Microsoft Entra passthrough. Ini berarti Anda hanya perlu menunjuk ke ruang kerja Azure Machine Learning Anda dan tidak perlu memasukkan info masuk. Tutorial, Melatih model di Python dengan pembelajaran mesin otomatis, menjelaskan cara melatih model menggunakan Pembelajaran Mesin otomatis Azure Machine Learning di Synapse Spark Pools.

Peringatan

Mulai 29 September 2023, Azure Synapse akan menghentikan dukungan resmi untuk Runtime Spark 2.4. Pasca 29 September 2023, kami tidak akan membahas tiket dukungan apa pun yang terkait dengan Spark 2.4. Tidak akan ada alur rilis yang diberlakukan untuk perbaikan bug atau keamanan untuk Spark 2.4. Memanfaatkan Spark 2.4 pasca tanggal cutoff dukungan dilakukan dengan risiko seseorang sendiri. Kami sangat mencegah penggunaannya yang berkelanjutan karena potensi masalah keamanan dan fungsionalitas.
Sebagai bagian dari proses penghentian untuk Apache Spark 2.4, kami ingin memberi tahu Anda bahwa AutoML di Azure Synapse Analytics juga tidak akan digunakan lagi. Ini termasuk antarmuka kode rendah dan API yang digunakan untuk membuat uji coba AutoML melalui kode.
Harap dicatat bahwa fungsionalitas AutoML tersedia secara eksklusif melalui runtime Spark 2.4.
Untuk pelanggan yang ingin terus memanfaatkan kemampuan AutoML, sebaiknya simpan data Anda ke akun Azure Data Lake Storage Gen2 (ADLSg2) Anda. Dari sana, Anda dapat mengakses pengalaman AutoML dengan lancar melalui Azure Pembelajaran Mesin (AzureML). Informasi lebih lanjut mengenai solusi ini tersedia di sini.

Penyebaran dan penilaian model

Model yang telah dilatih baik di Azure Synapse atau di luar Azure Synapse dapat dengan mudah digunakan untuk penilaian batch. Saat ini di Synapse, ada dua cara untuk menjalankan penilaian batch.

Anda dapat menggunakan fungsi TSQL PREDICT di kumpulan SQL Synapse untuk menjalankan prediksi tepat di mana data berada. Fungsi yang kuat dan dapat diskalakan ini memungkinkan Anda untuk memperkaya data Anda tanpa memindahkan data apa pun dari gudang data Anda. Pengalaman model pembelajaran mesin terpandu baru di Synapse Studio diperkenalkan di mana Anda dapat menerapkan model ONNX dari registri model Azure Machine Learning di Synapse SQL Pools untuk penilaian batch menggunakan PREDICT.
Opsi lain untuk menilai batch model pembelajaran mesin di Azure Synapse adalah dengan memanfaatkan Apache Spark Pools untuk Azure Synapse. Tergantung pada pustaka yang digunakan untuk melatih model, Anda dapat menggunakan pengalaman kode untuk menjalankan penilaian batch.

SynapseML

SynapseML (sebelumnya dikenal sebagai MMLSpark), adalah pustaka sumber terbuka yang menyederhanakan pembuatan alur pembelajaran mesin (ML) yang dapat diskalakan secara massal. Hal ini adalah ekosistem alat yang digunakan untuk memperluas kerangka kerja Apache Spark ke beberapa arah baru. SynapseML menyatukan beberapa kerangka kerja pembelajaran mesin yang ada dan algoritma Microsoft baru menjadi satu API yang dapat diskalakan dan dapat digunakan di Python, R, Scala, .NET, dan Java. Untuk mempelajari selengkapnya, lihat fitur utama SynapseML.