Bagikan melalui


Kemampuan Pembelajaran Mesin di Azure Synapse Analytics

Azure Synapse Analytics menawarkan berbagai kemampuan pembelajaran mesin. Artikel ini memberikan gambaran umum tentang bagaimana Anda dapat menerapkan Pembelajaran Mesin dalam konteks Azure Synapse.

Gambaran umum ini mencakup berbagai kemampuan dalam Synapse yang terkait dengan pembelajaran mesin, dari perspektif proses ilmu data.

Anda mungkin terbiasa dengan tampilan proses ilmu data yang khas. Ini adalah proses yang terkenal, yang diikuti sebagian besar proyek pembelajaran mesin.

Pada tingkat tinggi, prosesnya berisi langkah-langkah berikut:

  • Pemahaman bisnis (tidak dibahas dalam artikel ini)
  • Akuisisi dan pemahaman data
  • Pemodelan
  • Penyebaran dan penilaian model

Artikel ini menjelaskan kemampuan pembelajaran mesin Azure Synapse di berbagai mesin analitik, dari perspektif proses ilmu data. Untuk setiap langkah dalam proses ilmu data, kemampuan Azure Synapse yang dapat membantu diringkas.

Akuisisi dan pemahaman data

Sebagian besar proyek pembelajaran mesin melibatkan langkah-langkah yang mapan, dan salah satunya adalah mengakses serta memahami data.

Sumber dan alur data

Berkat Azure Data Factory, bagian asli azure Synapse yang terintegrasi, ada sekumpulan alat canggih yang tersedia untuk penyerapan data dan alur orkestrasi data. Ini memungkinkan Anda untuk dengan mudah membangun alur data guna mengakses dan mengubah data menjadi format yang dapat dikonsumsi untuk pembelajaran mesin. Pelajari selengkapnya tentang alur data di Synapse.

Persiapan dan eksplorasi/visualisasi data

Bagian penting dari proses pembelajaran mesin adalah memahami data dengan eksplorasi dan visualisasi.

Tergantung di mana data disimpan, Synapse menawarkan serangkaian alat yang berbeda untuk menjelajahi serta menyiapkannya untuk analisis dan pembelajaran mesin. Salah satu cara tercepat untuk memulai eksplorasi data adalah dengan menggunakan kumpulan Apache Spark atau SQL tanpa server langsung melalui data di data lake.

Pemodelan

Di Azure Synapse, pelatihan model pembelajaran mesin dapat dilakukan di Apache Spark Pools dengan alat seperti PySpark/Python, Scala, atau .NET.

Melatih model di Spark Pools dengan MLlib

Model pembelajaran mesin dapat dilatih dengan bantuan dari berbagai algoritma dan pustaka. Spark MLlib menawarkan algoritma pembelajaran mesin yang dapat diskalakan yang dapat membantu memecahkan sebagian besar masalah pembelajaran mesin umum. Untuk tutorial tentang cara melatih model menggunakan MLlib di Synapse, lihat Membuat aplikasi pembelajaran mesin dengan Apache Spark MLlib dan Azure Synapse Analytics.

Selain MLlib, pustaka populer seperti Scikit Learn juga dapat digunakan untuk mengembangkan model. Lihat Mengelola pustaka untuk Apache Spark di Azure Synapse Analytics untuk detail tentang cara menginstal pustaka di Synapse Spark Pools.

Penyebaran dan penilaian model

Model yang telah dilatih baik di Azure Synapse atau di luar Azure Synapse dapat dengan mudah digunakan untuk penilaian batch. Saat ini di Synapse, ada dua cara untuk menjalankan penilaian batch.

  • Anda dapat menggunakan fungsi TSQL PREDICT di kumpulan SQL Synapse untuk menjalankan prediksi tepat di mana data berada. Fungsi yang kuat dan dapat diskalakan ini memungkinkan Anda untuk memperkaya data Anda tanpa memindahkan data apa pun dari gudang data Anda. Pengalaman model pembelajaran mesin terpandu baru di Synapse Studio diperkenalkan di mana Anda dapat menerapkan model ONNX dari registri model Azure Machine Learning di Synapse SQL Pools untuk penilaian batch menggunakan PREDICT.

  • Opsi lain untuk model pembelajaran mesin penilaian batch di Azure Synapse adalah menggunakan Kumpulan Apache Spark untuk Azure Synapse. Tergantung pada pustaka yang digunakan untuk melatih model, Anda dapat menggunakan pengalaman kode untuk menjalankan penilaian batch.

SynapseML

SynapseML (sebelumnya dikenal sebagai MMLSpark), adalah pustaka sumber terbuka yang menyederhanakan pembuatan alur pembelajaran mesin (ML) yang dapat diskalakan secara massal. Ini adalah ekosistem alat yang digunakan untuk memperluas kerangka kerja Apache Spark ke beberapa arah baru. SynapseML menyatukan beberapa kerangka kerja pembelajaran mesin yang ada dan algoritma Microsoft baru menjadi satu API yang dapat diskalakan dan dapat digunakan di Python, R, Scala, .NET, dan Java. Untuk mempelajari selengkapnya, lihat fitur utama SynapseML.