Bagikan melalui


Analisis data dengan Azure Machine Learning

Tutorial ini menggunakan desainer Azure Machine Learning untuk membangun model pembelajaran mesin yang prediktif. Model ini didasarkan pada data yang disimpan pada Azure Synapse. Skenario bagi tutorial adalah memprediksi apakah pelanggan cenderung membeli sepeda atau tidak sehingga Adventure Works, sebuah toko sepeda, dapat membangun kampanye pemasaran yang ditargetkan.

Prasyarat

Untuk mengikuti tutorial ini, Anda membutuhkan:

  • Kumpulan SQL yang telah dimuat sebelumnya dengan data contoh AdventureWorksDW. Untuk menyediakan Kumpulan SQL ini, lihat Membuat kumpulan SQL dan pilihlah untuk memuat data sampel. Jika Anda sudah memiliki gudang data namun tidak memiliki data sampel, Anda dapat memuat data sampel secara manual.
  • Ruang kerja Azure Machine Learning. Ikuti tutorial ini untuk membuat yang baru.

Mendapatkan data

Data yang digunakan berada di dalam tampilan dbo.vTargetMail pada AdventureWorksDW. Untuk menggunakan Datastore dalam tutorial ini, data pertama kali akan diekspor ke akun Azure Data Lake Storage karena Azure Synapse saat ini tidak mendukung set data. Azure Data Factory dapat digunakan untuk mengekspor data dari gudang data ke Azure Data Lake Storage menggunakan aktivitas salin. Gunakan kueri berikut untuk mengimpor:

SELECT [CustomerKey]
  ,[GeographyKey]
  ,[CustomerAlternateKey]
  ,[MaritalStatus]
  ,[Gender]
  ,cast ([YearlyIncome] as int) as SalaryYear
  ,[TotalChildren]
  ,[NumberChildrenAtHome]
  ,[EnglishEducation]
  ,[EnglishOccupation]
  ,[HouseOwnerFlag]
  ,[NumberCarsOwned]
  ,[CommuteDistance]
  ,[Region]
  ,[Age]
  ,[BikeBuyer]
FROM [dbo].[vTargetMail]

Setelah data tersedia pada Azure Data Lake Storage, Datastores di Azure Machine Learning digunakan untuk menghubungkan ke layanan penyimpanan Azure. Ikuti langkah-langkah berikut ini untuk membuat Datastore dan kumpulan Data yang terkait:

  1. Luncurkan studio Azure Machine Learning baik dari portal Microsoft Azure atau masuk melalui studio Azure Machine Learning.

  2. Klik Datastores di panel kiri pada bagianKelola lalu klik pada Datastore Baru.

    Cuplikan layar panel sebelah kiri dari antarmuka Azure Machine Learning

  3. Berikan nama untuk datastore, pilih jenis 'Azure Blob Storage', sediakan lokasi dan kredensial. Lalu, klik Buat.

  4. Selanjutnya, klik Kumpulan Data di panel kiri pada bagian Aset. Pilih Buat dataset dengan opsi Dari datastore.

  5. Tentukan nama set data dan pilih jenis yang akan menjadi Tabel. Lalu, klik Berikutnya untuk maju.

  6. Di Pilih atau buat bagian datastore, pilih opsi Datastore yang telah dibuat sebelumnya. Pilih datastore yang telah dibuat sebelumnya. Klik Berikutnya dan tentukan jalur serta pengaturan file. Pastikan untuk menentukan header kolom jika file berisi hal tersebut.

  7. Terakhir, klik Buat untuk membuat set data.

Mengonfigurasikan eksperimen desainer

Selanjutnya, ikuti langkah-langkah berikut ini untuk konfigurasi desainer:

  1. Klik tab Desainer di panel kiri pada bagian Penulis.

  2. Pilih Komponen yang dibangun sebelumnya dan mudah digunakan untuk membangun alur baru.

  3. Pada panel pengaturan di sebelah kanan, tentukan nama alur.

  4. Selain itu, pilih kluster komputasi target untuk seluruh eksperimen melalui tombol pengaturan, pada kluster yang telah disediakan sebelumnya. Silakan tutup panel Pengaturan.

Mengimpor data

  1. Pilih subtab Set data di panel kiri di bawah kotak pencarian.

  2. Seret set data yang telah Anda buat sebelumnya ke kanvas.

    Cuplikan layar komponen himpunan data di kanvas.

Bersihkan data

Untuk membersihkan data, hilangkan kolom yang tidak relevan bagi model. Ikuti langkah berikut:

  1. Pilih subtab Komponen di panel kiri.

  2. Seret komponen Pilih Kolom dalam Himpunan Data pada bagian Transformasi Data < Manipulasi ke dalam kanvas. Sambungkan komponen ini ke komponen Himpunan data.

    Cuplikan layar komponen pemilihan kolom pada kanvas.

  3. Klik komponen untuk membuka panel properti. Klik Edit kolom untuk menentukan kolom mana yang ingin dihapus.

  4. Mengecualikan dua kolom: CustomerAlternateKey serta GeographyKey. Klik Simpan

    Cuplikan layar menampilkan kolom yang dihilangkan.

Pembangunan model

Data dibagi dengan rasio 80-20: 80% untuk melatih model pembelajaran mesin dan 20% untuk menguji model. Algoritma "Dua Kelas" akan digunakan dalam masalah klasifikasi biner ini.

  1. Seret komponen Bagi Data ke kanvas.

  2. Di panel properti, masukkan angka 0,8 untuk Pecahan baris dalam kumpulan data output pertama.

    Cuplikan layar menampilkan rasio pemisahan sebesar 0,8.

  3. Seret komponen Pohon Keputusan Dua Kelas yang Ditingkatkan ke kanvas.

  4. Seret komponen Latih Model ke kanvas. Tentukan input dengan menyambungkannya ke komponen Pohon Keputusan Dua Kelas yang Ditingkatkan (algoritma ML) serta Bagi Data (data untuk melatih algoritma).

  5. Untuk model Train Model, pada opsi Kolom Label di panel Property, pilih Edit Column. Pilih kolom BikeBuyer sebagai kolom untuk diprediksi serta pilih Simpan.

    Cuplikan layar menampilkan bahwa kolom label, BikeBuyer, telah dipilih.

    Cuplikan layar menampilkan komponen Latih Model yang terhubung ke Pohon Keputusan Dua Kelas yang Ditingkatkan dan komponen Bagi Data.

Beri nilai pada model

Sekarang, ujilah kinerja model pada data pengujian. Dua algoritma yang berbeda akan dibandingkan untuk melihat mana yang memiliki kinerja lebih baik. Ikuti langkah berikut:

  1. Seret Nilai Model ke kanvas dan sambungkan ke komponen Latih Model dan Bagi Data.

  2. Seret Two-Class Bayes Averaged Perceptron ke kanvas percobaan. Anda akan membandingkan kinerja algoritma ini dibandingkan Two-Class Boosted Decision Tree.

  3. Salin dan tempel komponen Latih Model dan Nilai Model di kanvas.

  4. Seret komponen Evaluasi Model ke dalam kanvas untuk membandingkan dua algoritma.

  5. Klik simpan untuk menyiapkan menjalankan pipeline.

    Cuplikan layar semua komponen yang tersisa pada kanvas.

  6. Setelah proses selesai, klik kanan pada komponen Evaluasi Model dan klik Visualisasikan hasil Evaluasi.

    Cuplikan layar hasil.

Metrik yang disediakan merupakan kurva ROC, diagram penarikan kembali dengan presisi, dan kurva angkat. Lihatlah metrik ini untuk mengetahui bahwa model pertama memiliki kinerja lebih baik daripada yang kedua. Untuk melihat apa yang diprediksi model pertama, klik kanan pada Komponen Nilai Model dan klik Visualisasikan Himpunan data yang Dinilai untuk melihat hasil yang diprediksi.

Anda akan melihat dua kolom lagi yang telah ditambahkan ke set data pengujian Anda.

  • Probabilitas yang Dinilai: kemungkinan pelanggan adalah pembeli sepeda.
  • Label yang Dinilai: hasil klasifikasi yang dilakukan oleh model – pembeli sepeda (1) atau tidak (0). Ambang batas probabilitas untuk pelabelan ini diatur ke nilai 50% dan dapat disesuaikan.

Bandingkan kolom BikeBuyer (aktual) dengan Label Yang Dinilai (prediksi) untuk menilai seberapa baik model tersebut berfungsi. Selanjutnya, Anda dapat menggunakan model ini dengan tujuan membuat prediksi bagi pelanggan baru. Anda dapat menerbitkan model ini sebagai layanan web atau menulis hasil kembali ke Azure Synapse.

Langkah berikutnya

Untuk mempelajari selengkapnya tentang Azure Machine Learning, lihat Pendahuluan Pembelajaran Mesin di Azure.

Pelajari tentang penilaian bawaan di gudang data di sini.