Tutorial: Mengembangkan model pengklusteran di R dengan pembelajaran mesin SQL
Berlaku untuk: SQL Server 2016 (13.x) dan yang lebih baru Azure SQL Managed Instance
Dalam seri tutorial empat bagian ini, Anda akan menggunakan R untuk mengembangkan dan menyebarkan model pengklusteran K-Means di SQL Server Machine Learning Services atau di Kluster Big Data untuk mengategorikan data pelanggan.
Dalam seri tutorial empat bagian ini, Anda akan menggunakan R untuk mengembangkan dan menyebarkan model pengklusteran K-Means di SQL Server Machine Learning Services untuk mengklusterkan data pelanggan.
Dalam seri tutorial empat bagian ini, Anda akan menggunakan R untuk mengembangkan dan menyebarkan model pengklusteran K-Means di SQL Server R Services untuk mengklusterkan data pelanggan.
Dalam seri tutorial empat bagian ini, Anda akan menggunakan R untuk mengembangkan dan menyebarkan model pengklusteran K-Means di Azure SQL Managed Instance Machine Learning Services untuk mengklusterkan data pelanggan.
Di bagian satu seri ini, Anda akan menyiapkan prasyarat untuk tutorial lalu memulihkan himpunan data sampel ke database. Di bagian dua dan tiga, Anda akan mengembangkan beberapa skrip R di buku catatan Azure Data Studio untuk menganalisis dan menyiapkan data sampel ini dan melatih model pembelajaran mesin. Kemudian, di bagian empat, Anda akan menjalankan skrip R tersebut di dalam database menggunakan prosedur tersimpan.
Pengklusteran dapat dijelaskan sebagai mengatur data ke dalam grup di mana anggota grup serupa dalam beberapa cara. Untuk seri tutorial ini, bayangkan Anda memiliki bisnis ritel. Anda akan menggunakan algoritma K-Means untuk melakukan pengklusteran pelanggan dalam himpunan data pembelian dan pengembalian produk. Dengan mengelompokkan pelanggan, Anda dapat memfokuskan upaya pemasaran Anda secara lebih efektif dengan menargetkan grup tertentu. Pengklusteran K-Means adalah algoritma pembelajaran tanpa pengawasan yang mencari pola dalam data berdasarkan kesamaan.
Dalam artikel ini, Anda akan mempelajari cara:
- Memulihkan database sampel
Di bagian dua, Anda akan mempelajari cara menyiapkan data dari database untuk melakukan pengklusteran.
Di bagian tiga, Anda akan mempelajari cara membuat dan melatih model pengklusteran K-Means di R.
Di bagian empat, Anda akan mempelajari cara membuat prosedur tersimpan dalam database yang dapat melakukan pengklusteran di R berdasarkan data baru.
Prasyarat
- SQL Server Layanan Pembelajaran Mesin dengan opsi bahasa Python - Ikuti instruksi penginstalan di panduan penginstalan Windows atau panduan penginstalan Linux. Anda juga dapat mengaktifkan Layanan Pembelajaran Mesin di SQL Server Kluster Big Data.
- SQL Server Layanan Pembelajaran Mesin dengan opsi bahasa R - Ikuti instruksi penginstalan di panduan penginstalan Windows.
Azure SQL Managed Instance Layanan Pembelajaran Mesin. Untuk informasi, lihat ringkasan Azure SQL Managed Instance Machine Learning Services.
SQL Server Management Studio untuk memulihkan database sampel ke Azure SQL Managed Instance.
Azure Data Studio. Anda akan menggunakan buku catatan di Azure Data Studio untuk SQL. Untuk informasi selengkapnya tentang buku catatan, lihat Cara menggunakan buku catatan di Azure Data Studio.
R IDE - Tutorial ini menggunakan RStudio Desktop.
RODBC - Driver ini digunakan dalam skrip R yang akan Anda kembangkan dalam tutorial ini. Jika belum diinstal, instal menggunakan perintah
install.packages("RODBC")
R . Untuk informasi selengkapnya tentang RODBC, lihat CRAN - Paket RODBC.
Memulihkan database sampel
Himpunan data sampel yang digunakan dalam tutorial ini telah disimpan ke file cadangan database .bak agar Anda dapat mengunduh dan menggunakannya. Himpunan data ini berasal dari himpunan data tpcx-bb yang disediakan oleh Dewan Kinerja Pemrosesan Transaksi (TPC).
Catatan
Jika Anda menggunakan Layanan Pembelajaran Mesin di Kluster Big Data, lihat cara Memulihkan database ke dalam instans master kluster big data SQL Server.
Unduh file tpcxbb_1gb.bak.
Ikuti petunjuk dalam Memulihkan database dari file cadangan di Azure Data Studio, menggunakan detail berikut:
- Impor dari file tpcxbb_1gb.bak yang Anda unduh
- Beri nama database target "tpcxbb_1gb"
Anda bisa memverifikasi bahwa himpunan data ada setelah Memulihkan database dengan mengkueri tabel dbo.customer :
USE tpcxbb_1gb; SELECT * FROM [dbo].[customer];
Unduh file tpcxbb_1gb.bak.
Ikuti petunjuk dalam Memulihkan database ke Instans Terkelola di SQL Server Management Studio, menggunakan detail berikut:
- Impor dari file tpcxbb_1gb.bak yang Anda unduh
- Beri nama database target "tpcxbb_1gb"
Anda bisa memverifikasi bahwa himpunan data ada setelah Memulihkan database dengan mengkueri tabel dbo.customer :
USE tpcxbb_1gb; SELECT * FROM [dbo].[customer];
Membersihkan sumber daya
Jika Anda tidak akan melanjutkan tutorial ini, hapus database tpcxbb_1gb.
Langkah berikutnya
Di bagian salah satu seri tutorial ini, Anda menyelesaikan langkah-langkah berikut:
- Menginstal prasyarat
- Memulihkan database sampel
Untuk menyiapkan data untuk model pembelajaran mesin, ikuti bagian dua dari seri tutorial ini:
Saran dan Komentar
https://aka.ms/ContentUserFeedback.
Segera hadir: Sepanjang tahun 2024 kami akan menghentikan penggunaan GitHub Issues sebagai mekanisme umpan balik untuk konten dan menggantinya dengan sistem umpan balik baru. Untuk mengetahui informasi selengkapnya, lihat:Kirim dan lihat umpan balik untuk