Tutorial: Menyiapkan data untuk melatih model prediktif di R dengan pembelajaran mesin SQL
Berlaku untuk: SQL Server 2016 (13.x) dan Azure SQL Managed Instance yang lebih baru
Di bagian dua dari seri tutorial empat bagian ini, Anda akan menyiapkan data dari database menggunakan R. Nantinya dalam seri ini, Anda akan menggunakan data ini untuk melatih dan menyebarkan model prediktif di R dengan SQL Server Pembelajaran Mesin Services atau di Kluster Big Data.
Di bagian dua dari seri tutorial empat bagian ini, Anda akan menyiapkan data dari database menggunakan R. Nantinya dalam seri ini, Anda akan menggunakan data ini untuk melatih dan menyebarkan model prediktif di R dengan SQL Server Pembelajaran Mesin Services.
Di bagian dua dari seri tutorial empat bagian ini, Anda akan menyiapkan data dari database menggunakan R. Nantinya dalam seri ini, Anda akan menggunakan data ini untuk melatih dan menyebarkan model prediktif di R dengan SQL Server R Services.
Di bagian dua dari seri tutorial empat bagian ini, Anda akan menyiapkan data dari database menggunakan R. Nantinya dalam seri ini, Anda akan menggunakan data ini untuk melatih dan menyebarkan model prediktif di R dengan Azure SQL Managed Instance Pembelajaran Mesin Services.
Dalam artikel ini, Anda akan mempelajari cara:
- Memulihkan database sampel ke dalam database
- Memuat data dari database ke dalam bingkai data R
- Siapkan data di R dengan mengidentifikasi beberapa kolom sebagai kategoris
Di bagian satu, Anda mempelajari cara memulihkan database sampel.
Di bagian tiga, Anda akan mempelajari cara melatih model pembelajaran mesin di R.
Di bagian empat, Anda akan mempelajari cara menyimpan model dalam database, lalu membuat prosedur tersimpan dari skrip R yang Anda kembangkan di bagian dua dan tiga. Prosedur tersimpan akan berjalan di server untuk membuat prediksi berdasarkan data baru.
Prasyarat
Bagian dua dari tutorial ini mengasumsikan Anda telah menyelesaikan bagian satu dan prasyaratnya.
Memuat data ke dalam bingkai data
Untuk menggunakan data di R, Anda akan memuat data dari database ke dalam bingkai data (rentaldata
).
Buat file RScript baru di RStudio dan jalankan skrip berikut. Ganti ServerName dengan informasi koneksi Anda sendiri.
#Define the connection string to connect to the TutorialDB database
connStr <- "Driver=SQL Server;Server=ServerName;Database=TutorialDB;uid=Username;pwd=Password"
#Get the data from the table
library(RODBC)
ch <- odbcDriverConnect(connStr)
#Import the data from the table
rentaldata <- sqlFetch(ch, "dbo.rental_data")
#Take a look at the structure of the data and the top rows
head(rentaldata)
str(rentaldata)
Anda akan melihat hasil yang mirip dengan yang berikut ini.
Year Month Day RentalCount WeekDay Holiday Snow
1 2014 1 20 445 2 1 0
2 2014 2 13 40 5 0 0
3 2013 3 10 456 1 0 0
4 2014 3 31 38 2 0 0
5 2014 4 24 23 5 0 0
6 2015 2 11 42 4 0 0
'data.frame': 453 obs. of 7 variables:
$ Year : int 2014 2014 2013 2014 2014 2015 2013 2014 2013 2015 ...
$ Month : num 1 2 3 3 4 2 4 3 4 3 ...
$ Day : num 20 13 10 31 24 11 28 8 5 29 ...
$ RentalCount: num 445 40 456 38 23 42 310 240 22 360 ...
$ WeekDay : num 2 5 1 2 5 4 1 7 6 1 ...
$ Holiday : int 1 0 0 0 0 0 0 0 0 0 ...
$ Snow : num 0 0 0 0 0 0 0 0 0 0 ...
Menyiapkan data
Dalam database sampel ini, sebagian besar persiapan telah dilakukan, tetapi Anda akan melakukan satu persiapan lagi di sini. Gunakan skrip R berikut untuk mengidentifikasi tiga kolom sebagai kategori dengan mengubah jenis data menjadi faktor.
#Changing the three factor columns to factor types
rentaldata$Holiday <- factor(rentaldata$Holiday);
rentaldata$Snow <- factor(rentaldata$Snow);
rentaldata$WeekDay <- factor(rentaldata$WeekDay);
#Visualize the dataset after the change
str(rentaldata);
Anda akan melihat hasil yang mirip dengan yang berikut ini.
data.frame': 453 obs. of 7 variables:
$ Year : int 2014 2014 2013 2014 2014 2015 2013 2014 2013 2015 ...
$ Month : num 1 2 3 3 4 2 4 3 4 3 ...
$ Day : num 20 13 10 31 24 11 28 8 5 29 ...
$ RentalCount: num 445 40 456 38 23 42 310 240 22 360 ...
$ WeekDay : Factor w/ 7 levels "1","2","3","4",..: 2 5 1 2 5 4 1 7 6 1 ...
$ Holiday : Factor w/ 2 levels "0","1": 2 1 1 1 1 1 1 1 1 1 ...
$ Snow : Factor w/ 2 levels "0","1": 1 1 1 1 1 1 1 1 1 1 ...
Data sekarang disiapkan untuk pelatihan.
Membersihkan sumber daya
Jika Anda tidak akan melanjutkan tutorial ini, hapus database TutorialDB.
Langkah berikutnya
Di bagian dua seri tutorial ini, Anda belajar cara:
- Memuat data sampel ke dalam bingkai data R
- Siapkan data di R dengan mengidentifikasi beberapa kolom sebagai kategoris
Untuk membuat model pembelajaran mesin yang menggunakan data dari database TutorialDB, ikuti bagian tiga dari seri tutorial ini: