Tutorial: Menyiapkan data untuk melatih model prediktif di R dengan pembelajaran mesin SQL

Berlaku untuk: SQL Server 2016 (13.x) dan yang lebih baru Azure SQL Managed Instance

Di bagian dua dari seri tutorial empat bagian ini, Anda akan menyiapkan data dari database menggunakan R. Nantinya dalam seri ini, Anda akan menggunakan data ini untuk melatih dan menyebarkan model prediktif di R dengan SQL Server Machine Learning Services atau di Kluster Big Data.

Di bagian dua dari seri tutorial empat bagian ini, Anda akan menyiapkan data dari database menggunakan R. Nantinya dalam seri ini, Anda akan menggunakan data ini untuk melatih dan menyebarkan model prediktif di R dengan SQL Server Machine Learning Services.

Di bagian dua dari seri tutorial empat bagian ini, Anda akan menyiapkan data dari database menggunakan R. Nantinya dalam seri ini, Anda akan menggunakan data ini untuk melatih dan menyebarkan model prediktif di R dengan SQL Server R Services.

Di bagian dua dari seri tutorial empat bagian ini, Anda akan menyiapkan data dari database menggunakan R. Nantinya dalam seri ini, Anda akan menggunakan data ini untuk melatih dan menyebarkan model prediktif di R dengan Azure SQL Managed Instance Machine Learning Services.

Dalam artikel ini, Anda akan mempelajari cara:

  • Memulihkan database sampel ke dalam database
  • Memuat data dari database ke dalam bingkai data R
  • Siapkan data di R dengan mengidentifikasi beberapa kolom sebagai kategoris

Di bagian satu, Anda mempelajari cara memulihkan database sampel.

Di bagian tiga, Anda akan mempelajari cara melatih model pembelajaran mesin di R.

Di bagian empat, Anda akan mempelajari cara menyimpan model dalam database, lalu membuat prosedur tersimpan dari skrip R yang Anda kembangkan di bagian dua dan tiga. Prosedur tersimpan akan berjalan di server untuk membuat prediksi berdasarkan data baru.

Prasyarat

Bagian kedua dari tutorial ini mengasumsikan Anda telah menyelesaikan bagian satu dan prasyaratnya.

Memuat data ke dalam bingkai data

Untuk menggunakan data di R, Anda akan memuat data dari database ke dalam bingkai data (rentaldata).

Buat file RScript baru di RStudio dan jalankan skrip berikut. Ganti ServerName dengan informasi koneksi Anda sendiri.

#Define the connection string to connect to the TutorialDB database
connStr <- "Driver=SQL Server;Server=ServerName;Database=TutorialDB;uid=Username;pwd=Password"


#Get the data from the table
library(RODBC)

ch <- odbcDriverConnect(connStr)

#Import the data from the table
rentaldata <- sqlFetch(ch, "dbo.rental_data")

#Take a look at the structure of the data and the top rows
head(rentaldata)
str(rentaldata)

Anda akan melihat hasil yang mirip dengan yang berikut ini.

   Year  Month  Day  RentalCount  WeekDay  Holiday  Snow
1  2014    1     20      445         2        1      0
2  2014    2     13       40         5        0      0
3  2013    3     10      456         1        0      0
4  2014    3     31       38         2        0      0
5  2014    4     24       23         5        0      0
6  2015    2     11       42         4        0      0
'data.frame':       453 obs. of  7 variables:
$ Year       : int  2014 2014 2013 2014 2014 2015 2013 2014 2013 2015 ...
$ Month      : num  1 2 3 3 4 2 4 3 4 3 ...
$ Day        : num  20 13 10 31 24 11 28 8 5 29 ...
$ RentalCount: num  445 40 456 38 23 42 310 240 22 360 ...
$ WeekDay    : num  2 5 1 2 5 4 1 7 6 1 ...
$ Holiday    : int  1 0 0 0 0 0 0 0 0 0 ...
$ Snow       : num  0 0 0 0 0 0 0 0 0 0 ...

Menyiapkan data

Dalam database sampel ini, sebagian besar persiapan telah dilakukan, tetapi Anda akan melakukan satu persiapan lagi di sini. Gunakan skrip R berikut untuk mengidentifikasi tiga kolom sebagai kategori dengan mengubah jenis data menjadi faktor.

#Changing the three factor columns to factor types
rentaldata$Holiday <- factor(rentaldata$Holiday);
rentaldata$Snow    <- factor(rentaldata$Snow);
rentaldata$WeekDay <- factor(rentaldata$WeekDay);



#Visualize the dataset after the change
str(rentaldata);

Anda akan melihat hasil yang mirip dengan yang berikut ini.

data.frame':      453 obs. of  7 variables:
$ Year       : int  2014 2014 2013 2014 2014 2015 2013 2014 2013 2015 ...
$ Month      : num  1 2 3 3 4 2 4 3 4 3 ...
$ Day        : num  20 13 10 31 24 11 28 8 5 29 ...
$ RentalCount: num  445 40 456 38 23 42 310 240 22 360 ...
$ WeekDay    : Factor w/ 7 levels "1","2","3","4",..: 2 5 1 2 5 4 1 7 6 1 ...
$ Holiday    : Factor w/ 2 levels "0","1": 2 1 1 1 1 1 1 1 1 1 ...
$ Snow       : Factor w/ 2 levels "0","1": 1 1 1 1 1 1 1 1 1 1 ...

Data sekarang disiapkan untuk pelatihan.

Membersihkan sumber daya

Jika Anda tidak akan melanjutkan tutorial ini, hapus database TutorialDB.

Langkah berikutnya

Di bagian dua dari seri tutorial ini, Anda belajar cara:

  • Memuat data sampel ke dalam bingkai data R
  • Siapkan data di R dengan mengidentifikasi beberapa kolom sebagai kategoris

Untuk membuat model pembelajaran mesin yang menggunakan data dari database TutorialDB, ikuti bagian tiga dari seri tutorial ini: