Tutorial: Pengembangan SQL untuk ilmuwan data R

Berlaku untuk: SQL Server 2016 (13.x) dan versi yang lebih baru

Dalam tutorial ini untuk ilmuwan data, pelajari cara membangun solusi end-to-end untuk pemodelan prediktif berdasarkan dukungan fitur R baik di SQL Server 2016 atau SQL Server 2017. Tutorial ini menggunakan database NYCTaxi_sample di SQL Server.

Anda menggunakan kombinasi kode R, data SQL Server, dan fungsi SQL kustom untuk membangun model klasifikasi yang menunjukkan probabilitas bahwa driver mungkin mendapatkan tip pada perjalanan taksi tertentu. Anda juga menyebarkan model R ke SQL Server dan menggunakan data server untuk menghasilkan skor berdasarkan model.

Contoh ini dapat diperluas ke semua jenis masalah kehidupan nyata, seperti memprediksi respons pelanggan terhadap kampanye penjualan, atau memprediksi pengeluaran atau kehadiran di acara. Karena model dapat dipanggil dari prosedur tersimpan, Anda dapat dengan mudah menyematkannya dalam aplikasi.

Karena panduan ini dirancang untuk memperkenalkan pengembang R ke R Services (In-Database), R digunakan sedapat mungkin. Namun, ini tidak berarti bahwa R selalu menjadi alat terbaik untuk setiap tugas. Dalam banyak kasus, SQL Server mungkin memberikan performa yang lebih baik, terutama untuk tugas seperti agregasi data dan rekayasa fitur. Tugas tersebut terutama dapat memperoleh manfaat dari fitur baru di SQL Server, seperti indeks penyimpan kolom memori yang dioptimalkan. Kami mencoba menunjukkan kemungkinan pengoptimalan di sepanjang jalan.

Prasyarat

Kami menyarankan agar Anda melakukan panduan ini di stasiun kerja klien. Anda harus dapat tersambung, pada jaringan yang sama, ke komputer SQL Server dengan SQL Server dan bahasa R diaktifkan. Untuk petunjuk tentang konfigurasi stasiun kerja, lihat Menyiapkan klien ilmu data untuk pengembangan R.

Atau, Anda dapat menjalankan panduan di komputer yang memiliki lingkungan pengembangan SQL Server dan R, tetapi kami tidak merekomendasikan konfigurasi ini untuk lingkungan produksi. Jika Anda perlu menempatkan klien dan server di komputer yang sama, pastikan untuk menginstal sekumpulan pustaka Microsoft R kedua untuk mengirim skrip R dari klien "jarak jauh". Jangan gunakan pustaka R yang diinstal dalam file program instans SQL Server. Secara khusus, jika Anda menggunakan satu komputer, Anda memerlukan pustaka RevoScaleR di kedua lokasi ini untuk mendukung operasi klien dan server.

  • C:\Program Files\Microsoft\R Client\R_SERVER\library\RevoScaleR
  • C:\Program Files\Microsoft SQL Server\MSSQL14. MSSQLSERVER\R_SERVICES\library\RevoScaleR

Paket R tambahan

Panduan ini memerlukan beberapa pustaka R yang tidak diinstal secara default sebagai bagian dari R Services (In-Database). Anda harus menginstal paket baik pada klien tempat Anda mengembangkan solusi, dan di komputer SQL Server tempat Anda menyebarkan solusi.

Di stasiun kerja klien

Di lingkungan R Anda, salin baris berikut dan jalankan kode di jendela Konsol (Rgui atau IDE). Beberapa paket juga menginstal paket yang diperlukan. Secara keseluruhan, sekitar 32 paket diinstal. Anda harus memiliki koneksi internet untuk menyelesaikan langkah ini.

# Install required R libraries, if they are not already installed.
if (!('ggmap' %in% rownames(installed.packages()))){install.packages('ggmap')}
if (!('mapproj' %in% rownames(installed.packages()))){install.packages('mapproj')}
if (!('ROCR' %in% rownames(installed.packages()))){install.packages('ROCR')}
if (!('RODBC' %in% rownames(installed.packages()))){install.packages('RODBC')}

Di server

Anda memiliki beberapa opsi untuk menginstal paket di SQL Server. Misalnya, SQL Server menyediakan fitur manajemen paket R yang memungkinkan administrator database membuat repositori paket dan menetapkan hak kepada pengguna untuk menginstal paket mereka sendiri. Namun, jika Anda adalah administrator di komputer, Anda dapat menginstal paket baru menggunakan R, selama Anda menginstal ke pustaka yang benar.

Catatan

Di server, jangan instal ke pustaka pengguna meskipun diminta. Jika Anda menginstal ke pustaka pengguna, instans SQL Server tidak dapat menemukan atau menjalankan paket. Untuk informasi selengkapnya, lihat Menginstal Paket R baru di SQL Server.

  1. Di komputer SQL Server, buka RGui.exe sebagai administrator. Jika Anda telah menginstal SQL Server R Services menggunakan default, Rgui.exe dapat ditemukan di C:\Program Files\Microsoft SQL Server\MSSQL13. MSSQLSERVER\R_SERVICES\bin\x64).

  2. Pada perintah R, jalankan perintah R berikut:

install.packages("ggmap", lib=grep("Program Files", .libPaths(), value=TRUE)[1])
install.packages("mapproj", lib=grep("Program Files", .libPaths(), value=TRUE)[1])
install.packages("ROCR", lib=grep("Program Files", .libPaths(), value=TRUE)[1])
install.packages("RODBC", lib=grep("Program Files", .libPaths(), value=TRUE)[1])

Contoh ini menggunakan fungsi grep R untuk mencari vektor jalur yang tersedia dan menemukan jalur yang mencakup "File Program". Untuk informasi selengkapnya, lihat RDocumentation untuk paket dasar.

Jika Anda merasa paket sudah diinstal, periksa daftar paket yang diinstal dengan menjalankan installed.packages().

Langkah berikutnya