Tutorial: Menggunakan fungsi RevoScaleR R dengan data SQL Server

Berlaku untuk: SQL Server 2016 (13.x) dan versi yang lebih baru

Dalam seri tutorial multi-bagian ini, Anda diperkenalkan ke berbagai fungsi RevoScaleR untuk tugas yang terkait dengan ilmu data. Dalam prosesnya, Anda akan mempelajari cara membuat konteks komputasi jarak jauh, memindahkan data antara konteks komputasi lokal dan jarak jauh, dan menjalankan kode R pada SQL Server jarak jauh. Anda juga akan mempelajari cara menganalisis dan memplot data baik secara lokal maupun di server jarak jauh, serta cara membuat dan menyebarkan model.

RevoScaleR adalah paket Microsoft R yang menyediakan pemrosesan terdistribusi dan paralel untuk beban kerja ilmu data dan pembelajaran mesin. Untuk pengembangan R di SQL Server, RevoScaleR adalah salah satu paket bawaan inti, dengan fungsi untuk membuat objek sumber data, mengatur konteks komputasi, mengelola paket, dan yang paling penting: bekerja dengan data end-to-end, dari impor ke visualisasi dan analisis. Algoritma Pembelajaran Mesin di SQL Server memiliki dependensi pada sumber data RevoScaleR. Mengingat pentingnya RevoScaleR, mengetahui kapan dan bagaimana memanggil fungsinya adalah keterampilan penting.

Prasyarat

Untuk beralih bolak-balik antara konteks komputasi lokal dan jarak jauh, Anda memerlukan dua sistem. Lokal biasanya merupakan stasiun kerja pengembangan dengan kekuatan yang memadai untuk beban kerja ilmu data. Jarak jauh dalam hal ini SQL Server dengan fitur R diaktifkan.

Beralih konteks komputasi diprediksikan memiliki RevoScaleR versi yang sama pada sistem lokal dan jarak jauh. Di stasiun kerja lokal, Anda bisa mendapatkan paket RevoScaleR dan penyedia terkait dengan menginstal Klien Microsoft R.

Jika Anda perlu menempatkan klien dan server di komputer yang sama, pastikan untuk menginstal set kedua pustaka Microsoft R untuk mengirim skrip R dari klien "jarak jauh". Jangan gunakan pustaka R yang diinstal dalam file program instans SQL Server. Secara khusus, jika Anda menggunakan satu komputer, Anda memerlukan pustaka RevoScaleR di kedua lokasi ini untuk mendukung operasi klien dan server.

  • C:\Program Files\Microsoft\R Client\R_SERVER\library\RevoScaleR
  • C:\Program Files\Microsoft SQL Server\MSSQL14. MSSQLSERVER\R_SERVICES\library\RevoScaleR

Untuk petunjuk tentang konfigurasi klien, lihat Menyiapkan klien ilmu data untuk pengembangan R.

Alat pengembangan R

Pengembang R biasanya menggunakan IDE untuk menulis dan men-debug kode R. Berikut adalah beberapa saran:

  • R Tools for Visual Studio (RTVS) adalah plug-in gratis yang menyediakan Intellisense, penelusuran kesalahan, dan dukungan untuk Microsoft R. Anda dapat menggunakannya dengan SQL Server Machine Learning Services. Untuk mengunduh, lihat Alat R untuk Visual Studio.

  • RStudio adalah salah satu lingkungan yang lebih populer untuk pengembangan R. Untuk informasi selengkapnya, lihat https://www.rstudio.com/products/RStudio/.

  • Alat R dasar (R.exe, RTerm.exe, RScripts.exe) juga diinstal secara default saat Anda menginstal R di SQL Server atau Klien R. Jika Anda tidak ingin menginstal IDE, Anda dapat menggunakan alat R bawaan untuk menjalankan kode dalam tutorial ini.

Ingat bahwa RevoScaleR diperlukan pada komputer lokal dan jarak jauh. Anda tidak dapat menyelesaikan tutorial ini menggunakan penginstalan generik RStudio atau lingkungan lain yang tidak memiliki pustaka Microsoft R. Untuk informasi selengkapnya, lihat Menyiapkan Klien Ilmu Data.

Ringkasan tugas

  • Data awalnya diperoleh dari file CSV atau file XDF. Anda mengimpor data ke SQL Server menggunakan fungsi dalam paket RevoScaleR.
  • Pelatihan dan penilaian model dilakukan menggunakan konteks komputasi SQL Server.
  • Gunakan fungsi RevoScaleR untuk membuat tabel SQL Server baru untuk menyimpan hasil penilaian Anda.
  • Buat plot baik di server maupun dalam konteks komputasi lokal.
  • Latih model pada data dalam database SQL Server, menjalankan R dalam instans SQL Server.
  • Ekstrak subset data dan simpan sebagai file XDF untuk digunakan kembali dalam analisis di stasiun kerja lokal Anda.
  • Dapatkan data baru untuk penilaian, dengan membuka koneksi ODBC ke database SQL Server. Penilaian dilakukan di stasiun kerja lokal.
  • Buat fungsi R kustom dan jalankan dalam konteks komputasi server untuk melakukan simulasi.

Langkah berikutnya