Tutorial R: Memprediksi tarif taksi NYC dengan klasifikasi biner

Berlaku untuk: SQL Server 2016 (13.x) dan yang lebih baru Azure SQL Managed Instance

Dalam seri tutorial lima bagian ini untuk programmer SQL, Anda akan mempelajari tentang integrasi R di SQL Server Machine Learning Services atau di Kluster Big Data.

Dalam seri tutorial lima bagian ini untuk programmer SQL, Anda akan mempelajari tentang integrasi R di SQL Server Machine Learning Services.

Dalam seri tutorial lima bagian ini untuk programmer SQL, Anda akan mempelajari tentang integrasi R di SQL Server 2016 R Services.

Dalam seri tutorial lima bagian ini untuk programmer SQL, Anda akan mempelajari tentang integrasi R di Layanan Pembelajaran Mesin di Azure SQL Managed Instance.

Anda akan membangun dan menyebarkan solusi pembelajaran mesin berbasis R menggunakan database sampel di SQL Server. Anda akan menggunakan T-SQL, Azure Data Studio, atau SQL Server Management Studio, dan instans mesin database dengan pembelajaran mesin SQL dan dukungan bahasa R

Seri tutorial ini memperkenalkan Anda ke fungsi R yang digunakan dalam alur kerja pemodelan data. Bagian-bagiannya termasuk eksplorasi data, membangun dan melatih model klasifikasi biner, dan penyebaran model. Anda akan menggunakan data sampel dari New York City Taxi dan Limousine Commission. Model yang akan Anda bangun memprediksi apakah perjalanan kemungkinan akan menghasilkan tip berdasarkan waktu hari, jarak yang ditempuh, dan lokasi penjemputan.

Di bagian pertama seri ini, Anda akan menginstal prasyarat dan memulihkan database sampel. Di bagian dua dan tiga, Anda akan mengembangkan beberapa skrip R untuk menyiapkan data Anda dan melatih model pembelajaran mesin. Kemudian, di bagian empat dan lima, Anda akan menjalankan skrip R tersebut di dalam database menggunakan prosedur tersimpan T-SQL.

Dalam artikel ini, Anda akan:

  • Prasyarat instal
  • Memulihkan database sampel

Di bagian dua, Anda akan menjelajahi data sampel dan menghasilkan beberapa plot.

Di bagian tiga, Anda akan mempelajari cara membuat fitur dari data mentah dengan menggunakan fungsi Transact-SQL. Anda kemudian akan memanggil fungsi tersebut dari prosedur tersimpan untuk membuat tabel yang berisi nilai fitur.

Di bagian empat, Anda akan memuat modul dan memanggil fungsi yang diperlukan untuk membuat dan melatih model menggunakan prosedur tersimpan SQL Server.

Di bagian lima, Anda akan mempelajari cara mengoprasionalkan model yang Anda latih dan simpan di bagian empat.

Catatan

Tutorial ini tersedia di R dan Python. Untuk versi Python, lihat tutorial Python: Memprediksi tarif taksi NYC dengan klasifikasi biner.

Prasyarat

Semua tugas dapat dilakukan menggunakan prosedur tersimpan Transact-SQL di Azure Data Studio atau Management Studio.

Tutorial ini mengasumsikan keakraban dengan operasi database dasar seperti membuat database dan tabel, mengimpor data, dan menulis kueri SQL. Ini tidak mengasumsikan Anda tahu R dan semua kode R disediakan.

Latar belakang untuk pengembang SQL

Proses membangun solusi pembelajaran mesin adalah solusi kompleks yang dapat melibatkan beberapa alat, dan koordinasi pakar materi pelajaran di beberapa fase:

  • mendapatkan dan membersihkan data
  • menjelajahi data dan membangun fitur yang berguna untuk pemodelan
  • melatih dan menyetel model
  • penyebaran ke produksi

Pengembangan dan pengujian kode aktual paling baik dilakukan menggunakan lingkungan pengembangan R khusus. Namun, setelah skrip sepenuhnya diuji, Anda dapat dengan mudah menyebarkannya ke SQL Server menggunakan prosedur tersimpan Transact-SQL di lingkungan Azure Data Studio atau Management Studio yang familier. Membungkus kode eksternal dalam prosedur tersimpan adalah mekanisme utama untuk mengoprasionalkan kode dalam SQL Server.

Setelah model disimpan ke database, Anda dapat memanggil model untuk prediksi dari Transact-SQL dengan menggunakan prosedur tersimpan.

Baik Anda seorang pemrogram SQL yang baru menggunakan R, atau pengembang R yang baru menggunakan SQL, seri tutorial lima bagian ini memperkenalkan alur kerja umum untuk melakukan analitik dalam database dengan R dan SQL Server.

Langkah berikutnya

Dalam artikel ini, Anda:

  • Prasyarat terinstal
  • Memulihkan database sampel