Tutorial R: Memprediksi tarif taksi NYC dengan klasifikasi biner
Berlaku untuk: SQL Server 2016 (13.x) dan Azure SQL Managed Instance yang lebih baru
Dalam seri tutorial lima bagian untuk pemrogram SQL ini, Anda akan mempelajari tentang integrasi R di SQL Server Pembelajaran Mesin Services atau di Kluster Big Data.
Dalam seri tutorial lima bagian untuk pemrogram SQL ini, Anda akan mempelajari tentang integrasi R di SQL Server Pembelajaran Mesin Services.
Dalam seri tutorial lima bagian ini untuk pemrogram SQL, Anda akan mempelajari tentang integrasi R di SQL Server 2016 R Services.
Dalam seri tutorial lima bagian untuk pemrogram SQL ini, Anda akan mempelajari tentang integrasi R di Pembelajaran Mesin Services di Azure SQL Managed Instance.
Anda akan membangun dan menyebarkan solusi pembelajaran mesin berbasis R menggunakan database sampel di SQL Server. Anda akan menggunakan T-SQL, Azure Data Studio, atau SQL Server Management Studio, dan instans mesin database dengan pembelajaran mesin SQL dan dukungan bahasa R
Seri tutorial ini memperkenalkan Anda ke fungsi R yang digunakan dalam alur kerja pemodelan data. Bagian-bagian termasuk eksplorasi data, membangun dan melatih model klasifikasi biner, dan penyebaran model. Anda akan menggunakan data sampel dari New York City Taxi dan Limousine Commission. Model yang akan Anda bangun memprediksi apakah perjalanan kemungkinan akan menghasilkan tip berdasarkan waktu hari, jarak yang ditempuh, dan lokasi penjemputan.
Di bagian pertama seri ini, Anda akan menginstal prasyarat dan memulihkan database sampel. Di bagian dua dan tiga, Anda akan mengembangkan beberapa skrip R untuk menyiapkan data Anda dan melatih model pembelajaran mesin. Kemudian, di bagian empat dan lima, Anda akan menjalankan skrip R tersebut di dalam database menggunakan prosedur tersimpan T-SQL.
Dalam artikel ini, Anda akan:
- Prasyarat instal
- Memulihkan database sampel
Di bagian dua, Anda akan menjelajahi data sampel dan menghasilkan beberapa plot.
Di bagian tiga, Anda akan mempelajari cara membuat fitur dari data mentah dengan menggunakan fungsi Transact-SQL. Anda kemudian akan memanggil fungsi tersebut dari prosedur tersimpan untuk membuat tabel yang berisi nilai fitur.
Di bagian empat, Anda akan memuat modul dan memanggil fungsi yang diperlukan untuk membuat dan melatih model menggunakan prosedur tersimpan SQL Server.
Di bagian lima, Anda akan mempelajari cara mengoperalisasi model yang Anda latih dan simpan di bagian empat.
Catatan
Tutorial ini tersedia di R dan Python. Untuk versi Python, lihat tutorial Python: Memprediksi tarif taksi NYC dengan klasifikasi biner.
Prasyarat
- Menginstal Layanan SQL Server 2016 R
- Mulai SQL Server 2019, mekanisme isolasi mengharuskan Anda memberikan izin yang sesuai ke direktori tempat file plot disimpan. Untuk informasi selengkapnya tentang cara mengatur izin ini, lihat bagian Izin file di SQL Server 2019 di Windows: Perubahan isolasi untuk Layanan Pembelajaran Mesin.
Semua tugas dapat dilakukan menggunakan prosedur tersimpan Transact-SQL di Azure Data Studio atau Management Studio.
Tutorial ini mengasumsikan keakraban dengan operasi database dasar seperti membuat database dan tabel, mengimpor data, dan menulis kueri SQL. Ini tidak mengasumsikan Anda tahu R dan semua kode R disediakan.
Latar belakang untuk pengembang SQL
Proses membangun solusi pembelajaran mesin adalah solusi kompleks yang dapat melibatkan beberapa alat, dan koordinasi pakar materi pelajaran di beberapa fase:
- mendapatkan dan membersihkan data
- menjelajahi fitur data dan bangunan yang berguna untuk pemodelan
- melatih dan menyetel model
- penyebaran ke produksi
Pengembangan dan pengujian kode aktual paling baik dilakukan menggunakan lingkungan pengembangan R khusus. Namun, setelah skrip sepenuhnya diuji, Anda dapat dengan mudah menyebarkannya ke SQL Server menggunakan prosedur tersimpan Transact-SQL di lingkungan Azure Data Studio atau Management Studio yang sudah dikenal. Membungkus kode eksternal dalam prosedur tersimpan adalah mekanisme utama untuk mengoperasionalkan kode di SQL Server.
Setelah model disimpan ke database, Anda dapat memanggil model untuk prediksi dari Transact-SQL dengan menggunakan prosedur tersimpan.
Baik Anda seorang programmer SQL yang baru menggunakan R, atau pengembang R yang baru menggunakan SQL, seri tutorial lima bagian ini memperkenalkan alur kerja umum untuk melakukan analitik dalam database dengan R dan SQL Server.
Langkah berikutnya
Dalam artikel ini, Anda:
- Prasyarat terinstal
- Memulihkan database sampel