Tutorial Python: Memprediksi tarif taksi NYC dengan klasifikasi biner

Berlaku untuk: SQL Server 2017 (14.x) dan yang lebih baru Azure SQL Managed Instance

Dalam seri tutorial lima bagian ini untuk programmer SQL, Anda akan mempelajari tentang integrasi Python di SQL Server Machine Learning Services atau di Kluster Big Data.

Dalam seri tutorial lima bagian ini untuk programmer SQL, Anda akan mempelajari tentang integrasi Python di SQL Server Machine Learning Services.

Dalam seri tutorial lima bagian ini untuk programmer SQL, Anda akan mempelajari tentang integrasi Python di Layanan Pembelajaran Mesin di Azure SQL Managed Instance.

Anda akan membangun dan menyebarkan solusi pembelajaran mesin berbasis Python menggunakan database sampel di SQL Server. Anda akan menggunakan T-SQL, Azure Data Studio atau SQL Server Management Studio, dan instans database dengan pembelajaran mesin SQL dan dukungan bahasa Python.

Seri tutorial ini memperkenalkan Anda ke fungsi Python yang digunakan dalam alur kerja pemodelan data. Bagian-bagiannya termasuk eksplorasi data, membangun dan melatih model klasifikasi biner, dan penyebaran model. Anda akan menggunakan data sampel dari New York City Taxi dan Limousine Commission. Model yang akan Anda bangun memprediksi apakah perjalanan kemungkinan akan menghasilkan tip berdasarkan waktu hari, jarak yang ditempuh, dan lokasi penjemputan.

Di bagian pertama seri ini, Anda akan menginstal prasyarat dan memulihkan database sampel. Di bagian dua dan tiga, Anda akan mengembangkan beberapa skrip Python untuk menyiapkan data Anda dan melatih model pembelajaran mesin. Kemudian, di bagian empat dan lima, Anda akan menjalankan skrip Python tersebut di dalam database menggunakan prosedur tersimpan T-SQL.

Dalam artikel ini, Anda akan:

  • Prasyarat instal
  • Memulihkan database sampel

Di bagian dua, Anda akan menjelajahi data sampel dan menghasilkan beberapa plot.

Di bagian tiga, Anda akan mempelajari cara membuat fitur dari data mentah dengan menggunakan fungsi Transact-SQL. Anda kemudian akan memanggil fungsi tersebut dari prosedur tersimpan untuk membuat tabel yang berisi nilai fitur.

Di bagian empat, Anda akan memuat modul dan memanggil fungsi yang diperlukan untuk membuat dan melatih model menggunakan prosedur tersimpan SQL Server.

Di bagian lima, Anda akan mempelajari cara mengoprasionalkan model yang Anda latih dan simpan di bagian empat.

Catatan

Tutorial ini tersedia di R dan Python. Untuk versi R, lihat tutorial R: Memprediksi tarif taksi NYC dengan klasifikasi biner.

Prasyarat

Semua tugas dapat dilakukan menggunakan prosedur tersimpan Transact-SQL di Azure Data Studio atau Management Studio.

Seri tutorial ini mengasumsikan keakraban dengan operasi database dasar seperti membuat database dan tabel, mengimpor data, dan menulis kueri SQL. Ini tidak mengasumsikan Anda tahu Python dan semua kode Python disediakan.

Latar belakang untuk pengembang SQL

Proses membangun solusi pembelajaran mesin adalah solusi kompleks yang dapat melibatkan beberapa alat, dan koordinasi pakar materi pelajaran di beberapa fase:

  • mendapatkan dan membersihkan data
  • menjelajahi data dan membangun fitur yang berguna untuk pemodelan
  • melatih dan menyetel model
  • penyebaran ke produksi

Pengembangan dan pengujian kode aktual paling baik dilakukan menggunakan lingkungan pengembangan khusus. Namun, setelah skrip sepenuhnya diuji, Anda dapat dengan mudah menyebarkannya ke SQL Server menggunakan prosedur tersimpan Transact-SQL di lingkungan Azure Data Studio atau Management Studio yang familier. Membungkus kode eksternal dalam prosedur tersimpan adalah mekanisme utama untuk mengoprasionalkan kode dalam SQL Server.

Setelah model disimpan ke database, Anda dapat memanggil model untuk prediksi dari Transact-SQL dengan menggunakan prosedur tersimpan.

Baik Anda seorang pemrogram SQL yang baru menggunakan Python, atau pengembang Python yang baru menggunakan SQL, seri tutorial lima bagian ini memperkenalkan alur kerja umum untuk melakukan analitik dalam database dengan Python dan SQL Server.

Langkah berikutnya

Dalam artikel ini, Anda:

  • Prasyarat terinstal
  • Memulihkan database sampel