Data demo Taksi NYC untuk tutorial SQL Server Python dan R

Berlaku untuk: SQL Server 2016 (13.x) dan yang lebih baru Azure SQL Managed Instance

Artikel ini menjelaskan cara menyiapkan database sampel yang terdiri dari data publik dari New York City Taxi dan Limousine Commission. Data ini digunakan dalam beberapa tutorial R dan Python untuk analitik dalam database di SQL Server. Untuk membuat kode sampel berjalan lebih cepat, kami membuat pengambilan sampel 1% data yang representatif. Pada sistem Anda, file cadangan database sedikit lebih dari 90 MB, menyediakan 1,7 juta baris dalam tabel data utama.

Untuk menyelesaikan latihan ini, Anda harus memiliki SQL Server Management Studio (SSMS) atau alat lain yang dapat memulihkan file cadangan database dan menjalankan kueri T-SQL.

Tutorial dan mulai cepat menggunakan himpunan data ini meliputi yang berikut ini:

File pengunduhan

Database sampel adalah file BAK SQL Server 2016 yang dihosting oleh Microsoft. Anda dapat memulihkannya pada SQL Server 2016 dan yang lebih baru. Pengunduhan file segera dimulai saat Anda membuka tautan.

Ukuran file sekitar 90 MB.

Catatan

Untuk memulihkan database sampel di SQL Server Kluster Big Data, unduh NYCTaxi_Sample.bak dan ikuti petunjuk dalam Memulihkan database ke dalam instans master kluster big data SQL Server.

Catatan

Untuk memulihkan database sampel di Layanan Pembelajaran Mesin di Azure SQL Managed Instance, ikuti instruksi di Mulai Cepat: Memulihkan database ke Azure SQL Managed Instance menggunakan file .bak database demo Taksi NYC: https://aka.ms/sqlmldocument/NYCTaxi_Sample.bak.

  1. Unduh file cadangan database NYCTaxi_Sample.bak .

  2. Salin file ke C:\Program files\Microsoft SQL Server\MSSQL-instance-name\MSSQL\Backup atau jalur serupa, untuk folder default Backup instans Anda.

  3. Di SQL Server Management Studio, klik kanan Database dan pilih Pulihkan File dan Grup File.

  4. Masukkan NYCTaxi_Sample sebagai nama database.

  5. Pilih Dari perangkat lalu buka halaman pilihan file untuk memilih NYCTaxi_Sample.bak file cadangan. Pilih Tambahkan untuk memilih NYCTaxi_Sample.bak.

  6. Pilih kotak centang Pulihkan dan pilih OK untuk memulihkan database.

Meninjau objek database

Konfirmasikan objek database ada pada instans SQL Server menggunakan SQL Server Management Studio. Anda akan melihat database, tabel, fungsi, dan prosedur tersimpan.

rsql_devtut_BrowseTables rsql_devtut_BrowseTables

Objek dalam database NYCTaxi_Sample

Tabel berikut ini meringkas objek yang dibuat dalam database demo Taksi NYC.

Nama Objek Tipe objek Deskripsi
NYCTaxi_Sample database Membuat database dan dua tabel:

dbo.nyctaxi_sample tabel: Berisi himpunan data Taksi NYC utama. Indeks penyimpan kolom berkluster ditambahkan ke tabel untuk meningkatkan penyimpanan dan performa kueri. Sampel 1% himpunan data Taksi NYC dimasukkan ke dalam tabel ini.

dbo.nyc_taxi_models tabel: Digunakan untuk mempertahankan model analitik tingkat lanjut terlatih.
fnCalculateDistance fungsi bernilai skalar Menghitung jarak langsung antara lokasi penjemputan dan pengantaran. Fungsi ini digunakan dalam Membuat fitur data, Melatih dan menyimpan model dan Mengoprasionalkan model R.
fnEngineerFeatures Fungsi bernilai tabel Membuat fitur data baru untuk pelatihan model. Fungsi ini digunakan dalam Membuat fitur data dan Mengoprasionalkan model R.

Prosedur tersimpan dibuat menggunakan skrip R dan Python yang ditemukan dalam berbagai tutorial. Tabel berikut ini meringkas prosedur tersimpan yang dapat Anda tambahkan secara opsional ke database demo Taksi NYC saat Anda menjalankan skrip dari berbagai pelajaran.

Prosedur Tersimpan Bahasa Deskripsi
RxPlotHistogram R Memanggil fungsi RevoScaleR rxHistogram untuk memplot histogram variabel lalu mengembalikan plot sebagai objek biner. Prosedur tersimpan ini digunakan dalam Menjelajahi dan memvisualisasikan data.
RPlotRHist R Membuat grafik menggunakan Hist fungsi dan menyimpan output sebagai file PDF lokal. Prosedur tersimpan ini digunakan dalam Menjelajahi dan memvisualisasikan data.
RxTrainLogitModel R Melatih model regresi logistik dengan memanggil paket R. Model memprediksi nilai tipped kolom, dan dilatih menggunakan 70% data yang dipilih secara acak. Output dari prosedur tersimpan adalah model terlatih, yang disimpan dalam tabel dbo.nyc_taxi_models. Prosedur tersimpan ini digunakan dalam Latih dan simpan model.
RxPredictBatchOutput R Memanggil model terlatih untuk membuat prediksi menggunakan model. Prosedur tersimpan menerima kueri sebagai parameter inputnya dan mengembalikan kolom nilai numerik yang berisi skor untuk baris input. Prosedur tersimpan ini digunakan dalam Memprediksi potensi hasil.
RxPredictSingleRow R Memanggil model terlatih untuk membuat prediksi menggunakan model. Prosedur tersimpan ini menerima pengamatan baru sebagai input, dengan nilai fitur individual yang diteruskan sebagai parameter sebaris, dan mengembalikan nilai yang memprediksi hasil untuk pengamatan baru. Prosedur tersimpan ini digunakan dalam Memprediksi potensi hasil.

Mengkueri data

Sebagai langkah validasi, jalankan kueri untuk mengonfirmasi bahwa data telah diunggah.

  1. Di Object Explorer, di bawah Database, klik kanan database NYCTaxi_Sample, dan mulai kueri baru.

  2. Jalankan beberapa kueri sederhana:

    SELECT TOP(10) * FROM dbo.nyctaxi_sample;
    SELECT COUNT(*) FROM dbo.nyctaxi_sample;
    

Database berisi 1,7 juta baris.

  1. Dalam database adalah dbo.nyctaxi_sample tabel yang berisi himpunan data. Tabel telah dioptimalkan untuk perhitungan berbasis set dengan penambahan indeks penyimpan kolom. Jalankan pernyataan ini untuk menghasilkan ringkasan cepat pada tabel.

    SELECT DISTINCT [passenger_count]
        , ROUND (SUM ([fare_amount]),0) as TotalFares
        , ROUND (AVG ([fare_amount]),0) as AvgFares
    FROM [dbo].[nyctaxi_sample]
    GROUP BY [passenger_count]
    ORDER BY  AvgFares DESC
    

Hasilnya harus mirip dengan yang ditampilkan dalam cuplikan layar berikut.

Hasil kueri

Langkah berikutnya

Data sampel Taksi NYC sekarang tersedia untuk pembelajaran langsung.