Aracılığıyla paylaş


SQL Server Python ve R öğreticileri için NYC Taxi tanıtım verileri

Şunlar için geçerlidir: SQL Server 2016 (13.x) ve sonraki sürümleri Azure SQL Yönetilen Örnek

Bu makalede , New York City Taxi ve Limuzin Komisyonu'nun genel verilerinden oluşan örnek bir veritabanının nasıl ayarlanacağı açıklanmaktadır. Bu veriler, SQL Server'da veritabanı içi analiz için çeşitli R ve Python öğreticilerinde kullanılır. Örnek kodun daha hızlı çalışmasını sağlamak için verilerin %1'lik temsil niteliğinde örneklemesini oluşturduk. Sisteminizde veritabanı yedekleme dosyası 90 MB'ın biraz üzerindedir ve birincil veri tablosunda 1,7 milyon satır sağlar.

Bu alıştırmayı tamamlamak için SQL Server Management Studio (SSMS) veya veritabanı yedekleme dosyasını geri yükleyip T-SQL sorgularını çalıştırabilen başka bir aracınız olmalıdır.

Bu veri kümesini kullanan öğreticiler ve hızlı başlangıçlar aşağıdaki makaleleri içerir:

Dosyaları indirme

Örnek veritabanı, Microsoft tarafından barındırılan bir SQL Server 2016 yedekleme (.bak) dosyasıdır. SQL Server 2016 ve sonraki sürümlerde geri yükleyebilirsiniz. Bağlantıyı açtığınızda dosya indirme işlemi hemen başlar.

Dosya boyutu yaklaşık 90 MB'tır.

Uyarı

SQL Server Büyük Veri Kümeleri'ndeki örnek veritabanını geri yüklemek için NYCTaxi_Sample.bak indirin ve VERITABANıNı SQL Server büyük veri kümesi ana örneğine geri yükleme sayfasındaki yönergeleri izleyin.

Uyarı

Azure SQL Yönetilen Örneği'ndeki Machine Learning Services'deki örnek veritabanını geri yüklemek için Hızlı Başlangıç: NYC Taxi demo veritabanı .bak dosyasını kullanarak veritabanını Azure SQL Yönetilen Örneğine geri yükleme başlığı altındaki yönergeleri izleyin: https://aka.ms/sqlmldocument/NYCTaxi_Sample.bak.

  1. NYCTaxi_Sample.bak veritabanı yedekleme dosyasını indirin.

  2. Örneğinizin varsayılan C:\Program files\Microsoft SQL Server\MSSQL-instance-name\MSSQL\Backup klasörü için dosyayı Backup veya benzer bir yola kopyalayın.

  3. SSMS'de Veritabanları'a sağ tıklayın ve Dosyaları ve Dosya Gruplarını Geri Yükle'yi seçin.

  4. Veritabanı adı olarak girin NYCTaxi_Sample .

  5. Cihazdan seçin ve ardından dosya seçim sayfasını açarak NYCTaxi_Sample.bak yedekleme dosyasını seçin. Ekle'yi seçinNYCTaxi_Sample.bak.

  6. Veritabanını geri yüklemek için Geri Yükle onay kutusunu seçin ve Tamam'ı seçin.

Veritabanı nesnelerini gözden geçirme

SQL Server Management Studio kullanarak SQL Server örneğinde veritabanı nesnelerinin mevcut olduğunu onaylayın. Veritabanını, tabloları, işlevleri ve saklı yordamları görmeniz gerekir.

rsql_devtut_BrowseTables

NYCTaxi_Sample veritabanındaki nesneler

Aşağıdaki tabloda NYC Taxi tanıtım veritabanında oluşturulan nesneler özetlemektedir.

Nesne adı Nesne türü Açıklama
NYCTaxi_Sample veritabanı Bir veritabanı ve iki tablo oluşturur:

dbo.nyctaxi_sample tablo: Ana NYC Taxi veri kümesini içerir. Depolama ve sorgu performansını geliştirmek için tabloya kümelenmiş columnstore dizini eklenir. NYC Taxi veri kümesinin 1% örneği bu tabloya eklenir.

dbo.nyc_taxi_models tablo: Eğitilen gelişmiş analiz modelini kalıcı hale getirmek için kullanılır.
fnCalculateDistance skaler değerli işlev Teslim alma ve bırakma konumları arasındaki doğrudan mesafeyi hesaplar. Bu işlev Veri özellikleri oluşturma, Modeli eğitip kaydetme veR modelini kullanıma hazır hale getirme konularında kullanılır.
fnEngineerFeatures tablo değerli fonksiyon Model eğitimi için yeni veri özellikleri oluşturur. Bu işlev , Veri özellikleri oluşturma ve R modelini kullanıma hazır hale getirme bölümünde kullanılır.

Saklı yordamlar, çeşitli öğreticilerde bulunan R ve Python betiği kullanılarak oluşturulur. Aşağıdaki tablo, çeşitli derslerden betikler çalıştırıldığında, isteğe bağlı olarak NYC Taxi demo veritabanına ekleyebileceğiniz saklı yordamları özetlemektedir.

Saklı yordam Language Açıklama
RxPlotHistogram R Bir değişkenin histogramını çizmek için RevoScaleR rxHistogram işlevini çağırır ve çizimi ikili nesne olarak döndürür. Bu saklı yordam verileri keşfetme ve görselleştirme bölümünde kullanılır.
RPlotRHist R işlevini kullanarak Hist bir grafik oluşturur ve çıkışı yerel PDF dosyası olarak kaydeder. Bu saklı yordam verileri keşfetme ve görselleştirme bölümünde kullanılır.
RxTrainLogitModel R R paketini çağırarak lojistik regresyon modelini eğiter. Model, sütunun tipped değerini tahmin eder ve verilerin rastgele seçilen 70% kullanılarak eğitilir. Saklı yordamın çıktısı, dbo.nyc_taxi_models tablosunda kaydedilen eğitilmiş modeldir. Bu saklı yordam, Bir modeli eğit ve kaydet işleminde kullanılır.
RxPredictBatchOutput R Modeli kullanarak tahminler oluşturmak için eğitilen modeli çağırır. Saklı yordam, giriş parametresi olarak bir sorguyu kabul eder ve giriş satırları için puanları içeren sayısal değerlerden oluşan bir sütun döndürür. Bu saklı yordam Olası sonuçları tahmin etme içinde kullanılır.
RxPredictSingleRow R Modeli kullanarak tahminler oluşturmak için eğitilen modeli çağırır. Bu saklı yordam giriş olarak yeni bir gözlem kabul eder ve tek tek özellik değerleri satır içi parametreler olarak geçirilir ve yeni gözlemin sonucunu tahmin eden bir değer döndürür. Bu saklı yordam Olası sonuçları tahmin etme içinde kullanılır.

Verileri sorgulama

Doğrulama adımı olarak, verilerin karşıya yüklendiğini onaylamak için bir sorgu çalıştırın.

  1. Nesne Gezgini'nde, Veritabanları'nın altında NYCTaxi_Sample veritabanına sağ tıklayın ve yeni bir sorgu başlatın.

  2. Bazı temel sorguları çalıştırın:

    SELECT TOP(10) * FROM dbo.nyctaxi_sample;
    SELECT COUNT(*) FROM dbo.nyctaxi_sample;
    

Veritabanı 1,7 milyon satır içerir.

  1. Veritabanında veri kümesini içeren bir dbo.nyctaxi_sample tablo bulunur. Tablo, columnstore dizininin eklenmesiyle set tabanlı hesaplamalar için iyileştirilmiştir. Tabloda hızlı bir özet oluşturmak için bu deyimi çalıştırın.

    SELECT DISTINCT [passenger_count]
        , ROUND (SUM ([fare_amount]),0) as TotalFares
        , ROUND (AVG ([fare_amount]),0) as AvgFares
    FROM [dbo].[nyctaxi_sample]
    GROUP BY [passenger_count]
    ORDER BY  AvgFares DESC
    

Sonuçlar, aşağıdaki ekran görüntüsünde gösterilen sonuçlara benzer olmalıdır.

Tablo özeti bilgileri

Sonraki Adımlar

NYC Taxi örnek verileri artık uygulamalı öğrenme için kullanılabilir.