Megosztás a következőn keresztül:


NYC Taxi demóadatok SQL Server Python- és R-oktatóanyagokhoz

A következőkre vonatkozik: Sql Server 2016 (13.x) és újabb verziók felügyelt Azure SQL-példány

Ez a cikk bemutatja, hogyan hozhat létre egy mintaadatbázist, amely a New York-i Taxi és Limousine Bizottság nyilvános adataiból áll. Ezeket az adatokat számos R- és Python-oktatóanyagban használják az SQL Server adatbázison belüli elemzéséhez. A mintakód gyorsabb futtatásához létrehoztunk egy reprezentatív 1% mintavételezést az adatokból. A rendszeren az adatbázis biztonsági mentési fájlja valamivel több mint 90 MB, és 1,7 millió sort biztosít az elsődleges adattáblában.

A gyakorlat elvégzéséhez rendelkeznie kell az SQL Server Management Studióval (SSMS) vagy egy másik eszközzel, amely visszaállíthat egy adatbázis biztonsági mentési fájlját, és T-SQL-lekérdezéseket futtathat.

Az adatkészletet használó oktatóanyagok és rövid útmutatók a következő cikkeket tartalmazzák:

Fájlok letöltése

A mintaadatbázis a Microsoft által üzemeltetett SQL Server 2016 biztonsági mentési (.bak) fájl. Visszaállíthatja az SQL Server 2016-os és újabb verzióiban. A fájl letöltése azonnal megkezdődik a hivatkozás megnyitásakor.

A fájl mérete körülbelül 90 MB.

Megjegyzés:

Az SQL Server Big Data Clusterek mintaadatbázisának visszaállításához töltse le a NYCTaxi_Sample.bak fájlt, és kövesse az adatbázis visszaállítása az SQL Server Big Data Cluster fő példányba című dokumentumban található utasításokat.

Megjegyzés:

A Machine Learning Services in Azure SQL Managed Instance mintaadatbázisának visszaállításához kövesse a Rövid útmutató: Adatbázis visszaállítása az Azure SQL felügyelt példányra utasításokat a NYC Taxi bemutató adatbázis .bak fájl használatával: https://aka.ms/sqlmldocument/NYCTaxi_Sample.bak.

  1. Töltse le a NYCTaxi_Sample.bak adatbázis biztonsági másolatát.

  2. Másolja a fájlt példánya alapértelmezett C:\Program files\Microsoft SQL Server\MSSQL-instance-name\MSSQL\Backup mappájába, vagy egy hasonló elérési útvonalra Backup.

  3. Az SSMS-ben kattintson a jobb gombbal az Adatbázisok elemre, és válassza a Fájlok és fájlcsoportok visszaállítása lehetőséget.

  4. Adja meg NYCTaxi_Sample az adatbázis nevét.

  5. Válassza az Eszközről lehetőséget , majd nyissa meg a fájlkijelölési lapot a biztonsági mentési NYCTaxi_Sample.bak fájl kiválasztásához. Válassza a Hozzáadás lehetőséget a NYCTaxi_Sample.bak kiválasztásához.

  6. Jelölje be a Visszaállítás jelölőnégyzetet, és az adatbázis visszaállításához kattintson az OK gombra .

Adatbázis-objektumok áttekintése

Ellenőrizze, hogy léteznek-e adatbázis-objektumok az SQL Server-példányon az SQL Server Management Studióval. Látnia kell az adatbázist, a táblákat, a függvényeket és a tárolt eljárásokat.

rsql_devtut_BrowseTables

Objektumok NYCTaxi_Sample adatbázisban

Az alábbi táblázat összefoglalja a NYC Taxi demo adatbázisban létrehozott objektumokat.

Objektum neve Objektumtípus Leírás
NYCTaxi_Sample adatbázis Létrehoz egy adatbázist és két táblát:

dbo.nyctaxi_sample tábla: A fő NYC Taxi-adatkészletet tartalmazza. Egy fürtözött oszloptárolós index kerül hozzáadásra a táblához a tárolási és lekérdezési teljesítmény javítása érdekében. Ebbe a táblázatba az NYC Taxi adatkészletének 1% mintája kerül be.

dbo.nyc_taxi_models tábla: A betanított fejlett elemzési modell megőrzésére szolgál.
fnCalculateDistance skalár értékű függvény Kiszámítja a felvételi és a lerakási helyek közötti közvetlen távolságot. Ezt a függvényt az adatszolgáltatások létrehozása, a modell betanítása és mentése , valamint az R-modell üzembe állítása során használják.
fnEngineerFeatures táblázat értékű függvény Új adatszolgáltatásokat hoz létre a modell betanításához. Ezt a függvényt az adatszolgáltatások létrehozása és az R-modell üzembe állítása során használják.

A tárolt eljárások r- és Python-szkripttel jönnek létre, amelyek különböző oktatóanyagokban találhatók. Az alábbi táblázat összefoglalja azokat a tárolt eljárásokat, amelyeket opcionálisan hozzáadhat a NYC Taxi demo adatbázisához, amikor szkriptet futtat különböző leckékből.

Tárolt eljárás Nyelv Leírás
RxPlotHistogram R Meghívja a RevoScaleR rxHistogram függvényt egy változó hisztogramjának ábrázolására, majd bináris objektumként adja vissza a diagramot. Ez a tárolt eljárás az adatok feltárása és vizualizációja során használatos.
RPlotRHist R Létrehoz egy ábrát a Hist függvény használatával, és a kimenetet helyi PDF-fájlként menti. Ez a tárolt eljárás az adatok feltárása és vizualizációja során használatos.
RxTrainLogitModel R Egy logisztikai regressziós modell betanítása R-csomag meghívásával. A modell előrejelzi az tipped oszlop értékét, és az adatok véletlenszerűen kiválasztott 70% használatával van betanítve. A tárolt eljárás kimenete a betanított modell, amelyet a rendszer a táblába dbo.nyc_taxi_modelsment. Ez a tárolt eljárás a modell betanítása és mentése során használatos.
RxPredictBatchOutput R Meghívja a betanított modellt, hogy előrejelzéseket hozzon létre a modell használatával. A tárolt eljárás fogadja el a lekérdezést bemeneti paraméterként, és a bemeneti sorok pontszámait tartalmazó numerikus értékek oszlopát adja vissza. Ez a tárolt eljárás a lehetséges eredmények előrejelzésében használatos.
RxPredictSingleRow R Meghívja a betanított modellt, hogy előrejelzéseket hozzon létre a modell használatával. Ez a tárolt eljárás bemenetként fogad el egy új megfigyelést, amelyben az egyes jellemzőértékek in-line paraméterekként lesznek átadva, és egy olyan értéket ad vissza, amely előrejelzi az új megfigyelés eredményét. Ez a tárolt eljárás a lehetséges eredmények előrejelzésében használatos.

Adatok lekérdezése

Érvényesítési lépésként futtasson egy lekérdezést az adatok feltöltésének megerősítéséhez.

  1. Az Object Explorer Adatbázisok területén kattintson a jobb gombbal az NYCTaxi_Sample adatbázisra, és indítsa el az új lekérdezést.

  2. Futtasson néhány alapszintű lekérdezést:

    SELECT TOP(10) * FROM dbo.nyctaxi_sample;
    SELECT COUNT(*) FROM dbo.nyctaxi_sample;
    

Az adatbázis 1,7 millió sort tartalmaz.

  1. Az adatbázisban egy dbo.nyctaxi_sample tábla található, amely tartalmazza az adatkészletet. A tábla egy oszlopcentrikus index hozzáadásával lett optimalizálva a beállításalapú számításokhoz. Futtassa ezt az utasítást a tábla gyors összefoglalásának létrehozásához.

    SELECT DISTINCT [passenger_count]
        , ROUND (SUM ([fare_amount]),0) as TotalFares
        , ROUND (AVG ([fare_amount]),0) as AvgFares
    FROM [dbo].[nyctaxi_sample]
    GROUP BY [passenger_count]
    ORDER BY  AvgFares DESC
    

Az eredményeknek az alábbi képernyőképen láthatóhoz hasonlónak kell lenniük.

Táblaösszegzési információk

Következő lépések

A NYC Taxi mintaadatai már elérhetők a gyakorlati tanuláshoz.