Megjegyzés
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhat bejelentkezni vagy módosítani a címtárat.
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhatja módosítani a címtárat.
A következőkre vonatkozik: Sql Server 2016 (13.x) és újabb verziók
felügyelt Azure SQL-példány
Ez a cikk bemutatja, hogyan hozhat létre egy mintaadatbázist, amely a New York-i Taxi és Limousine Bizottság nyilvános adataiból áll. Ezeket az adatokat számos R- és Python-oktatóanyagban használják az SQL Server adatbázison belüli elemzéséhez. A mintakód gyorsabb futtatásához létrehoztunk egy reprezentatív 1% mintavételezést az adatokból. A rendszeren az adatbázis biztonsági mentési fájlja valamivel több mint 90 MB, és 1,7 millió sort biztosít az elsődleges adattáblában.
A gyakorlat elvégzéséhez rendelkeznie kell az SQL Server Management Studióval (SSMS) vagy egy másik eszközzel, amely visszaállíthat egy adatbázis biztonsági mentési fájlját, és T-SQL-lekérdezéseket futtathat.
Az adatkészletet használó oktatóanyagok és rövid útmutatók a következő cikkeket tartalmazzák:
- Ismerje meg az adatbázison belüli elemzést az R használatával az SQL Serveren
- Tudnivalók az adatbázison belüli elemzésről a Python használatával az SQL Serverben
Fájlok letöltése
A mintaadatbázis a Microsoft által üzemeltetett SQL Server 2016 biztonsági mentési (.bak) fájl. Visszaállíthatja az SQL Server 2016-os és újabb verzióiban. A fájl letöltése azonnal megkezdődik a hivatkozás megnyitásakor.
A fájl mérete körülbelül 90 MB.
Megjegyzés:
Az SQL Server Big Data Clusterek mintaadatbázisának visszaállításához töltse le a NYCTaxi_Sample.bak fájlt, és kövesse az adatbázis visszaállítása az SQL Server Big Data Cluster fő példányba című dokumentumban található utasításokat.
Megjegyzés:
A Machine Learning Services in Azure SQL Managed Instance mintaadatbázisának visszaállításához kövesse a Rövid útmutató: Adatbázis visszaállítása az Azure SQL felügyelt példányra utasításokat a NYC Taxi bemutató adatbázis .bak fájl használatával: https://aka.ms/sqlmldocument/NYCTaxi_Sample.bak.
Töltse le a NYCTaxi_Sample.bak adatbázis biztonsági másolatát.
Másolja a fájlt példánya alapértelmezett
C:\Program files\Microsoft SQL Server\MSSQL-instance-name\MSSQL\Backupmappájába, vagy egy hasonló elérési útvonalraBackup.Az SSMS-ben kattintson a jobb gombbal az Adatbázisok elemre, és válassza a Fájlok és fájlcsoportok visszaállítása lehetőséget.
Adja meg
NYCTaxi_Sampleaz adatbázis nevét.Válassza az Eszközről lehetőséget , majd nyissa meg a fájlkijelölési lapot a biztonsági mentési
NYCTaxi_Sample.bakfájl kiválasztásához. Válassza a Hozzáadás lehetőséget aNYCTaxi_Sample.bakkiválasztásához.Jelölje be a Visszaállítás jelölőnégyzetet, és az adatbázis visszaállításához kattintson az OK gombra .
Adatbázis-objektumok áttekintése
Ellenőrizze, hogy léteznek-e adatbázis-objektumok az SQL Server-példányon az SQL Server Management Studióval. Látnia kell az adatbázist, a táblákat, a függvényeket és a tárolt eljárásokat.
Objektumok NYCTaxi_Sample adatbázisban
Az alábbi táblázat összefoglalja a NYC Taxi demo adatbázisban létrehozott objektumokat.
| Objektum neve | Objektumtípus | Leírás |
|---|---|---|
| NYCTaxi_Sample | adatbázis | Létrehoz egy adatbázist és két táblát:dbo.nyctaxi_sample tábla: A fő NYC Taxi-adatkészletet tartalmazza. Egy fürtözött oszloptárolós index kerül hozzáadásra a táblához a tárolási és lekérdezési teljesítmény javítása érdekében. Ebbe a táblázatba az NYC Taxi adatkészletének 1% mintája kerül be.dbo.nyc_taxi_models tábla: A betanított fejlett elemzési modell megőrzésére szolgál. |
| fnCalculateDistance | skalár értékű függvény | Kiszámítja a felvételi és a lerakási helyek közötti közvetlen távolságot. Ezt a függvényt az adatszolgáltatások létrehozása, a modell betanítása és mentése , valamint az R-modell üzembe állítása során használják. |
| fnEngineerFeatures | táblázat értékű függvény | Új adatszolgáltatásokat hoz létre a modell betanításához. Ezt a függvényt az adatszolgáltatások létrehozása és az R-modell üzembe állítása során használják. |
A tárolt eljárások r- és Python-szkripttel jönnek létre, amelyek különböző oktatóanyagokban találhatók. Az alábbi táblázat összefoglalja azokat a tárolt eljárásokat, amelyeket opcionálisan hozzáadhat a NYC Taxi demo adatbázisához, amikor szkriptet futtat különböző leckékből.
| Tárolt eljárás | Nyelv | Leírás |
|---|---|---|
| RxPlotHistogram | R | Meghívja a RevoScaleR rxHistogram függvényt egy változó hisztogramjának ábrázolására, majd bináris objektumként adja vissza a diagramot. Ez a tárolt eljárás az adatok feltárása és vizualizációja során használatos. |
| RPlotRHist | R | Létrehoz egy ábrát a Hist függvény használatával, és a kimenetet helyi PDF-fájlként menti. Ez a tárolt eljárás az adatok feltárása és vizualizációja során használatos. |
| RxTrainLogitModel | R | Egy logisztikai regressziós modell betanítása R-csomag meghívásával. A modell előrejelzi az tipped oszlop értékét, és az adatok véletlenszerűen kiválasztott 70% használatával van betanítve. A tárolt eljárás kimenete a betanított modell, amelyet a rendszer a táblába dbo.nyc_taxi_modelsment. Ez a tárolt eljárás a modell betanítása és mentése során használatos. |
| RxPredictBatchOutput | R | Meghívja a betanított modellt, hogy előrejelzéseket hozzon létre a modell használatával. A tárolt eljárás fogadja el a lekérdezést bemeneti paraméterként, és a bemeneti sorok pontszámait tartalmazó numerikus értékek oszlopát adja vissza. Ez a tárolt eljárás a lehetséges eredmények előrejelzésében használatos. |
| RxPredictSingleRow | R | Meghívja a betanított modellt, hogy előrejelzéseket hozzon létre a modell használatával. Ez a tárolt eljárás bemenetként fogad el egy új megfigyelést, amelyben az egyes jellemzőértékek in-line paraméterekként lesznek átadva, és egy olyan értéket ad vissza, amely előrejelzi az új megfigyelés eredményét. Ez a tárolt eljárás a lehetséges eredmények előrejelzésében használatos. |
Adatok lekérdezése
Érvényesítési lépésként futtasson egy lekérdezést az adatok feltöltésének megerősítéséhez.
Az Object Explorer Adatbázisok területén kattintson a jobb gombbal az NYCTaxi_Sample adatbázisra, és indítsa el az új lekérdezést.
Futtasson néhány alapszintű lekérdezést:
SELECT TOP(10) * FROM dbo.nyctaxi_sample; SELECT COUNT(*) FROM dbo.nyctaxi_sample;
Az adatbázis 1,7 millió sort tartalmaz.
Az adatbázisban egy
dbo.nyctaxi_sampletábla található, amely tartalmazza az adatkészletet. A tábla egy oszlopcentrikus index hozzáadásával lett optimalizálva a beállításalapú számításokhoz. Futtassa ezt az utasítást a tábla gyors összefoglalásának létrehozásához.SELECT DISTINCT [passenger_count] , ROUND (SUM ([fare_amount]),0) as TotalFares , ROUND (AVG ([fare_amount]),0) as AvgFares FROM [dbo].[nyctaxi_sample] GROUP BY [passenger_count] ORDER BY AvgFares DESC
Az eredményeknek az alábbi képernyőképen láthatóhoz hasonlónak kell lenniük.
Következő lépések
A NYC Taxi mintaadatai már elérhetők a gyakorlati tanuláshoz.