Sdílet prostřednictvím


Ukázková data taxislužby NYC pro tutoriály k SQL Serveru s Python a R

Platí pro: SQL Server 2016 (13.x) a novější verze Azure SQL Managed Instance

Tento článek vysvětluje, jak nastavit ukázkovou databázi skládající se z veřejných dat z Komise pro taxislužbu a limuzíny města New York. Tato data se používají v několika kurzech jazyka R a Python pro analýzu v databázi na SQL Serveru. Abychom ukázkový kód spustili rychleji, vytvořili jsme reprezentativní 1% vzorkování dat. V systému je záložní soubor databáze mírně nad 90 MB a poskytuje 1,7 milionu řádků v primární tabulce dat.

K dokončení tohoto cvičení byste měli mít SQL Server Management Studio (SSMS) nebo jiný nástroj, který může obnovit záložní soubor databáze a spouštět dotazy T-SQL.

Cvičení a rychlé návody, které využívají tuto datovou sadu, zahrnují následující články:

Stažení souborů

Ukázková databáze je záložní soubor SQL Serveru 2016 (.bak), který hostuje Microsoft. Můžete ho obnovit na SQL Serveru 2016 a novějším. Stažení souboru začne okamžitě po otevření odkazu.

Velikost souboru je přibližně 90 MB.

Poznámka:

Pokud chcete obnovit ukázkovou databázi v clusterech s velkými objemy dat SQL Serveru, stáhněte si NYCTaxi_Sample.bak a postupujte podle pokynů v části Obnovení databáze do hlavní instance clusteru SQL Serveru pro velké objemy dat.

  1. Stáhněte si záložní soubor NYCTaxi_Sample.bak databáze.

  2. Zkopírujte soubor do C:\Program files\Microsoft SQL Server\MSSQL-instance-name\MSSQL\Backup výchozí složky vaší instance Backup nebo do podobné cesty.

  3. V nástroji SSMS klikněte pravým tlačítkem na Databáze a vyberte Obnovit soubory a skupiny souborů.

  4. Zadejte NYCTaxi_Sample název databáze.

  5. Vyberte ze zařízení a pak otevřete stránku pro výběr souboru a vyberte NYCTaxi_Sample.bak záložní soubor. Vyberte Přidat a vyberte NYCTaxi_Sample.bak.

  6. Zaškrtněte políčko Obnovit a výběrem ok databázi obnovte.

Kontrola databázových objektů

Pomocí aplikace SQL Server Management Studio ověřte, že databázové objekty existují v instanci SQL Serveru. Měli byste vidět databázi, tabulky, funkce a uložené procedury.

rsql_devtut_BrowseTables

Objekty v databázi NYCTaxi_Sample

Následující tabulka shrnuje objekty vytvořené v databázi ukázky taxislužby NYC.

Název objektu Typ objektu Description
NYCTaxi_Sample databáze Vytvoří databázi a dvě tabulky:

dbo.nyctaxi_sample table: Obsahuje hlavní datovou sadu taxislužby NYC. Do tabulky se přidá clusterovaný columnstore index, aby se zlepšil výkon úložiště a dotazů. Do této tabulky byla vložena 1% ukázka datové sady NYC Taxi.

dbo.nyc_taxi_models tabulka: Slouží k zachování natrénovaného modelu pokročilé analýzy.
fnCalculateDistance funkce vracející skalární hodnotu Vypočítá přímou vzdálenost mezi umístěními vyzvednutí a odkládacích míst. Tato funkce se používá v části Vytvoření datových funkcí, Trénování a uložení modelu a zprovoznění modelu R.
fnEngineerFeatures funkce vracející tabulku Vytvoří nové datové funkce pro trénování modelu. Tato funkce se používá v části Vytvoření datových funkcí a zprovoznění modelu R.

Uložené procedury se vytvářejí pomocí skriptu jazyka R a Pythonu, který najdete v různých kurzech. Následující tabulka shrnuje uložené procedury, které můžete volitelně přidat do ukázkové databáze taxislužby NYC při spuštění skriptu z různých lekcí.

Uložená procedura Jazyk Description
RxPlotHistogram R Zavolá funkci RevoScaleR rxHistogram , která vykreslí histogram proměnné a pak vrátí graf jako binární objekt. Tato uložená procedura se používá ve službě Prozkoumat a vizualizovat data.
RPlotRHist R Vytvoří grafiku Hist pomocí funkce a uloží výstup jako místní soubor PDF. Tato uložená procedura se používá ve službě Prozkoumat a vizualizovat data.
RxTrainLogitModel R Trénuje model logistické regrese voláním balíčku R. Model předpovídá hodnotu sloupce tipped a je natrénován pomocí náhodně vybranými 70 % dat. Výstupem uložené procedury je natrénovaný model, který je uložen v tabulce dbo.nyc_taxi_models. Tato uložená procedura se používá při trénování a ukládání modelu.
RxPredictBatchOutput R Zavolá natrénovaný model k vytvoření predikcí pomocí modelu. Uložená procedura přijímá dotaz jako vstupní parametr a vrací sloupec číselných hodnot obsahující skóre pro vstupní řádky. Tato uložená procedura se používá v předpovědích potenciálních výsledků.
RxPredictSingleRow R Zavolá natrénovaný model k vytvoření predikcí pomocí modelu. Tato uložená procedura přijímá jako vstup nové pozorování, přičemž hodnoty jednotlivých funkcí jsou předány jako vložené parametry a vrací hodnotu, která předpovídá výsledek nového pozorování. Tato uložená procedura se používá v předpovědích potenciálních výsledků.

Vytváření dotazů na data

Jako ověřovací krok spusťte dotaz, abyste potvrdili, že se data nahrála.

  1. V Průzkumníku objektů klikněte v části Databáze pravým tlačítkem myši na NYCTaxi_Sample databázi a spusťte nový dotaz.

  2. Spusťte několik základních dotazů:

    SELECT TOP(10) * FROM dbo.nyctaxi_sample;
    SELECT COUNT(*) FROM dbo.nyctaxi_sample;
    

Databáze obsahuje 1,7 milionu řádků.

  1. V databázi je dbo.nyctaxi_sample tabulka, která obsahuje datovou sadu. Tabulka je optimalizována pro množinové výpočty přidáním indexu columnstore. Spuštěním tohoto příkazu vygenerujte rychlý souhrn tabulky.

    SELECT DISTINCT [passenger_count]
        , ROUND (SUM ([fare_amount]),0) as TotalFares
        , ROUND (AVG ([fare_amount]),0) as AvgFares
    FROM [dbo].[nyctaxi_sample]
    GROUP BY [passenger_count]
    ORDER BY  AvgFares DESC
    

Výsledky by se měly podobat výsledkům zobrazeným na následujícím snímku obrazovky.

Souhrnné informace o tabulce

Další kroky

Ukázková data taxislužby NYC jsou nyní k dispozici pro praktické učení.