Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Platí pro: SQL Server 2016 (13.x) a novější verze
Azure SQL Managed Instance
Tento článek vysvětluje, jak nastavit ukázkovou databázi skládající se z veřejných dat z Komise pro taxislužbu a limuzíny města New York. Tato data se používají v několika kurzech jazyka R a Python pro analýzu v databázi na SQL Serveru. Abychom ukázkový kód spustili rychleji, vytvořili jsme reprezentativní 1% vzorkování dat. V systému je záložní soubor databáze mírně nad 90 MB a poskytuje 1,7 milionu řádků v primární tabulce dat.
K dokončení tohoto cvičení byste měli mít SQL Server Management Studio (SSMS) nebo jiný nástroj, který může obnovit záložní soubor databáze a spouštět dotazy T-SQL.
Cvičení a rychlé návody, které využívají tuto datovou sadu, zahrnují následující články:
- Seznámení s analýzou v databázi pomocí jazyka R na SQL Serveru
- Seznámení s analýzou v databázi pomocí Pythonu na SQL Serveru
Stažení souborů
Ukázková databáze je záložní soubor SQL Serveru 2016 (.bak), který hostuje Microsoft. Můžete ho obnovit na SQL Serveru 2016 a novějším. Stažení souboru začne okamžitě po otevření odkazu.
Velikost souboru je přibližně 90 MB.
Poznámka:
Pokud chcete obnovit ukázkovou databázi v clusterech s velkými objemy dat SQL Serveru, stáhněte si NYCTaxi_Sample.bak a postupujte podle pokynů v části Obnovení databáze do hlavní instance clusteru SQL Serveru pro velké objemy dat.
Poznámka:
Pokud chcete obnovit ukázkovou databázi ve službě Machine Learning Services ve službě Azure SQL Managed Instance, postupujte podle pokynů v rychlém startu: Obnovení databáze do služby Azure SQL Managed Instance pomocí ukázkové databáze NYC taxi .bak souboru: https://aka.ms/sqlmldocument/NYCTaxi_Sample.bak.
Stáhněte si záložní soubor NYCTaxi_Sample.bak databáze.
Zkopírujte soubor do
C:\Program files\Microsoft SQL Server\MSSQL-instance-name\MSSQL\Backupvýchozí složky vaší instanceBackupnebo do podobné cesty.V nástroji SSMS klikněte pravým tlačítkem na Databáze a vyberte Obnovit soubory a skupiny souborů.
Zadejte
NYCTaxi_Samplenázev databáze.Vyberte ze zařízení a pak otevřete stránku pro výběr souboru a vyberte
NYCTaxi_Sample.bakzáložní soubor. Vyberte Přidat a vyberteNYCTaxi_Sample.bak.Zaškrtněte políčko Obnovit a výběrem ok databázi obnovte.
Kontrola databázových objektů
Pomocí aplikace SQL Server Management Studio ověřte, že databázové objekty existují v instanci SQL Serveru. Měli byste vidět databázi, tabulky, funkce a uložené procedury.
Objekty v databázi NYCTaxi_Sample
Následující tabulka shrnuje objekty vytvořené v databázi ukázky taxislužby NYC.
| Název objektu | Typ objektu | Description |
|---|---|---|
| NYCTaxi_Sample | databáze | Vytvoří databázi a dvě tabulky:dbo.nyctaxi_sample table: Obsahuje hlavní datovou sadu taxislužby NYC. Do tabulky se přidá clusterovaný columnstore index, aby se zlepšil výkon úložiště a dotazů. Do této tabulky byla vložena 1% ukázka datové sady NYC Taxi.dbo.nyc_taxi_models tabulka: Slouží k zachování natrénovaného modelu pokročilé analýzy. |
| fnCalculateDistance | funkce vracející skalární hodnotu | Vypočítá přímou vzdálenost mezi umístěními vyzvednutí a odkládacích míst. Tato funkce se používá v části Vytvoření datových funkcí, Trénování a uložení modelu a zprovoznění modelu R. |
| fnEngineerFeatures | funkce vracející tabulku | Vytvoří nové datové funkce pro trénování modelu. Tato funkce se používá v části Vytvoření datových funkcí a zprovoznění modelu R. |
Uložené procedury se vytvářejí pomocí skriptu jazyka R a Pythonu, který najdete v různých kurzech. Následující tabulka shrnuje uložené procedury, které můžete volitelně přidat do ukázkové databáze taxislužby NYC při spuštění skriptu z různých lekcí.
| Uložená procedura | Jazyk | Description |
|---|---|---|
| RxPlotHistogram | R | Zavolá funkci RevoScaleR rxHistogram , která vykreslí histogram proměnné a pak vrátí graf jako binární objekt. Tato uložená procedura se používá ve službě Prozkoumat a vizualizovat data. |
| RPlotRHist | R | Vytvoří grafiku Hist pomocí funkce a uloží výstup jako místní soubor PDF. Tato uložená procedura se používá ve službě Prozkoumat a vizualizovat data. |
| RxTrainLogitModel | R | Trénuje model logistické regrese voláním balíčku R. Model předpovídá hodnotu sloupce tipped a je natrénován pomocí náhodně vybranými 70 % dat. Výstupem uložené procedury je natrénovaný model, který je uložen v tabulce dbo.nyc_taxi_models. Tato uložená procedura se používá při trénování a ukládání modelu. |
| RxPredictBatchOutput | R | Zavolá natrénovaný model k vytvoření predikcí pomocí modelu. Uložená procedura přijímá dotaz jako vstupní parametr a vrací sloupec číselných hodnot obsahující skóre pro vstupní řádky. Tato uložená procedura se používá v předpovědích potenciálních výsledků. |
| RxPredictSingleRow | R | Zavolá natrénovaný model k vytvoření predikcí pomocí modelu. Tato uložená procedura přijímá jako vstup nové pozorování, přičemž hodnoty jednotlivých funkcí jsou předány jako vložené parametry a vrací hodnotu, která předpovídá výsledek nového pozorování. Tato uložená procedura se používá v předpovědích potenciálních výsledků. |
Vytváření dotazů na data
Jako ověřovací krok spusťte dotaz, abyste potvrdili, že se data nahrála.
V Průzkumníku objektů klikněte v části Databáze pravým tlačítkem myši na NYCTaxi_Sample databázi a spusťte nový dotaz.
Spusťte několik základních dotazů:
SELECT TOP(10) * FROM dbo.nyctaxi_sample; SELECT COUNT(*) FROM dbo.nyctaxi_sample;
Databáze obsahuje 1,7 milionu řádků.
V databázi je
dbo.nyctaxi_sampletabulka, která obsahuje datovou sadu. Tabulka je optimalizována pro množinové výpočty přidáním indexu columnstore. Spuštěním tohoto příkazu vygenerujte rychlý souhrn tabulky.SELECT DISTINCT [passenger_count] , ROUND (SUM ([fare_amount]),0) as TotalFares , ROUND (AVG ([fare_amount]),0) as AvgFares FROM [dbo].[nyctaxi_sample] GROUP BY [passenger_count] ORDER BY AvgFares DESC
Výsledky by se měly podobat výsledkům zobrazeným na následujícím snímku obrazovky.
Další kroky
Ukázková data taxislužby NYC jsou nyní k dispozici pro praktické učení.