Sdílet prostřednictvím


Kurz: Vývoj SQL pro datové vědce R

platí pro: SQL Server 2016 (13.x) a novější verze

V tomto kurzu pro datové vědce se dozvíte, jak vytvořit ucelené řešení pro prediktivní modelování založené na podpoře funkcí jazyka R v SQL Serveru 2016 nebo SQL Serveru 2017. V tomto kurzu se používá databáze NYCTaxi_sample na SQL Serveru.

Pomocí kombinace kódu R, dat SQL Serveru a vlastních funkcí SQL sestavíte klasifikační model, který označuje pravděpodobnost, že řidič může získat tip na konkrétní jízdu taxíkem. Model R také nasadíte na SQL Server a použijete data serveru k vygenerování skóre na základě modelu.

Tento příklad lze rozšířit na všechny druhy reálných problémů, jako je předpověď reakcí zákazníků na prodejní kampaně nebo predikce útraty nebo účasti na událostech. Vzhledem k tomu, že model lze vyvolat z uložené procedury, můžete ho snadno vložit do aplikace.

Vzhledem k tomu, že návod je navržený tak, aby vývojářům jazyka R představil služby R (In-Database), používá se jazyk R všude, kde je to možné. To ale neznamená, že R je nutně nejlepším nástrojem pro každý úkol. V mnoha případech může SQL Server poskytovat lepší výkon, zejména pro úlohy, jako je agregace dat a příprava funkcí. Tyto úlohy můžou zvlášť těžit z nových funkcí SQL Serveru, jako jsou indexy columnstore optimalizované pro paměť. Snažíme se na cestě poukázat na možné optimalizace.

Požadavky

Doporučujeme provést tento návod na pracovní stanici klienta. Musíte být schopni se připojit na stejnou síť k počítači s povoleným jazykem R a SQL Serverem. Pokyny ke konfiguraci pracovní stanice najdete v tématu Nastavení klienta pro datové vědy pro vývoj v jazyce R.

Případně můžete spustit návod na počítači, který má SQL Server i vývojové prostředí R, ale nedoporučujeme tuto konfiguraci pro produkční prostředí. Pokud potřebujete umístit klienta a server na stejný počítač, nezapomeňte nainstalovat druhou sadu knihoven Microsoft R pro odesílání skriptu R ze vzdáleného klienta. Nepoužívejte knihovny jazyka R nainstalované v programových souborech instance SQL Serveru. Konkrétně pokud používáte jeden počítač, potřebujete knihovnu RevoScaleR v obou těchto umístěních pro podporu operací klienta a serveru.

  • C:\Program Files\Microsoft\R Client\R_SERVER\library\RevoScaleR
  • C:\Program Files\Microsoft SQL Server\MSSQL14. MSSQLSERVER\R_SERVICES\library\RevoScaleR

Další balíčky R

Tento návod vyžaduje několik knihoven jazyka R, které nejsou ve výchozím nastavení nainstalovány jako součást služeb R (In-Database). Balíčky musíte nainstalovat na klienta, na kterém řešení vyvíjíte, i na počítač s SQL Serverem, na kterém řešení nasazujete.

Na klientské pracovní stanici

V prostředí R zkopírujte následující řádky a spusťte kód v okně konzoly (Rgui nebo integrované vývojové prostředí). Některé balíčky také instalují požadované balíčky. Ve všech je nainstalovaných asi 32 balíčků. K dokončení tohoto kroku musíte mít připojení k internetu.

# Install required R libraries, if they are not already installed.
if (!('ggmap' %in% rownames(installed.packages()))){install.packages('ggmap')}
if (!('mapproj' %in% rownames(installed.packages()))){install.packages('mapproj')}
if (!('ROCR' %in% rownames(installed.packages()))){install.packages('ROCR')}
if (!('RODBC' %in% rownames(installed.packages()))){install.packages('RODBC')}

Na serveru

Máte několik možností instalace balíčků na SQL Server. SQL Server například poskytuje funkci správy balíčků R , která správcům databází umožňuje vytvořit úložiště balíčků a přiřadit uživatelům práva k instalaci vlastních balíčků. Pokud jste však správcem počítače, můžete nainstalovat nové balíčky pomocí jazyka R, pokud ho nainstalujete do správné knihovny.

Poznámka:

Na serveru neinstalujte do uživatelské knihovny, i když se zobrazí výzva. Pokud instalujete do uživatelské knihovny, instance SYSTÉMU SQL Server nemůže najít ani spustit balíčky. Další informace naleznete v tématu Instalace nových balíčků R na SQL Server.

  1. Na počítači s SQL Serverem otevřete RGui.exe jako správce. Pokud jste službu SQL Server R Services nainstalovali pomocí výchozích hodnot, Rgui.exe najdete v umístění C:\Program Files\Microsoft SQL Server\MSSQL13. MSSQLSERVER\R_SERVICES\bin\x64).

  2. Na příkazovém řádku jazyka R spusťte následující příkazy jazyka R:

install.packages("ggmap", lib=grep("Program Files", .libPaths(), value=TRUE)[1])
install.packages("mapproj", lib=grep("Program Files", .libPaths(), value=TRUE)[1])
install.packages("ROCR", lib=grep("Program Files", .libPaths(), value=TRUE)[1])
install.packages("RODBC", lib=grep("Program Files", .libPaths(), value=TRUE)[1])

Tento příklad používá funkci grep jazyka R k vyhledání vektoru dostupných cest a vyhledání cesty, která obsahuje "Program Files". Další informace naleznete v tématu RDocumentation pro základní balíček.

Pokud si myslíte, že balíčky jsou již nainstalovány, zkontrolujte seznam nainstalovaných balíčků spuštěním installed.packages().

Další kroky