Sdílet prostřednictvím


Kurz jazyka R: Predikce jízdy taxíkem NYC s binární klasifikací

Platí pro: SQL Server 2016 (13.x) a novější verze Azure SQL Managed Instance

V této pětidílné sérii kurzů pro programátory SQL se dozvíte o integraci jazyka R ve službě SQL Server Machine Learning Services nebo v clusterech s velkými objemy dat.

V této pětidílné sérii kurzů pro programátory SQL se dozvíte o integraci jazyka R ve službě SQL Server Machine Learning Services.

V této pětidílné sérii kurzů pro programátory SQL se dozvíte o integraci jazyka R ve službě SQL Server 2016 R Services.

V této pětidílné sérii kurzů pro programátory SQL se dozvíte o integraci jazyka R ve službě Machine Learning Services ve službě Azure SQL Managed Instance.

Sestavíte a nasadíte řešení strojového učení založené na jazyce R pomocí ukázkové databáze na SQL Serveru. Budete používat T-SQL, Azure Data Studio nebo SQL Server Management Studio a instanci databázového stroje s podporou strojového učení SQL a jazyka R.

Tato série kurzů vás seznámí s funkcemi jazyka R používanými v pracovním postupu modelování dat. Součástí jsou zkoumání dat, vytváření a trénování modelu binární klasifikace a nasazení modelu. Použijete ukázková data z New York City Taxi a Limousine Commission. Model, který sestavíte, předpovídá, jestli bude cesta pravděpodobně mít za následek špičku na základě času dne, vzdálenosti cestování a umístění vyzvednutí.

V první části této série nainstalujete požadavky a obnovíte ukázkovou databázi. Ve dvou a třech částech vytvoříte některé skripty jazyka R pro přípravu dat a trénování modelu strojového učení. Ve čtyřech a pěti částech pak tyto skripty R spustíte uvnitř databáze pomocí uložených procedur T-SQL.

V tomto článku:

  • Instalace požadovaných součástí
  • Obnovení ukázkové databáze

Ve druhé části prozkoumáte ukázková data a vygenerujete několik grafů.

Ve třetí části se naučíte vytvářet funkce z nezpracovaných dat pomocí funkce Transact-SQL. Potom tuto funkci zavoláte z uložené procedury a vytvoříte tabulku obsahující hodnoty funkcí.

Ve čtvrté části načtete moduly a zavoláte potřebné funkce k vytvoření a trénování modelu pomocí uložené procedury SQL Serveru.

V 5. části se dozvíte, jak zprovoznit modely, které jste natrénovali a uložili ve čtvrté části.

Poznámka:

Tento kurz je k dispozici v jazyce R i Python. Informace o verzi Pythonu najdete v kurzu Pythonu: Predikce jízdy taxislužby NYC s binární klasifikací.

Požadavky

Všechny úlohy je možné provádět pomocí Transact-SQL uložených procedur v nástroji Azure Data Studio nebo Management Studio.

V tomto kurzu se předpokládá znalost základních databázových operací, jako je vytváření databází a tabulek, import dat a zápis dotazů SQL. Nepředpokládá, že znáte R a veškerý kód R je k dispozici.

Pozadí pro vývojáře SQL

Proces vytváření řešení strojového učení je složitý proces, který může zahrnovat více nástrojů a koordinaci odborníků na danou problematiku v několika fázích:

  • získávání a čištění dat
  • prozkoumání dat a vytváření funkcí užitečných pro modelování
  • trénování a ladění modelu
  • nasazení do produkčního prostředí

Vývoj a testování skutečného kódu se nejlépe provádí pomocí vyhrazeného vývojového prostředí jazyka R. Po úplném otestování skriptu ho ale můžete snadno nasadit na SQL Server pomocí Transact-SQL uložených procedur ve známém prostředí nástroje Azure Data Studio nebo Management Studio. Zabalení externího kódu do uložených procedur je primárním mechanismem pro zprovoznění kódu v SQL Serveru.

Po uložení modelu do databáze můžete model volat pro předpovědi z Transact-SQL pomocí uložených procedur.

Ať už jste programátor SQL, který se seznamuje s jazykem R, nebo vývojář jazyka R, který se seznamuje s SQL, představuje tato pětidílná série typický pracovní postup pro provádění analýz v databázi pomocí jazyka R a SQL Serveru.

Další kroky

V tomto článku:

  • Nainstalované předpoklady
  • Obnovili jsme ukázkovou databázi.