Sdílet prostřednictvím


Kurz Pythonu: Predikce jízdy taxíkem NYC s binární klasifikací

Platí pro: SQL Server 2017 (14.x) a novější verze Azure SQL Managed Instance

V této pětidílné sérii kurzů pro programátory SQL se dozvíte o integraci Pythonu ve službě SQL Server Machine Learning Services nebo v clusterech s velkými objemy dat.

V této pětidílné sérii kurzů pro programátory SQL se dozvíte o integraci Pythonu ve službě SQL Server Machine Learning Services.

V této pětidílné sérii kurzů pro programátory SQL se dozvíte o integraci Pythonu ve službě Machine Learning Services ve službě Azure SQL Managed Instance.

Sestavíte a nasadíte řešení strojového učení založené na Pythonu pomocí ukázkové databáze na SQL Serveru. Použijete T-SQL, Azure Data Studio nebo SQL Server Management Studio a instanci databáze s podporou strojového učení SQL a jazyka Python.

Tato série kurzů představuje funkce Pythonu používané v pracovním postupu modelování dat. Součástí jsou zkoumání dat, vytváření a trénování modelu binární klasifikace a nasazení modelu. Použijete ukázková data z New York City Taxi a Limousine Commission. Model, který sestavíte, předpovídá, jestli bude cesta pravděpodobně mít za následek špičku na základě času dne, vzdálenosti cestování a umístění vyzvednutí.

V první části této série nainstalujete požadavky a obnovíte ukázkovou databázi. Ve dvou a třech částech vytvoříte některé skripty Pythonu pro přípravu dat a trénování modelu strojového učení. Potom ve čtyřech a pěti částech spustíte tyto skripty Pythonu uvnitř databáze pomocí uložených procedur T-SQL.

V tomto článku:

  • Instalace požadovaných součástí
  • Obnovení ukázkové databáze

Ve druhé části prozkoumáte ukázková data a vygenerujete několik grafů.

Ve třetí části se naučíte vytvářet funkce z nezpracovaných dat pomocí funkce Transact-SQL. Potom tuto funkci zavoláte z uložené procedury a vytvoříte tabulku obsahující hodnoty funkcí.

Ve čtvrté části načtete moduly a zavoláte potřebné funkce k vytvoření a trénování modelu pomocí uložené procedury SQL Serveru.

V 5. části se dozvíte, jak zprovoznit modely, které jste natrénovali a uložili ve čtvrté části.

Poznámka:

Tento kurz je k dispozici v jazyce R i Python. Informace o verzi jazyka R najdete v kurzu jazyka R: Predikce jízdného taxislužby NYC s binární klasifikací.

Požadavky

Všechny úlohy je možné provádět pomocí Transact-SQL uložených procedur v nástroji Azure Data Studio nebo Management Studio.

V této sérii kurzů se předpokládá znalost základních databázových operací, jako je vytváření databází a tabulek, import dat a zápis dotazů SQL. Nepředpokládá, že znáte Python a poskytuje se veškerý kód Pythonu.

Pozadí pro vývojáře SQL

Proces vytváření řešení strojového učení je složitý proces, který může zahrnovat více nástrojů a koordinaci odborníků na danou problematiku v několika fázích:

  • získávání a čištění dat
  • prozkoumání dat a vytváření funkcí užitečných pro modelování
  • trénování a ladění modelu
  • nasazení do produkčního prostředí

Vývoj a testování skutečného kódu se nejlépe provádí pomocí vyhrazeného vývojového prostředí. Po úplném otestování skriptu ho ale můžete snadno nasadit na SQL Server pomocí Transact-SQL uložených procedur ve známém prostředí nástroje Azure Data Studio nebo Management Studio. Zabalení externího kódu do uložených procedur je primárním mechanismem pro zprovoznění kódu v SQL Serveru.

Po uložení modelu do databáze můžete model volat pro předpovědi z Transact-SQL pomocí uložených procedur.

Ať už jste programátor SQL novinkou v Pythonu, nebo vývojář Pythonu, který je pro SQL nový, představuje tato pětidílná série kurzů typický pracovní postup pro provádění analýz v databázi pomocí Pythonu a SQL Serveru.

Další kroky

V tomto článku:

  • Nainstalované předpoklady
  • Obnovili jsme ukázkovou databázi.