Sdílet prostřednictvím


revoscalepy (balíček Pythonu ve službě SQL Server Machine Learning Services)

Platí pro: SQL Server 2017 (14.x) a novější verze

revoscalepy je balíček Pythonu od Microsoftu, který podporuje distribuované výpočty, vzdálené výpočetní kontexty a vysoce výkonné algoritmy datových věd. Balíček je součástí služby SQL Server Machine Learning Services.

Balíček nabízí následující funkce:

  • Místní a vzdálené výpočetní kontexty v systémech se stejnou verzí revoscalepy
  • Funkce transformace a vizualizace dat
  • Funkce datových věd, škálovatelné prostřednictvím distribuovaného nebo paralelního zpracování
  • Vylepšený výkon, včetně použití matematických knihoven Intel

Zdroje dat a výpočetní kontexty, které vytvoříte v revoscalepy , se dají použít také v algoritmech strojového učení. Úvod k těmto algoritmům najdete v modulu Microsoftml Python na SQL Serveru.

Úplná referenční dokumentace

Balíček revoscalepy se distribuuje ve více produktech Microsoftu, ale využití je stejné, jestli balíček získáte v SQL Serveru nebo jiném produktu. Vzhledem k tomu, že jsou funkce stejné, je dokumentace pro jednotlivé funkce revoscalepy publikována pouze do jednoho umístění v referenční dokumentaci Pythonu. Pokud existují nějaká chování specifická pro jednotlivé produkty, budou na stránce nápovědy funkce zaznamenány nesrovnalosti.

Verze a platformy

Modul revoscalepy je založený na Pythonu 3.5 a je k dispozici pouze v případech, kdy nainstalujete některý z následujících produktů společnosti Microsoft nebo stáhnete:

Poznámka:

Plné verze produktových vydání jsou v SQL Server 2017 dostupné pouze pro Windows. Windows i Linux jsou podporované pro revoscalepy v SQL Serveru 2019 a novějším.

Funkce podle kategorie

Tato sekce uvádí funkce podle kategorií, abyste měli představu, jak se každá z nich používá. Také můžete použít obsah k vyhledání funkcí v abecedním pořadí.

1 zdroj dat a výpočetní prostředky

Revoscalepy zahrnuje funkce pro vytváření zdrojů dat a nastavení umístění nebo výpočetního kontextu, kde se provádějí výpočty. Funkce relevantní pro scénáře SQL Serveru jsou uvedené v následující tabulce.

SQL Server a Python v některých případech používají různé datové typy. Seznam mapování mezi datovými typy SQL a Python najdete v tématu Datové typy Python-to-SQL.

Funkce Description
RxInSqlServer Vytvořte objekt výpočetního kontextu SQL Serveru pro zápis výpočtů do vzdálené instance. Několik funkcí revoscalepy jako argument bere výpočetní kontext. Příklad přepínače kontextu najdete v tématu Vytvoření modelu pomocí revoscalepy.
RxSqlServerData Vytvoření datového objektu založeného na dotazu nebo tabulce SQL Serveru
RxOdbcData Vytvořte zdroj dat založený na připojení ODBC.
RxXdfData Vytvořte zdroj dat založený na místním souboru XDF. Soubory XDF se často používají k vyložení dat v paměti na disk. Soubor XDF může být užitečný při práci s více daty, než je možné přenést z databáze v jedné dávce nebo více dat, než se vejde do paměti. Pokud například pravidelně přesouváte velké objemy dat z databáze na místní pracovní stanici, místo opakovaného dotazování databáze pro každou operaci R, můžete soubor XDF použít jako druh mezipaměti k uložení dat místně a pak s ní pracovat ve vašem pracovním prostoru R.

Návod

Pokud s myšlenkou zdrojů dat nebo výpočetních kontextů začínáte, doporučujeme začít článkem Distribuované výpočty.

2- Manipulace s daty (ETL)

Funkce Description
rx_import Importuje data do souboru xdf nebo datového rámce.
rx_data_step Transformujte data ze vstupní datové sady na výstupní datovou sadu.

3-Školení a shrnutí

Funkce Description
rx_btrees Fit stochastické gradientem boostované rozhodovací stromy
rx_dforest Přizpůsobení klasifikačních a regresních rozhodovacích doménových struktur
rx_dtree Přizpůsobení klasifikačních a regresních stromů
rx_lin_mod Vytvoření modelu lineární regrese
rx_logit Vytvoření logistického regresního modelu
rx_summary Vytvářejte jednorozměrné souhrny objektů v revoscalepy.

Měli byste také zkontrolovat funkce v microsoftml a vyhledat další přístupy.

4 bodovací funkce

Funkce Description
rx_predict Vygenerujte předpovědi z natrénovaného modelu a lze je použít k vyhodnocování v reálném čase.
rx_predict_default Výpočty předpovídané hodnoty a reziduí pomocí rx_lin_mod a rx_logit objektů
rx_predict_rx_dforest Vypočítat předpovídané nebo fitované hodnoty pro datovou sadu z rx_dforest nebo rx_btrees objektu.
rx_predict_rx_dtree Vypočítat predikované nebo fitované hodnoty pro datovou sadu z objektu rx_dtree.

Jak pracovat s revoscalepy

Funkce v revoscalepy se dají volat v kódu Pythonu zapouzdřené v uložených procedurách. Většina vývojářů sestavuje řešení revoscalepy na svých počítačích a pak migruje dokončený kód Pythonu do uložených procedur v rámci nasazování.

Při místním spuštění obvykle spustíte skript Pythonu z příkazového řádku nebo z vývojového prostředí Pythonu a určíte výpočetní kontext SQL Serveru pomocí některé z funkcí revoscalepy . Můžete použít vzdálený výpočetní kontext pro celý kód nebo pro jednotlivé funkce. Můžete například chtít přesunout trénování modelu na server tak, aby používal nejnovější data a vyhnuli se přesunu dat.

Až budete připraveni zapouzdřit skript v Pythonu uvnitř uložené procedury sp_execute_external_script, doporučujeme přepsat kód jako jedinou funkci, která má jasně definované vstupy a výstupy.

Vstupy a výstupy musí být datové rámce pandas . Po dokončení můžete volat uloženou proceduru z libovolného klienta, který podporuje T-SQL, snadno předat dotazy SQL jako vstupy a uložit výsledky do tabulek SQL. Příklad najdete v tématu Analýza Pythonu v databázi pro vývojáře SQL.

Použití revoscalepy s microsoftml

Funkce Pythonu pro microsoftml jsou integrované s výpočetními kontexty a zdroji dat, které jsou k dispozici v revoscalepy. Při volání funkcí z microsoftml, například při definování a trénování modelu, použijte funkce revoscalepy ke spuštění kódu Pythonu místně nebo ve vzdáleném výpočetním kontextu SQL Serveru.

Následující příklad ukazuje syntaxi pro import modulů v kódu Pythonu. Pak můžete odkazovat na jednotlivé funkce, které potřebujete.

from microsoftml.modules.logistic_regression.rx_logistic_regression import rx_logistic_regression
from revoscalepy.functions.RxSummary import rx_summary
from revoscalepy.etl.RxImport import rx_import_datasource

Viz také