Udostępnij za pomocą


revoscalepy (pakiet języka Python w usługach SQL Server Machine Learning Services)

Dotyczy: SQL Server 2017 (14.x) i nowsze wersje

revoscalepy to pakiet języka Python firmy Microsoft, który obsługuje rozproszone przetwarzanie, konteksty obliczeń zdalnych i algorytmy nauki o danych o wysokiej wydajności. Pakiet jest zawarty w usługach SQL Server Machine Learning Services.

Pakiet oferuje następujące funkcje:

  • Lokalne i zdalne konteksty obliczeniowe w systemach mających tę samą wersję programu revoscalepy
  • Funkcje przekształcania i wizualizacji danych
  • Funkcje nauki o danych, skalowalne za pomocą rozproszonego lub równoległego przetwarzania
  • Zwiększona wydajność, w tym użycie bibliotek matematycznych Intel

Źródła danych i konteksty obliczeniowe tworzone w programie revoscalepy mogą być również używane w algorytmach uczenia maszynowego. Aby zapoznać się z wprowadzeniem do tych algorytmów, zobacz moduł języka Python microsoftml w programie SQL Server.

Pełna dokumentacja referencyjna

Pakiet revoscalepy jest dystrybuowany w wielu produktach firmy Microsoft, ale użycie jest takie samo, czy pakiet jest pobierany w programie SQL Server, czy innym produkcie. Ponieważ funkcje są takie same, dokumentacja poszczególnych funkcji revoscalepy jest publikowana tylko w jednej lokalizacji w odniesieniu do Pythona. Jeśli istnieją jakiekolwiek zachowania charakterystyczne dla produktu, rozbieżności zostaną zanotowane na stronie pomocy funkcji.

Wersje i platformy

Moduł revoscalepy jest oparty na języku Python 3.5 i dostępny tylko podczas instalowania jednego z następujących produktów lub plików do pobrania firmy Microsoft:

Uwaga / Notatka

Pełne wersje wydania produktu są dostępne wyłącznie na Windows w SQL Server 2017. Systemy Windows i Linux są obsługiwane przez revoscalepy w SQL Server 2019 i późniejszych.

Funkcje według kategorii

Ta sekcja wymienia funkcje według kategorii, aby dać Ci wyobrażenie, jak każda z nich jest używana. Możesz również użyć spisu treści , aby znaleźć funkcje w kolejności alfabetycznej.

1 — źródło danych i obliczenia

Revoscalepy zawiera funkcje służące do tworzenia źródeł danych i ustawiania lokalizacji lub kontekstu obliczeniowego, w którym są wykonywane obliczenia. Funkcje istotne dla scenariuszy programu SQL Server są wymienione w poniższej tabeli.

W niektórych przypadkach programy SQL Server i Python używają różnych typów danych. Aby uzyskać listę mapowań między typami danych SQL i Python, zobacz Typy danych typu Python-to-SQL.

Funkcja Description
RxInSqlServer Utwórz obiekt kontekstu obliczeniowego programu SQL Server w celu wypychania obliczeń do wystąpienia zdalnego. Kilka funkcji revoscalepy przyjmują kontekst obliczeniowy jako argument. Aby zapoznać się z przykładem przełącznika kontekstu, zobacz Tworzenie modelu przy użyciu biblioteki revoscalepy.
RxSqlServerData Utwórz obiekt danych na podstawie zapytania lub tabeli programu SQL Server.
RxOdbcData Utwórz źródło danych na podstawie połączenia ODBC.
RxXdfData Utwórz źródło danych na podstawie lokalnego pliku XDF. Pliki XDF są często używane do odciążania danych w pamięci na dysku. Plik XDF może być przydatny podczas pracy z większą ilością danych niż można przesyłać z bazy danych w jednej partii lub więcej danych, niż można zmieścić w pamięci. Jeśli na przykład regularnie przenosisz duże ilości danych z bazy danych na lokalną stację roboczą, zamiast wykonywać zapytania dotyczące bazy danych wielokrotnie dla każdej operacji języka R, możesz użyć pliku XDF jako rodzaju pamięci podręcznej, aby zapisać dane lokalnie, a następnie pracować z nią w obszarze roboczym języka R.

Wskazówka

Jeśli dopiero zaczynasz od pomysłu źródeł danych lub kontekstów obliczeniowych, zalecamy rozpoczęcie pracy z artykułem Przetwarzanie rozproszone.

2-Manipulowanie danymi (ETL)

Funkcja Description
rx_import Zaimportuj dane do pliku xdf lub ramki danych.
rx_data_step Przekształć dane z zestawu danych wejściowych na wyjściowy zestaw danych.

3- Trenowanie i podsumowanie

Funkcja Description
rx_btrees Dopasowywanie stochastycznych drzew decyzyjnych opartych na wzmacnianiu gradientowym.
rx_dforest Dopasowanie lasów decyzyjnych do klasyfikacji i regresji
rx_dtree Dopasowanie drzew klasyfikacji i regresji
rx_lin_mod Tworzenie modelu regresji liniowej
rx_logit Tworzenie modelu regresji logistycznej
rx_summary Tworzenie jednowymiarowych podsumowań obiektów w revoscalepy.

Należy również przejrzeć funkcje w microsoftml, aby uzyskać dodatkowe podejścia.

4-Funkcje oceniania

Funkcja Description
rx_predict Generowanie przewidywań z wytrenowanego modelu, które można wykorzystać do oceny wyników w czasie rzeczywistym.
rx_predict_default Obliczanie przewidywanych wartości i reszt przy użyciu obiektów rx_lin_mod i rx_logit.
rx_predict_rx_dforest Oblicz przewidywane lub dopasowane wartości dla zestawu danych z obiektu rx_dforest lub rx_btrees.
rx_predict_rx_dtree Oblicz przewidywane lub dopasowane wartości dla zestawu danych z obiektu rx_dtree.

Jak pracować z modułem revoscalepy

Funkcje w revoscalepy są wywoływane w kodzie języka Python zawartym w procedurach składowanych. Większość deweloperów tworzy rozwiązania revoscalepy lokalnie, a następnie migruje kod języka Python do procedur składowanych w ramach ćwiczenia wdrażania.

Podczas uruchamiania lokalnego zazwyczaj uruchamiasz skrypt języka Python z poziomu wiersza polecenia lub środowiska programistycznego języka Python i określasz kontekst obliczeniowy programu SQL Server przy użyciu jednej z funkcji revoscalepy . Można użyć zdalnego kontekstu obliczeniowego dla całego kodu lub dla poszczególnych funkcji. Na przykład możesz odciążyć trenowanie modelu na serwerze, aby używać najnowszych danych i unikać przenoszenia danych.

Gdy wszystko będzie gotowe do hermetyzacji skryptu języka Python wewnątrz procedury przechowywanej, sp_execute_external_script, zalecamy ponowne zapisanie kodu jako pojedynczej funkcji, która ma jasno zdefiniowane dane wejściowe i wyjściowe.

Dane wejściowe i wyjściowe muszą być ramkami danych pandas. Po wykonaniu tej czynności można wywołać procedurę składowaną od dowolnego klienta, który obsługuje język T-SQL, łatwe przekazywanie zapytań SQL jako danych wejściowych i zapisywanie wyników w tabelach SQL. Aby zapoznać się z przykładem, zobacz Learn in-database Python analytics for SQL developers (Analiza języka Python w bazie danych dla deweloperów języka SQL).

Używanie biblioteki revoscalepy z plikiem microsoftml

Funkcje Python dla microsoftml są zintegrowane z kontekstami obliczeniowymi i źródłami danych dostępnych w revoscalepy. Podczas wywoływania funkcji z języka microsoftml, na przykład podczas definiowania i trenowania modelu, użyj funkcji revoscalepy, aby wykonać kod języka Python lokalnie lub w zdalnym kontekście obliczeniowym programu SQL Server.

Poniższy przykład przedstawia składnię importowania modułów w kodzie języka Python. Następnie możesz odwołać się do poszczególnych potrzebnych funkcji.

from microsoftml.modules.logistic_regression.rx_logistic_regression import rx_logistic_regression
from revoscalepy.functions.RxSummary import rx_summary
from revoscalepy.etl.RxImport import rx_import_datasource

Zobacz także