Udostępnij za pośrednictwem


Magazyn funkcji usługi Databricks

Ta strona zawiera omówienie możliwości dostępnych podczas korzystania z Databricks Feature Store z wykazem Unity Catalog.

Feature Store Databricks udostępnia centralny rejestr cech używanych w modelach AI i uczenia maszynowego. Tabele cech i modele są rejestrowane w Unity Catalog, zapewniając wbudowane zarządzanie, śledzenie pochodzenia oraz udostępnianie i odkrywanie funkcji między obszarami roboczymi. W przypadku usługi Databricks cały przepływ pracy trenowania modelu odbywa się na jednej platformie, w tym:

  • Potoki danych, które pozyskiwają nieprzetworzone dane, tworzą tabele funkcji, trenują modele i wykonują wnioskowanie wsadowe.
  • Model i funkcja obsługujące punkty końcowe, które są dostępne za pomocą jednego kliknięcia i które zapewniają milisekundy opóźnienia.
  • Monitorowanie danych i modeli.

Gdy używasz funkcji z magazynu funkcji do trenowania modeli, model automatycznie śledzi pochodzenie funkcji używanych podczas trenowania. W czasie wnioskowania model automatycznie wyszukuje najnowsze wartości funkcji. Magazyn funkcji udostępnia również obliczenia funkcji na żądanie dla aplikacji w czasie rzeczywistym. Repozytorium cech obsługuje wszystkie zadania obliczeniowe atrybutów. Eliminuje to niesymetryczność trenowania/obsługi, zapewniając, że obliczenia funkcji używane podczas wnioskowania są takie same jak te używane podczas trenowania modelu. Znacznie upraszcza również kod po stronie klienta, ponieważ wszystkie wyszukiwania funkcji i obliczenia są obsługiwane przez magazyn funkcji.

Uwaga / Notatka

Ta strona obejmuje inżynierię cech i możliwości serwowania dla obszarów roboczych, które są włączone dla Unity Catalog. Jeśli obszar roboczy nie jest włączony dla Unity Catalog, zobacz Magazyn funkcji obszaru roboczego (przestarzały).

Omówienie pojęć

Aby zapoznać się z przeglądem działania Databricks Feature Store i słownikiem terminów, zobacz Omówienie i słownik magazynu funkcji.

Inżynieria cech

Funkcja Description
Tabele funkcji Tworzenie i praca z tabelami funkcji.

Odnajdywanie i udostępnianie funkcji

Funkcja Description
Eksplorowanie funkcji w Unity Catalog Eksplorowanie tabel funkcji i zarządzanie nimi przy użyciu Eksploratora wykazu i interfejsu użytkownika funkcji.
Używanie tagów z tabelami cech i cechami w Unity Catalog Użyj prostych par klucz-wartość, aby kategoryzować i zarządzać tabelami cech oraz samymi cechami.

Korzystanie z funkcji w szkoleniowych przepływach pracy

Funkcja Description
Trenowanie modeli przy użyciu tabel funkcji Używanie funkcji do trenowania modeli.
Łączenie funkcji w określonym punkcie czasowym Użyj poprawności czasowej, aby utworzyć zestaw danych treningowych, który odzwierciedla wartości cech z momentu, kiedy zarejestrowano obserwację etykiety.
Python API Dokumentacja interfejsu API języka Python

Udostępnianie funkcji

Funkcja Description
Sklepy funkcji online w Databricks Udostępniaj dane funkcji aplikacjom online i modelom uczenia maszynowego w czasie rzeczywistym. Obsługiwane przez usługę Databricks Lakebase.
Obsługa modelu z automatycznym wyszukiwaniem cech Automatycznie wyszukuj wartości funkcji ze sklepu online.
Punkty końcowe obsługujące funkcje Udostępniaj funkcje modelom i aplikacjom poza usługą Databricks.
Obliczenia cech na żądanie Oblicz wartości funkcji w czasie wnioskowania.

Zarządzanie cechami i pochodzenie danych

Funkcja Description
Zarządzanie funkcjami i pochodzenie danych Użyj Unity Catalogu, aby kontrolować dostęp do tabel wykrywania cech i wyświetlać pochodzenie danych tabeli wykrywania cech, modelu lub funkcji.

Tutorials

Tutorial Description
Przykładowe notesy do rozpoczęcia pracy Notes podstawowy. Przedstawia sposób tworzenia tabeli funkcji, jej wykorzystania do trenowania modelu oraz uruchamiania oceniania wsadowego z wykorzystaniem automatycznego wyszukiwania funkcji. Ponadto pokazuje interfejs użytkownika inżynierii cech, aby wyszukiwać cechy i wyświetlić ich pochodzenie.
Przykładowy notatnik taksówka. Przedstawia proces tworzenia funkcji, ich aktualizowania i używania do trenowania modelu i wnioskowania wsadowego.
Przykład: Wdrażanie i wykonywanie zapytań względem punktu końcowego obsługującego funkcję Samouczek i przykładowy notes przedstawiający sposób wdrażania i wykonywania zapytań dotyczących punktu końcowego obsługującego funkcję.
Przykład: korzystanie z funkcji w strukturalnych aplikacjach RAG Samouczek przedstawiający sposób używania tabel online usługi Databricks i funkcji obsługujących punkty końcowe na potrzeby pobierania aplikacji generacji rozszerzonej (RAG).

Wymagania

  • Obszar roboczy musi być włączony dla Unity Catalog.
  • Przygotowanie cech w Unity Catalog wymaga środowiska Databricks Runtime 13.3 LTS lub wyższego.

Jeśli obszar roboczy nie spełnia tych wymagań, zobacz Magazyn funkcji obszaru roboczego (przestarzały), aby dowiedzieć się, jak korzystać ze starszego magazynu funkcji obszaru roboczego.

Obsługiwane typy danych:

Inżynieria cech w Katalogu Unity i starszym Sklepie Cech w obszarze roboczym obsługuje następujące typy danych PySpark:

  • IntegerType
  • FloatType
  • BooleanType
  • StringType
  • DoubleType
  • LongType
  • TimestampType
  • DateType
  • ShortType
  • ArrayType
  • BinaryType [1]
  • DecimalType [1]
  • MapType [1]
  • StructType [2]

[1] BinaryType, DecimalType oraz MapType są obsługiwane we wszystkich wersjach Feature Engineering w Unity Catalog oraz w Workspace Feature Store w wersji 0.3.5 lub nowszej. [2] StructType jest obsługiwany w inżynierii funkcji w wersji 0.6.0 lub nowszej.

Typy danych wymienione powyżej obsługują typy funkcji, które są wspólne w aplikacjach uczenia maszynowego. Na przykład:

  • Można przechowywać gęste wektory, tensory i osadzanie jako ArrayType.
  • Można przechowywać rozrzedzone wektory, tensory i osadzenia jako MapType.
  • Tekst można przechowywać jako StringType.

Po opublikowaniu w sklepach online, funkcje ArrayType oraz MapType są przechowywane w formacie JSON.

Interfejs użytkownika magazynu funkcji wyświetla metadane dotyczące typów danych funkcji:

Przykład złożonych typów danych

Więcej informacji

Aby uzyskać więcej informacji na temat najlepszych praktyk, pobierz kompleksowy przewodnik po Feature Stores.