Informacje o jednostkach najwyższego poziomu w magazyn zarządzanych funkcji

W tym dokumencie opisano jednostki najwyższego poziomu w magazyn zarządzanych funkcji.

Diagram depicting the main components of managed feature store.

Aby uzyskać więcej informacji na temat magazyn zarządzanych funkcji, zobacz Co to jest magazyn zarządzanych funkcji?

Magazyn funkcji

Zestawy funkcji można tworzyć i zarządzać nimi za pośrednictwem magazynu funkcji. Zestawy funkcji to kolekcja funkcji. Opcjonalnie można skojarzyć magazyn materializacji (połączenie magazynu w trybie offline) z magazynem funkcji, aby regularnie wstępnie komplikować i utrwalać funkcje. Może to sprawić, że pobieranie funkcji podczas trenowania lub wnioskowania jest szybsze i bardziej niezawodne.

Aby uzyskać więcej informacji na temat konfiguracji, zobacz Schemat YAML magazynu funkcji interfejsu wiersza polecenia (wersja 2)

Jednostki

Jednostki hermetyzują kolumny indeksu dla jednostek logicznych w przedsiębiorstwie. Przykłady jednostek to jednostka konta, jednostka klienta itp. Jednostki pomagają wymusić użycie tych samych definicji kolumn indeksu w zestawach funkcji korzystających z tych samych jednostek logicznych.

Jednostki są zwykle tworzone raz, a następnie ponownie używane w zestawach funkcji. Jednostki są wersjonowane.

Aby uzyskać więcej informacji na temat konfiguracji, zobacz Schemat YAML jednostki funkcji interfejsu wiersza polecenia (wersja 2)

Specyfikacja zestawu funkcji i zasób

Zestawy funkcji to kolekcja funkcji generowanych przez zastosowanie przekształceń na danych systemu źródłowego. Zestawy funkcji hermetyzują źródło, funkcję przekształcania i ustawienia materializacji. Obecnie obsługujemy kod przekształcania funkcji PySpark.

Zacznij od utworzenia specyfikacji zestawu funkcji. Specyfikacja zestawu funkcji to samodzielna definicja zestawu funkcji, którą można lokalnie opracowywać i testować.

Specyfikacja zestawu funkcji zwykle składa się z następujących parametrów:

  • source: Jakie źródła są mapować na tę funkcję
  • transformation (opcjonalnie): Logika przekształcania zastosowana do danych źródłowych w celu utworzenia funkcji. W naszym przypadku używamy platformy Spark jako obsługiwanego środowiska obliczeniowego.
  • Nazwy kolumn reprezentujących index_columns wartości i : timestamp_columnTe nazwy są wymagane, gdy użytkownicy próbują połączyć dane funkcji z danymi obserwacji (więcej na ten temat później)
  • materialization_settings(opcjonalnie): wymagane jest buforowanie wartości funkcji w magazynie materializacji w celu wydajnego pobierania.

Po utworzeniu i przetestowaniu specyfikacji zestawu funkcji w środowisku lokalnym/deweloperskim można zarejestrować specyfikację jako zasób zestawu funkcji w magazynie funkcji. Zasób zestawu funkcji zapewnia funkcje zarządzane, takie jak przechowywanie wersji i materializacja.

Aby uzyskać więcej informacji na temat specyfikacji YAML zestawu funkcji, zobacz Schemat yaML specyfikacji zestawu funkcji interfejsu wiersza polecenia (v2)

Specyfikacja pobierania funkcji

Specyfikacja pobierania funkcji to przenośna definicja listy funkcji skojarzonej z modelem. Może to pomóc usprawnić opracowywanie i operacjonalizacja modelu uczenia maszynowego. Specyfikacja pobierania funkcji jest zazwyczaj danymi wejściowymi do potoku trenowania. Pomaga to wygenerować dane szkoleniowe. Można go spakować za pomocą modelu. Ponadto krok wnioskowania używa go do wyszukiwania funkcji. Integruje wszystkie fazy cyklu życia uczenia maszynowego. Zmiany potoku trenowania i wnioskowania można zminimalizować podczas eksperymentowania i wdrażania.

Korzystanie ze specyfikacji pobierania funkcji i wbudowanego składnika pobierania funkcji jest opcjonalne. Jeśli chcesz, możesz bezpośrednio użyć interfejsu get_offline_features() API.

Aby uzyskać więcej informacji na temat specyfikacji YAML pobierania funkcji, zobacz Schemat pobierania specyfikacji YAML specyfikacji funkcji interfejsu wiersza polecenia (wersja 2).

Następne kroki