Sdílet prostřednictvím


Principy entit nejvyšší úrovně v spravované uložiště funkcí

Tento dokument popisuje entity nejvyšší úrovně v spravované uložiště funkcí.

Diagram depicting the main components of managed feature store.

Další informace o spravované uložiště funkcí najdete v tématu Co je spravované uložiště funkcí?

Úložiště funkcí

Sady funkcí můžete vytvářet a spravovat prostřednictvím úložiště funkcí. Sady funkcí jsou kolekce funkcí. Volitelně můžete přidružit úložiště materializace (připojení offline úložiště) k úložišti funkcí, aby bylo možné pravidelně předkomputovat a zachovat funkce. Načítání funkcí během trénování nebo odvozování může být rychlejší a spolehlivější.

Další informace o konfiguraci najdete v tématu Rozhraní příkazového řádku (v2) úložiště schématu YAML.

Entity

Entity zapouzdřují sloupce indexu pro logické entity v podniku. Mezi příklady entit patří entita účtu, entita zákazníka atd. Entity pomáhají vynucovat, jak je osvědčeným postupem, použití stejných definic sloupců indexu napříč sadami funkcí, které používají stejné logické entity.

Entity se obvykle vytvářejí jednou a pak se znovu používají napříč sadami funkcí. Entity jsou verze.

Další informace o konfiguraci najdete ve schématu YAML entity entity cli (v2).

Specifikace sady funkcí a prostředek

Sady funkcí jsou kolekce funkcí vygenerovaných použitím transformací na zdrojová systémová data. Sady funkcí zapouzdřují zdroj, transformační funkci a nastavení materializace. V současné době podporujeme transformační kód funkcí PySpark.

Začněte vytvořením specifikace sady funkcí. Specifikace sady funkcí je samostatná definice sady funkcí, kterou můžete místně vyvíjet a testovat.

Specifikace sady funkcí se obvykle skládá z následujících parametrů:

  • source: Na jaké zdroje se tato funkce mapuje.
  • transformation (volitelné): Logika transformace použitá na zdrojová data k vytvoření funkcí. V našem případě jako podporovaný výpočetní výkon používáme Spark.
  • Názvysloupcůch index_columns timestamp_column
  • materialization_settings(volitelné): Povinné pro ukládání hodnot funkcí do mezipaměti v úložišti materializace pro efektivní načtení.

Po vývoji a otestování specifikace sady funkcí v místním/vývojovém prostředí můžete tuto specifikaci zaregistrovat jako prostředek sady funkcí v úložišti funkcí. Prostředek sady funkcí poskytuje spravované funkce, jako je správa verzí a materializace.

Další informace o specifikaci YAML sady funkcí najdete ve schématu YAML specifikace sady funkcí CLI (v2).

Specifikace načítání funkcí

Specifikace načtení funkce je přenosná definice seznamu funkcí přidružených k modelu. Může pomoct zjednodušit vývoj a operacionalizaci modelů strojového učení. Specifikace načítání funkcí je obvykle vstupem do trénovacího kanálu. Pomáhá generovat trénovací data. Dá se zabalit s modelem. Kromě toho se krok odvozování používá k vyhledání funkcí. Integruje všechny fáze životního cyklu strojového učení. Při experimentování a nasazování je možné minimalizovat změny kanálu trénování a odvozování.

Použití specifikace načtení funkce a integrované součásti načítání funkcí jsou volitelné. Pokud chcete, můžete rozhraní API přímo použít get_offline_features() .

Další informace o specifikaci YAML pro načítání funkcí najdete v tématu o schématu YAML pro načtení funkcí rozhraní příkazového řádku (v2).

Další kroky