Sdílet prostřednictvím


Úložiště funkcí Databricks

Tato stránka je přehledem funkcí dostupných při použití úložiště funkcí Databricks s katalogem Unity.

Úložiště funkcí Databricks poskytuje centrální registr pro funkce používané v modelech AI a ML. Tabulky a modely funkcí jsou zaregistrované v katalogu Unity, které poskytují integrované zásady správného řízení, rodokmen a sdílení a zjišťování funkcí mezi pracovními prostory. S Databricks probíhá celý pracovní postup trénování modelu na jedné platformě, včetně:

  • Datové kanály, které ingestují nezpracovaná data, vytvářejí tabulky funkcí, trénují modely a provádějí dávkové odvozování.
  • Model a funkce obsluhující koncové body, které jsou dostupné jediným kliknutím a poskytují latenci v milisekundách
  • Monitorování dat a modelů

Při použití funkcí z úložiště funkcí k trénování modelů model automaticky sleduje rodokmen funkcí, které byly použity při trénování. V době odvozování model automaticky vyhledá nejnovější hodnoty funkcí. Úložiště funkcí také poskytuje výpočty funkcí pro aplikace v reálném čase. Úložiště funkcí zpracovává všechny úlohy výpočtů funkcí. Tím se eliminuje nerovnoměrná distribuce trénování a obsluha, což zajišťuje, že výpočty funkcí použité při odvozování jsou stejné jako výpočty použité při trénování modelu. Také výrazně zjednodušuje kód na straně klienta, protože všechna vyhledávání a výpočty funkcí se zpracovávají úložištěm funkcí.

Poznámka:

Tato stránka popisuje možnosti inženýrství funkcí a funkčního nasazení pro pracovní prostory, které jsou povolené pro katalog Unity. Pokud váš pracovní prostor není nakonfigurovaný pro katalog Unity, přečtěte si téma úložiště funkcí pracovního prostoru (starší verze).

Koncepční přehled

Přehled fungování úložiště funkcí Databricks a glosář termínů najdete v tématu Přehled úložiště funkcí a glosář.

Příprava funkcí

Vlastnost Description
Práce s tabulkami funkcí v katalogu Unity Vytváření a práce s tabulkami funkcí
Deklarativní příprava funkcí a spravované kanály Definujte a vypočítejte agregační vlastnosti v časových oknech pomocí deklarativních rozhraní API.
Materializace a obsluha deklarativních funkcí Materializovat deklarativní funkce pro offline trénování nebo online poskytování.

Zjišťování a sdílení funkcí

Vlastnost Description
Prozkoumání funkcí v katalogu Unity Prozkoumejte a spravujte tabulky funkcí pomocí Průzkumníka katalogu a uživatelského rozhraní funkcí.
Použití značek s tabulkami funkcí a funkcemi v katalogu Unity Pomocí jednoduchých párů klíč-hodnota můžete kategorizovat a spravovat tabulky a funkce funkcí.

Použití funkcí v pracovních postupech trénování

Vlastnost Description
Použití funkcí k trénování modelů K trénování modelů použijte funkce.
Spojení funkcí k určitému bodu v čase Pomocí správnosti k určitému bodu v čase vytvořte trénovací datovou sadu, která odráží hodnoty funkcí v době, kdy bylo zaznamenáno pozorování popisků.
Python API Referenční informace k rozhraní Python API

Obsluha funkcí

Vlastnost Description
Úložiště funkcí Databricks Online Poskytování dat funkcí online aplikacím a modelům strojového učení v reálném čase Využívá databricks Lakebase.
Obsluha modelu s automatickým vyhledáváním funkcí Automatické vyhledávání hodnot funkcí z online obchodu
Koncové body obsluhy funkcí Obsluha funkcí pro modely a aplikace mimo Databricks
Výpočet funkcí na vyžádání Vypočítejte hodnoty funkcí v době odvozování.

Zásady správného řízení a rodokmen funkcí

Vlastnost Description
Zásady správného řízení a rodokmen funkcí Pomocí katalogu Unity můžete řídit přístup k tabulkám funkcí a zobrazit rodokmen tabulky funkcí, modelu nebo funkce.

Tutorials

Tutorial Description
Ukázkové poznámkové bloky, které vám pomůžou začít Základní poznámkový blok Ukazuje, jak vytvořit tabulku funkcí, použít ji k trénování modelu a spuštění dávkového vyhodnocování pomocí automatického vyhledávání funkcí. Zobrazuje také uživatelské rozhraní pro přípravu funkcí pro vyhledávání funkcí a zobrazení rodokmenu.
Ukázkový poznámkový blok taxi. Ukazuje proces vytváření funkcí, jejich aktualizace a jejich použití pro trénování modelu a dávkové odvozování.
Příklad: Nasazení a dotazování koncového bodu obsluhující funkce Kurz a ukázkový poznámkový blok ukazující postup nasazení a dotazování koncového bodu obsluhy funkcí
Příklad: Použití funkcí se strukturovanými aplikacemi RAG Kurz ukazující, jak používat online tabulky Databricks a funkce obsluhující koncové body pro načítání aplikací rozšířené generace (RAG).

Požadavky

  • Pro katalog Unity musí být povolený váš pracovní prostor.
  • Inženýrství funkcí v katalogu Unity vyžaduje Databricks Runtime 13.3 LTS nebo vyšší.

Pokud váš pracovní prostor tyto požadavky nesplňuje, přečtěte si téma úložiště funkcí pracovního prostoru (starší verze), jak používat starší úložiště funkcí pracovního prostoru.

Podporované datové typy

Inženýrství funkcí v katalogu Unity a starší verze úložiště funkcí ve Workspace podporují následující datové typy PySpark :

  • IntegerType
  • FloatType
  • BooleanType
  • StringType
  • DoubleType
  • LongType
  • TimestampType
  • DateType
  • ShortType
  • ArrayType
  • BinaryType [1]
  • DecimalType [1]
  • MapType [1]
  • StructType [2]

[1] BinaryType, DecimalTypea MapType jsou podporovány ve všech verzích zpracování funkcí v katalogu Unity a v úložišti funkcí v pracovním prostoru verze 0.3.5 nebo vyšší. [2] StructType je podporován v Feature Engineering verze 0.6.0 nebo vyšší.

Datové typy uvedené výše podporují typy funkcí, které jsou běžné v aplikacích strojového učení. Příklad:

  • Můžete ukládat zhuštěné vektory, tensory a vkládání jako ArrayType.
  • Můžete ukládat řídké vektory, tensory a vkládání jako MapType.
  • Text můžete uložit jako StringType.

Při publikování do online obchodů ArrayType a MapType funkce se ukládají ve formátu JSON.

Uživatelské rozhraní úložiště funkcí zobrazuje metadata u datových typů funkcí:

Příklad složitých datových typů

Více informací

Další informace o osvědčených postupech najdete v Komplexním průvodci pro úložiště funkcí.