Poznámka
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Tato stránka popisuje možnosti inženýrství funkcí a funkčního nasazení pro pracovní prostory, které jsou povolené pro katalog Unity. Pokud váš pracovní prostor není nakonfigurovaný pro katalog Unity, přečtěte si téma úložiště funkcí pracovního prostoru (starší verze).
Proč používat Databricks jako úložiště funkcí?
S platformou Databricks Data Intelligence Platform probíhá celý pracovní postup trénování modelu na jedné platformě:
- Datové kanály, které ingestují nezpracovaná data, vytvářejí tabulky funkcí, trénují modely a provádějí dávkové odvozování. Při trénování a protokolování modelu pomocí inženýrství vlastností v katalogu Unity je model zabalován s metadaty vlastností. Když použijete model pro dávkové vyhodnocování nebo online odvozování, automaticky načte hodnoty funkcí. Volající nemusí znát podrobnosti o funkcích ani zahrnovat logiku pro jejich vyhledávání či spojování při určování skóre nových dat.
- Model a funkce obsluhující koncové body, které jsou dostupné jediným kliknutím a poskytují latenci v milisekundách
- Monitorování dat a modelů
Kromě toho platforma poskytuje následující:
- Objevování funkcí Funkce můžete procházet a vyhledávat v uživatelském rozhraní Databricks.
- Zásady správného řízení. Tabulky funkcí, funkce a modely se řídí katalogem Unity. Při tréninku modelu dědí oprávnění z dat, na nichž byl natrénován.
- Rodokmen. Když v Azure Databricks vytvoříte tabulku funkcí, uloží se a zpřístupní zdroje dat použité k vytvoření tabulky funkcí. Pro každou funkci v tabulce funkcí máte také přístup k modelům, poznámkovým blokům, úlohám a koncovým bodům, které tuto funkci používají.
- Přístup mezi pracovními prostory Tabulky funkcí, funkce a modely jsou automaticky dostupné v jakémkoli pracovním prostoru, který má přístup k katalogu.
Požadavky
- Pro katalog Unity musí být povolený váš pracovní prostor.
- Inženýrství funkcí v katalogu Unity vyžaduje Databricks Runtime 13.3 LTS nebo vyšší.
Pokud váš pracovní prostor tyto požadavky nesplňuje, přečtěte si téma úložiště funkcí pracovního prostoru (starší verze), jak používat starší úložiště funkcí pracovního prostoru.
Jak funguje feature engineering na Databricks?
Typický pracovní postup strojového učení s využitím přípravy funkcí v Databricks se řídí tímto způsobem:
- Napište kód pro převod nezpracovaných dat na funkce a vytvořte datový rámec Sparku obsahující požadované funkce.
- Vytvořte tabulku Delta v katalogu Unity , která má primární klíč.
- Trénování a protokolování modelu pomocí tabulky funkcí Když to uděláte, uloží model specifikace funkcí používaných pro trénování. Když se model používá k odvozování, automaticky spojí funkce z příslušných tabulek funkcí.
- Registrace modelu v registru modelů
Model teď můžete použít k předpovědím nových dat. V případě dávkového použití model automaticky načte funkce, které potřebuje, z úložiště funkcí.
Pro případy použití v reálném čase publikujte funkce do online obchodu s funkcemi.
V době odvozování model čte předem vypočítané funkce z online obchodu a spojí je s daty poskytnutými v požadavku klienta na koncový bod obsluhující model.
Začněte používat práci s vlastnostmi — ukázkové poznámkové bloky
Pokud chcete začít, vyzkoušejte tyto ukázkové poznámkové bloky. Základní poznámkový blok ukazuje, jak vytvořit tabulku funkcí, použít ji k trénování modelu a spuštění dávkového vyhodnocování pomocí automatického vyhledávání funkcí. Zobrazuje také uživatelské rozhraní pro přípravu funkcí, které můžete použít k vyhledání funkcí a pochopení způsobu vytváření a používání funkcí.
Ukázkový poznámkový blok katalogu Unity se základní úpravou funkcí
Získejte poznámkový blok
Ukázkový poznámkový blok taxi znázorňuje proces vytváření funkcí, jejich aktualizace a jejich použití pro trénování modelu a dávkové odvozování.
Úlohy strojového učení v ukázkovém poznámkovém bloku pro modelování funkcí (Feature Engineering) na příkladu taxislužby v katalogu Unity
Získejte poznámkový blok
Podporované datové typy
Inženýrství funkcí v katalogu Unity a starší verze úložiště funkcí ve Workspace podporují následující datové typy PySpark :
IntegerType
FloatType
BooleanType
StringType
DoubleType
LongType
TimestampType
DateType
ShortType
ArrayType
-
BinaryType
[1] -
DecimalType
[1] -
MapType
[1] -
StructType
[2]
[1] BinaryType
, DecimalType
a MapType
jsou podporovány ve všech verzích zpracování funkcí v katalogu Unity a v úložišti funkcí v pracovním prostoru verze 0.3.5 nebo vyšší.
[2] StructType
je podporován v Feature Engineering verze 0.6.0 nebo vyšší.
Datové typy uvedené výše podporují typy funkcí, které jsou běžné v aplikacích strojového učení. Příklad:
- Můžete ukládat zhuštěné vektory, tensory a vkládání jako
ArrayType
. - Můžete ukládat řídké vektory, tensory a vkládání jako
MapType
. - Text můžete uložit jako
StringType
.
Při publikování do online obchodů ArrayType
a MapType
funkce se ukládají ve formátu JSON.
Uživatelské rozhraní úložiště funkcí zobrazuje metadata u datových typů funkcí:
Více informací
Další informace o osvědčených postupech najdete v Komplexním průvodci pro úložiště funkcí.