Poznámky k verzi pro tvorbu funkcí Databricks a starší úložiště funkcí Workspace
Tato stránka obsahuje seznam verzí přípravy funkcí Databricks v klientovi katalogu Unity a klienta úložiště funkcí pracovního prostoru Databricks. Oba klienti jsou k dispozici v PyPI jako databricks-feature-engineering.
Knihovny se používají k:
- Vytváření, čtení a zápis tabulek funkcí
- Trénování modelů na datech funkcí
- Publikování tabulek funkcí do online obchodů pro obsluhu v reálném čase
Dokumentaci k použití najdete v úložišti funkcí Databricks. Dokumentaci k rozhraní Python API najdete v tématu Rozhraní Python API.
Příprava funkcí v klientovi katalogu Unity funguje pro funkce a tabulky funkcí v katalogu Unity. Klient úložiště funkcí pracovního prostoru funguje pro funkce a tabulky funkcí v úložišti funkcí pracovního prostoru. Oba klienti jsou předinstalované v Prostředí Databricks Runtime pro Machine Learning. Po instalaci databricks-feature-engineering
z PyPI (PyPIpip install databricks-feature-engineering
) můžou běžet také v prostředí Databricks Runtime. Pouze pro testování jednotek je možné oba klienty používat místně nebo v prostředí CI/CD.
Tabulka zobrazující kompatibilitu verzí klienta s verzemi Databricks Runtime a Databricks Runtime ML najdete v matici kompatibility přípravy funkcí. Starší verze klienta úložiště funkcí pracovního prostoru Databricks jsou k dispozici v PyPI jako úložiště funkcí Databricks.
- Podpora použití
params
ve vyvoláníchscore_batch
, což umožňuje předávat modelu další parametry pro inferenci. - Opravy chyb a vylepšení
- Některá zobrazení v katalogu Unity se teď dají použít jako tabulky funkcí pro trénování a vyhodnocení offline modelu. Viz Čtení z tabulky funkcí v katalogu Unity.
- Trénovací sady je teď možné vytvořit pomocí vyhledávání funkcí nebo specifikace funkce. Viz referenční informace k sadě Python SDK.
- Spouštění spojení k určitému bodu v čase pomocí nativního Sparku se teď podporuje kromě stávající podpory pro Tempo. Obrovský díky Semyon Sinchenko za navržení nápadu!
-
StructType
se teď podporuje jako datový typ PySpark.StructType
není podporováno pro online poskytování služeb. -
write_table
nyní podporuje zápis do tabulek s povoleným clusteringem liquid. - Parametr
timeseries_columns
procreate_table
byl přejmenován natimeseries_column
. Existující pracovní postupy můžou parametr dál používattimeseries_columns
. -
score_batch
teď podporujeenv_manager
parametr. Další informace najdete v dokumentaci k MLflow.
- Nové rozhraní API
update_feature_spec
, kterédatabricks-feature-engineering
uživatelům umožňuje aktualizovat vlastníka featureSpec v katalogu Unity.
- Malé opravy chyb a vylepšení
-
log_model
teď používá nový balíček PyPI pro vyhledávání funkcí Databricks, který zahrnuje vylepšení výkonu pro online poskytování modelů.
-
databricks-feature-store
je zastaralý. Všechny existující moduly v tomto balíčku jsou k dispozici vedatabricks-feature-engineering
verzi 0.2.0 a vyšší. Podrobnosti najdete v rozhraní Python API.
-
databricks-feature-engineering
nyní obsahuje všechny moduly zdatabricks-feature-store
. Podrobnosti najdete v rozhraní Python API.
- Opravuje chybu časového limitu při použití AutoML s tabulkami funkcí.
- Malá vylepšení v UpgradeClient.
- Teď můžete vytvářet koncové body funkcí a obsluhy funkcí. Podrobnosti najdete v tématu Funkce a obsluha funkcí.
- Malé opravy chyb a vylepšení
- Malé opravy chyb a vylepšení
- Opravili jsme nesprávné adresy URL rodokmenu úloh zaprotokolované s určitými nastaveními pracovního prostoru.
- Malé opravy chyb a vylepšení
- Verze ga pro přípravu funkcí v klientovi Pythonu v katalogu Unity do PyPI
- Malé opravy chyb a vylepšení
- Při protokolování modelu teď můžete automaticky odvodit a protokolovat vstupní příklad. Chcete-li to provést, nastavte
infer_model_example
naTrue
hodnotu při volánílog_model
. Příklad je založený na trénovacích datech zadaných v parametrutraining_set
.
- Oprava chyby při publikování na Aurora MySQL z konektoru MariaDB/J >=2.7.5
- Malé opravy chyb a vylepšení
Počínaje verzí 0.14.0 je nutné zadat klíčové sloupce časového razítka v argumentu primary_keys
. Klíče časového razítka jsou součástí "primárních klíčů", které jednoznačně identifikují každý řádek v tabulce funkcí. Stejně jako jiné sloupce primárního klíče nemohou sloupce klíče časového razítka obsahovat hodnoty NULL.
V následujícím příkladu datový rámec user_features_df
obsahuje následující sloupce: user_id
, ts
, purchases_30d
a is_free_trial_active
.
fs = FeatureStoreClient()
fs.create_table(
name="ads_team.user_features",
primary_keys=["user_id", "ts"],
timestamp_keys="ts",
features_df=user_features_df,
)
fs = FeatureStoreClient()
fs.create_table(
name="ads_team.user_features",
primary_keys="user_id",
timestamp_keys="ts",
features_df=user_features_df,
)
- Malé opravy chyb a vylepšení
- Minimální požadovaná
mlflow-skinny
verze je teď 2.4.0. - Vytvoření trénovací sady selže, pokud zadaný datový rámec neobsahuje všechny požadované vyhledávací klíče.
- Při protokolování modelu, který používá tabulky funkcí v katalogu Unity, se podpis MLflow automaticky zaprotokoluje s modelem.
- Teď můžete odstranit online obchod pomocí
drop_online_table
rozhraní API.
- V pracovních prostorech s podporou katalogu Unity teď můžete publikovat tabulky funkcí pracovního prostoru i katalogu Unity do online úložišť Cosmos DB. To vyžaduje Databricks Runtime 13.0 ML nebo vyšší.
- Malé opravy chyb a vylepšení
- Malé opravy chyb a vylepšení
- Malé opravy chyb a vylepšení
- Přidání
flask
jako závislosti pro opravu problému s chybějící závislostí při vyhodnocování modelů pomocíscore_batch
.
- Malé opravy chyb a vylepšení
- Počáteční veřejná verze klienta úložiště funkcí Databricks do PyPI.