Sdílet prostřednictvím


Python API

Tato stránka obsahuje odkazy na dokumentaci k rozhraní Python API pro přípravu funkcí Databricks a starší verzi úložiště funkcí Databricks a informace o balíčcích klienta databricks-feature-engineering a databricks-feature-store.

Poznámka:

Od verze 0.17.0 databricks-feature-store se už nepoužívá. Všechny existující moduly z tohoto balíčku jsou nyní k dispozici ve databricks-feature-engineering verzi 0.2.0 a novější. Informace o migraci na databricks-feature-engineering naleznete v Migrujte na databricks-feature-engineering.

Matice kompatibility

Balíček a klient, který byste měli použít, závisí na tom, kde se nacházejí tabulky funkcí a jakou verzi Databricks Runtime ML používáte, jak je znázorněno v následující tabulce.

Informace o verzi balíčku, která je integrovaná ve vaší verzi Databricks Runtime ML, najdete v matici kompatibility přípravy funkcí.

Verze modulu Databricks Runtime Tabulky vlastností v Použití balíčku Použití klienta Pythonu
Databricks Runtime 14.3 ML a novější Katalog Unity databricks-feature-engineering FeatureEngineeringClient
Databricks Runtime 14.3 ML a novější Pracovní prostor databricks-feature-engineering FeatureStoreClient
Databricks Runtime 14.2 ML a starší verze Katalog Unity databricks-feature-engineering FeatureEngineeringClient
Databricks Runtime 14.2 ML a starší verze Pracovní prostor databricks-feature-store FeatureStoreClient

Poznámka:

  • databricks-feature-engineering<=0.7.0 není kompatibilní s mlflow>=2.18.0. Pokud chcete používat databricks-feature-engineering s MLflow 2.18.0 a novějším, upgradujte na databricks-feature-engineering verze 0.8.0 nebo novější.

Poznámky k vydání

Přečtěte si informace o technickém inženýrství funkcí Databricks a starších poznámkách k verzi úložiště funkcí pracovního prostoru.

Referenční informace k rozhraní PYTHON API pro přípravu funkcí

Viz referenční informace k rozhraní API Pythonu pro přípravu funkcí.

Referenční informace k rozhraní Python API úložiště funkcí pracovního prostoru (zastaralé)

Poznámka:

  • Od verze 0.17.0 databricks-feature-store se už nepoužívá. Všechny existující moduly z tohoto balíčku jsou nyní k dispozici ve databricks-feature-engineering verzi 0.2.0 a novější.

Informace o rozhraní API úložiště funkcí ve verzi databricks-feature-store v0.17.0 najdete v části Databricks FeatureStoreClient v referenčním průvodci pro Python API pro Feature Engineering o nejnovějších informacích k úložišti funkcí ve Workspace.

V případě verze 0.16.3 a nižších použijte odkazy v tabulce ke stažení nebo zobrazení dokumentace rozhraní Python API pro Feature Store. Pokud chcete zjistit předinstalovanou verzi databricks Runtime ML, podívejte se na matici kompatibility.

Verze Stáhnout PDF Referenční informace k online rozhraní API
v0.3.5 až v0.16.3 Referenční příručka Python API pro úložiště vlastností 0.16.3 PDF Referenční informace k online rozhraní API
v0.3.5 a novější Referenční dokument PDF pro Feature Store Python API 0.3.5 Referenční informace k online rozhraní API nejsou k dispozici

Balíček Pythonu

Tato část popisuje, jak nainstalovat balíčky Pythonu pro použití funkce Databricks Feature Engineering a Databricks Workspace Feature Store.

Příprava atributů

Poznámka:

  • Od verze 0.2.0 databricks-feature-engineering obsahuje moduly pro práci s tabulkami funkcí v katalogu Unity i v úložišti funkcí pracovního prostoru. databricks-feature-engineering nižší verze 0.2.0 funguje jenom s tabulkami funkcí v katalogu Unity.

Rozhraní API pro inženýrství funkcí Databricks jsou k dispozici prostřednictvím balíčku klienta Pythonu databricks-feature-engineering. Klient je k dispozici v PyPI a je předinstalovaný v Databricks Runtime 13.3 LTS ML a vyšší.

Referenční informace o tom, která verze klienta odpovídá verzi modulu runtime, najdete v matici kompatibility.

Instalace klienta v Databricks Runtime:

%pip install databricks-feature-engineering

Instalace klienta v místním prostředí Pythonu:

pip install databricks-feature-engineering

Úložiště funkcí pracovního prostoru (zastaralé)

Poznámka:

  • Od verze 0.17.0 databricks-feature-store se už nepoužívá. Všechny existující moduly z tohoto balíčku jsou nyní k dispozici ve databricks-feature-engineeringverzi 0.2.0 a novější.
  • Další informace najdete v tématu Migrace na databricks-feature-engineering .

Rozhraní API pro Feature Store Databricks jsou k dispozici prostřednictvím klientského balíčku databricks-feature-storePythonu. Klient je k dispozici v PyPI a je předinstalovaný v Databricks Runtime pro Machine Learning. Referenční informace o tom, který modul runtime obsahuje verzi klienta, najdete v matici kompatibility.

Instalace klienta v Databricks Runtime:

%pip install databricks-feature-store

Instalace klienta v místním prostředí Pythonu:

pip install databricks-feature-store

Migrace na databricks-feature-engineering

Chcete-li nainstalovat databricks-feature-engineering balíček, použijte pip install databricks-feature-engineering místo pip install databricks-feature-store. Všechny moduly byly databricks-feature-store přesunuty do databricks-feature-engineering, takže nemusíte měnit žádný kód. Příkazy importu jako from databricks.feature_store import FeatureStoreClient budou fungovat i po instalaci databricks-feature-engineering.

Pokud chcete pracovat s tabulkami funkcí v katalogu Unity, použijte FeatureEngineeringClient. Chcete-li použít úložiště funkcí pracovního prostoru, musíte použít FeatureStoreClient.

Podporované scénáře

V Databricks, včetně Databricks Runtime a Databricks Runtime pro Machine Learning, můžete:

  • Vytváření, čtení a zápis tabulek funkcí
  • Trénujte a vyhodnocujte modely na základě charakteristik dat.
  • Publikujte tabulky funkcí do online obchodů pro poskytování v reálném čase.

Z místního prostředí nebo prostředí mimo Databricks můžete:

  • Vyvíjejte kód s místní podporou integrovaného vývojového prostředí (IDE).
  • Testování jednotek pomocí napodobených architektur
  • Zápis integračních testů, které se mají spouštět v Databricks

Omezení

Klientskou knihovnu je možné spustit jenom v Databricks, včetně Databricks Runtime a Databricks Runtime pro Machine Learning. Nepodporuje volání Feature Engineering v Unity Catalog nebo Feature Store API z místního prostředí, nebo z jiného prostředí než prostředí Databricks.

Použití klientů pro testování jednotek

Můžete si místně nainstalovat klienta Feature Engineering v Unity Catalog nebo klienta Feature Store, abyste podpořili spouštění testů jednotek.

Pokud chcete například ověřit, že metoda update_customer_features správně volá FeatureEngineeringClient.write_table (nebo pro úložiště funkcí pracovního prostoru FeatureStoreClient.write_table), můžete napsat:

from unittest.mock import MagicMock, patch

from my_feature_update_module import update_customer_features
from databricks.feature_engineering import FeatureEngineeringClient

@patch.object(FeatureEngineeringClient, "write_table")
@patch("my_feature_update_module.compute_customer_features")
def test_something(compute_customer_features, mock_write_table):
  customer_features_df = MagicMock()
  compute_customer_features.return_value = customer_features_df

  update_customer_features()  # Function being tested

  mock_write_table.assert_called_once_with(
    name='ml.recommender_system.customer_features',
    df=customer_features_df,
    mode='merge'
  )

Použití klientů pro testování integrace

Můžete spustit integrační testy s klientem Unity Catalog pro Feature Engineering nebo klientem Feature Store na Databricks. Podrobnosti najdete v tématu Vývojářské nástroje a pokyny: Použití CI/CD.