API Python

Эта страница содержит ссылки на документацию по API Python для Databricks Feature Engineering и Databricks Workspace Store, а также сведения о клиентских пакетах databricks-feature-engineering и databricks-feature-store.

Примечание.

По состоянию на версию 0.17.0 не databricks-feature-store рекомендуется. Все существующие модули из этого пакета теперь доступны в databricks-feature-engineering версии 0.2.0 и более поздних версий. Дополнительные сведения о миграции см. в разделе "Миграция databricks-feature-engineeringна databricks-feature-engineering".

Матрица совместимости

Пакет и клиент, которые следует использовать, зависят от того, где находятся таблицы компонентов и какая версия машинного обучения databricks runtime, как показано в следующей таблице.

Сведения о том, как определить версию пакета, встроенную в версию машинного обучения среды выполнения Databricks, см . в таблице совместимости компонентов.

Версия Databricks Runtime Для таблиц компонентов в Использование пакета Использование клиента Python
Databricks Runtime 14.3 ML и более поздних версий Каталог Unity databricks-feature-engineering FeatureEngineeringClient
Databricks Runtime 14.3 ML и более поздних версий Рабочая область databricks-feature-engineering FeatureStoreClient
Databricks Runtime 14.2 ML и ниже Каталог Unity databricks-feature-engineering FeatureEngineeringClient
Databricks Runtime 14.2 ML и ниже Рабочая область databricks-feature-store FeatureStoreClient

Справочник по API Python для разработки компонентов

См. справочные материалы по API Python для разработки компонентов.

Справочник по API Python для хранилища компонентов рабочей области (не рекомендуется)

Примечание.

  • По состоянию на версию 0.17.0 не databricks-feature-store рекомендуется. Все существующие модули из этого пакета теперь доступны в databricks-feature-engineering версии 0.2.0 и более поздних версий.

Сведения databricks-feature-store о версии 0.17.0 см. в статье Databricks FeatureStoreClient в справочнике по API Python для разработки компонентов для последней версии API хранилища компонентов рабочей области.

Для версии 0.16.3 и ниже используйте ссылки в таблице, чтобы скачать или отобразить ссылку на API Python в Магазине компонентов. Чтобы определить предустановленную версию для версии машинного обучения Databricks Runtime, см . матрицу совместимости.

Версия Скачать PDF Справочник по ОНЛАЙН-API
v0.3.5 до версии 0.16.3 Справочник по API Python 0.16.3 в Магазине компонентов Справочник по ОНЛАЙН-API
Версия 0.3.5 и более ранняя Справочник по API Python для хранилища признаков 0.3.5 в формате PDF Справочник по ВЕБ-API недоступен

Пакет Python

В этом разделе описывается, как установить пакеты Python для использования Databricks Feature Engineering и Databricks Workspace Store.

Конструирование признаков

Примечание.

  • Начиная с версии 0.2.0, databricks-feature-engineering содержит модули для работы с таблицами компонентов в каталоге Unity и в хранилище компонентов рабочей области. databricks-feature-engineering ниже версия 0.2.0 работает только с таблицами компонентов в каталоге Unity.

API проектирования компонентов Databricks доступны через клиентский пакет databricks-feature-engineeringPython. Клиент доступен в PyPI и предварительно установлен в Databricks Runtime 13.3 LTS ML и выше.

Справочные сведения о том, какая версия клиента соответствует версии среды выполнения, см. в матрице совместимости.

Чтобы установить клиент в Databricks Runtime:

%pip install databricks-feature-engineering

Чтобы установить клиент в локальной среде Python:

pip install databricks-feature-engineering

Хранилище компонентов рабочей области (не рекомендуется)

Примечание.

  • По состоянию на версию 0.17.0 не databricks-feature-store рекомендуется. Все существующие модули из этого пакета теперь доступны в databricks-feature-engineeringверсии 0.2.0 и более поздних версиях.
  • Дополнительные сведения см. в статье "Миграция на databricks-feature-engineering ".

API Хранилища компонентов Databricks доступны через клиентский пакет databricks-feature-storePython. Клиент доступен в PyPI и предварительно установлен в Databricks Runtime для машинного обучения. Справочные сведения о том, какая версия среды выполнения включает в себя версию клиента, см. в матрице совместимости.

Чтобы установить клиент в Databricks Runtime:

%pip install databricks-feature-store

Чтобы установить клиент в локальной среде Python:

pip install databricks-feature-store

Миграция в databricks-feature-engineering

Чтобы установить databricks-feature-engineering пакет, используйте pip install databricks-feature-engineering вместо pip install databricks-feature-storeнего. Все модули были перемещены databricks-feature-storedatabricks-feature-engineeringв, поэтому вам не нужно изменять код. Операторы импорта, такие как from databricks.feature_store import FeatureStoreClient будут продолжать работать после установки databricks-feature-engineering.

Чтобы работать с таблицами компонентов в каталоге Unity, используйте FeatureEngineeringClient. Чтобы использовать хранилище компонентов рабочей области, необходимо использовать FeatureStoreClient.

Поддерживаемые сценарии

В Databricks, включая Databricks Runtime и Databricks Runtime для машинного обучения, доступны следующие действия:

  • создание, чтение и запись таблиц признаков;
  • обучение и оценка моделей на основе данных признаков;
  • публикации таблиц признаков в интернет-магазинах для обслуживания в режиме реального времени;

Из локальной среды или среды, внешней для Databricks, можно выполнять следующие действия:

  • разработку кода с поддержкой локальной интегрированной среды разработки;
  • модульный тест с использованием макетных платформ;
  • написание тестов интеграции для выполнения в Databricks.

Ограничения

Клиентская библиотека может выполняться только в Databricks, включая Databricks Runtime и Databricks Runtime для машинного обучения. Он не поддерживает вызов инженерии компонентов в каталоге Unity или API Магазина компонентов из локальной среды или из среды, отличной от Databricks.

Использование клиентов для модульного тестирования

Вы можете установить инженерию компонентов в клиенте каталога Unity или клиенте Хранилища компонентов локально, чтобы помочь в выполнении модульных тестов.

Например, чтобы проверить правильность вызова FeatureEngineeringClient.write_table метода update_customer_features (или для хранилища FeatureStoreClient.write_tableкомпонентов рабочей области), можно написать следующее:

from unittest.mock import MagicMock, patch

from my_feature_update_module import update_customer_features
from databricks.feature_engineering import FeatureEngineeringClient

@patch.object(FeatureEngineeringClient, "write_table")
@patch("my_feature_update_module.compute_customer_features")
def test_something(compute_customer_features, mock_write_table):
  customer_features_df = MagicMock()
  compute_customer_features.return_value = customer_features_df

  update_customer_features()  # Function being tested

  mock_write_table.assert_called_once_with(
    name='ml.recommender_system.customer_features',
    df=customer_features_df,
    mode='merge'
  )

Использование клиентов для тестирования интеграции

Вы можете выполнять тесты интеграции с клиентом каталога Unity или клиентом Хранилища компонентов в Databricks. Дополнительные сведения см. в статье Средства для разработчиков и руководство: использование CI/CD.

Использование клиентов в интегрированной среде разработки (IDE)

Для разработки программного обеспечения с помощью Databricks можно использовать клиент каталога Unity или клиент Магазина компонентов с интегрированной интегрированной программой разработки программного обеспечения. Дополнительные сведения см. в разделе "Использование dbx с Visual Studio Code".