Partager via


Notes de publication Databricks sur l’ingénierie de caractéristiques et le magasin de fonctionnalités d’espace de travail hérité

Cette page liste les publications du client Ingénierie des caractéristiques Databricks dans Unity Catalog et du client Magasin des caractéristiques d’espace de travail Databricks. Les deux clients sont disponibles sur PyPI : databricks-feature-engineering et databricks-feature-store.

Les bibliothèques servent à :

  • Créer, lire et écrire des tables de caractéristiques.
  • Effectuer l’apprentissage de modèles sur les données de caractéristiques.
  • Publier des tables de caractéristiques dans des magasins en ligne pour un déploiement en temps réel.

Pour plus d’informations sur l’utilisation, consultez databricks Feature Store. Pour obtenir la documentation sur l’API Python, consultez l’API Python.

Le client Ingénierie des caractéristiques Databricks dans Unity Catalog fonctionne pour les caractéristiques et les tables de caractéristiques de Unity Catalog. Le client Magasin des caractéristiques d’espace de travail fonctionne pour les caractéristiques et les tables de caractéristiques du Magasin des caractéristiques d’espace de travail. Les deux clients sont préinstallés dans Databricks Runtime pour Machine Learning. Ils peuvent également s’exécuter sur Databricks Runtime après l’installation de databricks-feature-engineering depuis PyPI (pip install databricks-feature-engineering). Pour les tests unitaires uniquement, les deux clients peuvent être utilisés localement ou dans des environnements CI/CD.

Pour obtenir un tableau indiquant la compatibilité des versions des clients avec Databricks Runtime et Databricks Runtime ML, consultez Matrice de compatibilité de l’Ingénierie des caractéristiques. Les versions antérieures du client Feature Store d'espace de travail Databricks sont disponibles sur PyPI sous le nom databricks-feature-store.

databricks-feature-engineering 0.14.0

  • Fonctionnalités déclaratives batch (bêta) :
    • API de fonctionnalités déclaratives pour stocker les définitions de fonctionnalités déclaratives en tant que fonctions de catalogue Unity avec des agrégations et des fenêtres de temps.
    • L’API fonctionnalités matérialisées planifie la matérialisation automatique par lots des fonctionnalités dans les magasins en ligne à l’aide de planifications cron configurables.
    • Les fonctionnalités matérialisées peuvent être utilisées dans le service en ligne pour les modèles inscrits dans le catalogue Unity.
    • La prise en charge des fenêtres glissantes et basculantes utilisant les classes SlidingWindow et TumblingWindow permet le calcul correct des fonctionnalités temporelles dans create_training_set().
    • Le paramètre filter_condition autorise le filtrage des données source lors du calcul des caractéristiques.
  • Autres améliorations :
    • La nouvelle list_online_stores() API répertorie tous les magasins en ligne d’un catalogue ou d’un schéma.
    • Prise en charge du suivi de la facturation usage_policy_id lors de la création ou de la mise à jour des magasins en ligne.
    • Amélioration des messages d’erreur lorsque les magasins en ligne sont supprimés ou indisponibles.
    • Améliorations des performances et corrections des bogues.

databricks-feature-engineering 0.13.0

  • API pour la gestion des magasins de fonctionnalités en ligne gérés par Databricks.
  • publish_table() accepte maintenant les paramètres source_table_name, online_table_name, et publish_mode pour une spécification de table plus claire.
  • Prise en charge de read_replica_count lors de la création ou de la mise à jour de magasins en ligne pour améliorer l'évolutivité de la lecture.
  • Correctifs de bogues et améliorations.

databricks-feature-engineering 0.12.1

  • Prendre en charge les valeurs par défaut pour les recherches de fonctionnalités.
  • Correctifs de bogues et améliorations.

databricks-feature-engineering 0.11.0

  • Ajoutez la prise en charge de mlflow la version 3.0.
  • Correctifs de bogues et améliorations.

databricks-feature-engineering 0.10.2

  • Ajoutez la prise en charge de la version mlflow 2.20.0 et des versions ultérieures.
  • Ajouter la prise en charge de la version 2.x numpy.
  • Correctifs de bogues et améliorations.

databricks-feature-engineering 0.9.0

  • Soutien de l'utilisation de prebuilt_env dans les invocations de score_batch.
  • Améliorations des performances de jointure de fonctionnalités ponctuelles avec Photon.
  • Correctifs de bogues et améliorations.

databricks-feature-engineering 0.8.0

  • Prise en charge de l’utilisation de params dans les appels score_batch, ce qui permet de transmettre des paramètres supplémentaires au modèle pour l’inférence.
  • Correctifs de bogues et améliorations.

databricks-feature-engineering 0.7.0

databricks-feature-engineering 0.6.0

  • L’exécution de jointures à un point dans le temps avec Spark natif est désormais prise en charge, en plus de la prise en charge existante avec Tempo. Grand merci à Semyon Sinchenko d’avoir suggéré l’idée.
  • StructType est désormais pris en charge en tant que type de données PySpark. StructType n’est pas pris en charge pour la mise en service en ligne.
  • write_table prend désormais en charge l’écriture dans des tables dont le clustering liquide est activé.
  • Le paramètre timeseries_columns de create_table a été renommé timeseries_column. Les flux de travail existants peuvent continuer à utiliser le paramètre timeseries_columns.
  • score_batch prend désormais en charge le paramètre env_manager. Pour en savoir plus, consultez la documentation MLflow.

databricks-feature-engineering 0.5.0

  • Nouvelle API update_feature_spec dans databricks-feature-engineering qui permet aux utilisateurs de mettre à jour le propriétaire d’une FeatureSpec dans Unity Catalog.

databricks-feature-engineering 0.4.0

  • Résolutions de petits bogue et améliorations.

databricks-feature-engineering 0.3.0

  • log_model utilise désormais le nouveau package PyPI databricks-feature-lookup, qui inclut des améliorations du niveau de performance du service de modèle en ligne.

databricks-feature-store 0.17.0

  • databricks-feature-store est déconseillé. Tous les modules existants de ce package sont disponibles dans databricks-feature-engineering versions 0.2.0 et ultérieures. Pour plus d’informations, consultez API Python.

databricks-feature-engineering 0.2.0

  • databricks-feature-engineering contient désormais tous les modules de databricks-feature-store. Pour plus d’informations, consultez API Python.

databricks-feature-store 0.16.3

  • Corrige le bogue de délai d’expiration lors de l’utilisation d’AutoML avec des tables de caractéristiques.

databricks-feature-engineering 0.1.3

  • Petites améliorations apportées à UpgradeClient.

databricks-feature-store 0.16.2

databricks-feature-store 0.16.1

  • Résolutions de petits bogue et améliorations.

databricks-feature-engineering 0.1.2 et databricks-feature-store 0.16.0

  • Résolutions de petits bogue et améliorations.
    • Correction des URL incorrectes de traçabilité des travaux enregistrées avec certaines configurations de l’espace de travail.

databricks-feature-engineering 0.1.1

  • Résolutions de petits bogue et améliorations.

databricks-feature-engineering 0.1.0

  • Version GA de Feature Engineering dans le client Python Unity Catalog vers PyPI

databricks-feature-store 0.15.1

  • Résolutions de petits bogue et améliorations.

databricks-feature-store 0.15.0

  • Vous pouvez désormais déduire et consigner automatiquement un exemple d’entrée lorsque vous journalisez un modèle. Pour ce faire, définissez infer_model_example sur True lorsque vous appelez log_model. L’exemple est basé sur les données d’apprentissage spécifiées dans le paramètre training_set.

databricks-feature-store 0.14.2

  • Correction d'un bogue lors de la publication sur Aurora MySQL à partir d'un connecteur MariaDB/J >=2.7.5.

databricks-feature-store 0.14.1

  • Résolutions de petits bogue et améliorations.

databricks-feature-store 0.14.0

À compter de la version 0.14.0, vous devez spécifier des colonnes clés timestamp dans l’argument primary_keys. Les clés timestamp font partie des « clés primaires » qui identifient de manière unique chaque ligne de la table de fonctionnalités. Comme d’autres colonnes de clé primaire, les colonnes de clé timestamp ne peuvent pas contenir de valeurs NUL.

Dans l’exemple suivant, le DataFrame user_features_df contient les colonnes suivantes : user_id, ts, purchases_30d et is_free_trial_active.

0.14.0 et versions ultérieures

fs = FeatureStoreClient()

fs.create_table(
name="ads_team.user_features",
primary_keys=["user_id", "ts"],
timestamp_keys="ts",
features_df=user_features_df,
)

0.13.1 et versions antérieures

fs = FeatureStoreClient()

fs.create_table(
name="ads_team.user_features",
primary_keys="user_id",
timestamp_keys="ts",
features_df=user_features_df,
)

databricks-feature-store 0.13.1

  • Résolutions de petits bogue et améliorations.

databricks-feature-store 0.13.0

  • La version minimale requise mlflow-skinnyest désormais 2.4.0.
  • La création d’un jeu d’entraînement échoue si le DataFrame fourni ne contient pas toutes les clés de recherche requises.
  • Lors de la journalisation d’un modèle qui utilise des tables de caractéristiques dans Unity Catalog, une signature MLflow est journalisée automatiquement avec le modèle.

databricks-feature-store 0.12.0

  • Vous pouvez maintenant supprimer un magasin en ligne à l’aide de l’API drop_online_table.

databricks-feature-store 0.11.0

  • Dans les espaces de travail avec Unity Catalog, vous pouvez désormais publier à la fois des tables d’espace de travail et des fonctionnalités Unity Catalog dans des magasins en ligne Cosmos DB. Pour cela, Databricks Runtime 13.0 ML ou une version ultérieure est nécessaire.

databricks-feature-store 0.10.0

  • Résolutions de petits bogue et améliorations.

databricks-feature-store 0.9.0

  • Résolutions de petits bogue et améliorations.

databricks-feature-store 0.8.0

  • Résolutions de petits bogue et améliorations.

databricks-feature-store 0.7.1

  • Ajout de flask en tant que dépendance pour résoudre le problème de dépendance manquante lors de la notation des modèles avec score_batch.

databricks-feature-store 0.7.0

  • Résolutions de petits bogue et améliorations.

databricks-feature-store 0.6.1

  • Publication publique initiale du client Databricks Feature Store sur PyPI.