Leer en inglés

Compartir vía


Notas de la versión para la ingeniería de características de Databricks y el almacén de características del área de trabajo heredada

En esta página se enumeran las versiones de ingeniería de características de Databricks en el cliente del catálogo de Unity y de la versión del cliente del almacén de características de Databricks del área de trabajo. Ambos clientes están disponibles en PyPI como databricks-feature-engineering.

Las bibliotecas se usan para:

  • Crear, leer y escribir tablas de características.
  • Entrenar modelos en datos de características.
  • Publicar tablas de características en almacenes en línea de cara al servicio en tiempo real.

Para obtener documentación de utilización, consulte Almacén de características de Databricks. Para obtener documentación sobre la API de Python, consulte API de Python.

El cliente de ingeniería de características en el catálogo de Unity funciona para características y tablas de características en el catálogo de Unity. El cliente del almacén de características del área de trabajo funciona para características y tablas de características en el almacén de características del área de trabajo. Ambos clientes están preinstalados en Databricks Runtime para Machine Learning. También se pueden ejecutar en Databricks Runtime después de instalar databricks-feature-engineering desde PyPI (pip install databricks-feature-engineering). Se puede usar localmente o en entornos de CI/CD solo para pruebas unitarias.

Para ver una tabla que muestra la compatibilidad de versiones de cliente con Databricks Runtime y las versiones de Databricks Runtime ML, consulte Matriz de compatibilidad de la ingeniería de características. Las versiones anteriores del cliente del almacén de características del área de trabajo de Databricks están disponibles en PyPI como databricks-feature-store.

databricks-feature-engineering 0.7.0

databricks-feature-engineering 0.6.0

  • Ya se admite la ejecución de combinaciones a un momento dado con Spark nativo, además de la compatibilidad existente con Tempo. Mil gracias a Semyon Sinchenko por sugerir la idea.
  • StructType ya se admite como tipo de datos de PySpark. StructType no se admite para el servicio en línea.
  • write_table ya admite la escritura en tablas que tengan habilitada la agrupación en clústeres líquidos.
  • Se cambió el nombre del parámetro timeseries_columns para create_table a timeseries_column. Los flujos de trabajo existentes pueden seguir usando el parámetro timeseries_columns.
  • score_batch ya admite el parámetro env_manager. Para obtener más información, consulte la documentación de MLflow.

databricks-feature-engineering 0.5.0

  • Nueva API update_feature_spec en databricks-feature-engineering que permite a los usuarios actualizar el propietario de un FeatureSpec en el catálogo de Unity.

databricks-feature-engineering 0.4.0

  • Mejoras y correcciones de errores pequeños.

databricks-feature-engineering 0.3.0

  • log_model ahora usa el nuevo paquete PyPI databricks-feature-lookup, que incluye mejoras de rendimiento para el servicio de modelo en línea.

databricks-feature-store 0.17.0

  • databricks-feature-store está en desuso. Todos los módulos existentes de este paquete están disponibles en databricks-feature-engineering en la versión 0.2.0 y posteriores. Para obtener más información, consulte API de Python.

databricks-feature-engineering 0.2.0

  • databricks-feature-engineering ahora contiene todos los módulos de databricks-feature-store. Para obtener más información, consulte API de Python.

databricks-feature-store 0.16.3

  • Corrige el error de tiempo de espera al usar AutoML de mosaico con tablas de características.

databricks-feature-engineering 0.1.3

  • Pequeñas mejoras en UpgradeClient.

databricks-feature-store 0.16.2

databricks-feature-store 0.16.1

  • Mejoras y correcciones de errores pequeños.

databricks-feature-engineering 0.1.2 & databricks-feature-store 0.16.0

  • Mejoras y correcciones de errores pequeños.
    • Se han corregido direcciones URL de linaje de trabajos incorrectas registradas con determinadas configuraciones del área de trabajo.

databricks-feature-engineering 0.1.1

  • Mejoras y correcciones de errores pequeños.

databricks-feature-engineering 0.1.0

  • Versión de disponibilidad general de la ingeniería de características en el cliente Python del catálogo de Unity en PyPI

databricks-feature-store 0.15.1

  • Mejoras y correcciones de errores pequeños.

databricks-feature-store 0.15.0

  • Ahora puede deducir y registrar automáticamente un ejemplo de entrada al registrar un modelo. Para ello, establezca infer_model_example en True cuando llame a log_model. El ejemplo se basa en los datos de entrenamiento especificados en el parámetro training_set.

databricks-feature-store 0.14.2

  • Se ha corregido el error al publicar en Aurora MySQL desde mariaDB Connector/J >=2.7.5.

databricks-feature-store 0.14.1

  • Mejoras y correcciones de errores pequeños.

databricks-feature-store 0.14.0

A partir de la 0.14.0, es necesario especificar columnas de clave de marca de tiempo en el argumento primary_keys. Las claves de marca de tiempo forman parte de las "claves principales" que identifican de forma única cada fila de la tabla de características. Al igual que otras columnas de clave principal, las columnas de clave de marca de tiempo no pueden contener valores NULL.

En el ejemplo siguiente, el DataFrame user_features_df contiene las columnas siguientes: user_id, ts, purchases_30d y is_free_trial_active.

0.14.0 y versiones posteriores

fs = FeatureStoreClient()

fs.create_table(
name="ads_team.user_features",
primary_keys=["user_id", "ts"],
timestamp_keys="ts",
features_df=user_features_df,
)

0.13.1 y versiones anteriores

fs = FeatureStoreClient()

fs.create_table(
name="ads_team.user_features",
primary_keys="user_id",
timestamp_keys="ts",
features_df=user_features_df,
)

databricks-feature-store 0.13.1

  • Mejoras y correcciones de errores pequeños.

databricks-feature-store 0.13.0

  • La mlflow-skinny versión mínima necesaria es 2.4.0.
  • Se produce un error al crear un conjunto de entrenamiento si el elemento DataFrame proporcionado no contiene todas las claves de búsqueda necesarias.
  • Al registrar un modelo que usa tablas de características en el catálogo de Unity, se registra automáticamente una firma de MLflow con el modelo.

databricks-feature-store 0.12.0

  • Ahora puede eliminar una tienda en línea mediante la API drop_online_table.

databricks-feature-store 0.11.0

  • En las áreas de trabajo habilitadas para el catálogo de Unity, ahora puede publicar tablas de características de área de trabajo y catálogo de Unity en almacenes en línea de Cosmos DB. Esto requiere Databricks Runtime 13.0 ML o posterior.

databricks-feature-store 0.10.0

  • Mejoras y correcciones de errores pequeños.

databricks-feature-store 0.9.0

  • Mejoras y correcciones de errores pequeños.

databricks-feature-store 0.8.0

  • Mejoras y correcciones de errores pequeños.

databricks-feature-store 0.7.1

  • Agregue flask como una dependencia para corregir el problema de dependencia que falta al puntuar modelos con score_batch.

databricks-feature-store 0.7.0

  • Mejoras y correcciones de errores pequeños.

databricks-feature-store 0.6.1

  • Versión pública inicial del cliente del almacén de características de Databricks en PyPI.