Notas de la versión para la ingeniería de características de Databricks y el almacén de características del área de trabajo heredada
En esta página se enumeran las versiones de ingeniería de características de Databricks en el cliente del catálogo de Unity y de la versión del cliente del almacén de características de Databricks del área de trabajo. Ambos clientes están disponibles en PyPI como databricks-feature-engineering.
Las bibliotecas se usan para:
- Crear, leer y escribir tablas de características.
- Entrenar modelos en datos de características.
- Publicar tablas de características en almacenes en línea de cara al servicio en tiempo real.
Para obtener documentación de utilización, consulte Almacén de características de Databricks. Para obtener documentación sobre la API de Python, consulte API de Python.
El cliente de ingeniería de características en el catálogo de Unity funciona para características y tablas de características en el catálogo de Unity. El cliente del almacén de características del área de trabajo funciona para características y tablas de características en el almacén de características del área de trabajo. Ambos clientes están preinstalados en Databricks Runtime para Machine Learning. También se pueden ejecutar en Databricks Runtime después de instalar databricks-feature-engineering
desde PyPI (pip install databricks-feature-engineering
). Se puede usar localmente o en entornos de CI/CD solo para pruebas unitarias.
Para ver una tabla que muestra la compatibilidad de versiones de cliente con Databricks Runtime y las versiones de Databricks Runtime ML, consulte Matriz de compatibilidad de la ingeniería de características. Las versiones anteriores del cliente del almacén de características del área de trabajo de Databricks están disponibles en PyPI como databricks-feature-store.
- Algunas vistas de Unity Catalog ahora se pueden usar como tablas de características para el entrenamiento y la evaluación de modelos sin conexión. Consulte Lectura de tablas de características en Unity Catalog.
- Ahora se pueden crear conjuntos de formación con búsquedas de características o una especificación de características. Consulte la referencia del SDK de Python.
- Ya se admite la ejecución de combinaciones a un momento dado con Spark nativo, además de la compatibilidad existente con Tempo. Mil gracias a Semyon Sinchenko por sugerir la idea.
StructType
ya se admite como tipo de datos de PySpark.StructType
no se admite para el servicio en línea.write_table
ya admite la escritura en tablas que tengan habilitada la agrupación en clústeres líquidos.- Se cambió el nombre del parámetro
timeseries_columns
paracreate_table
atimeseries_column
. Los flujos de trabajo existentes pueden seguir usando el parámetrotimeseries_columns
. score_batch
ya admite el parámetroenv_manager
. Para obtener más información, consulte la documentación de MLflow.
- Nueva API
update_feature_spec
endatabricks-feature-engineering
que permite a los usuarios actualizar el propietario de un FeatureSpec en el catálogo de Unity.
- Mejoras y correcciones de errores pequeños.
log_model
ahora usa el nuevo paquete PyPI databricks-feature-lookup, que incluye mejoras de rendimiento para el servicio de modelo en línea.
databricks-feature-store
está en desuso. Todos los módulos existentes de este paquete están disponibles endatabricks-feature-engineering
en la versión 0.2.0 y posteriores. Para obtener más información, consulte API de Python.
databricks-feature-engineering
ahora contiene todos los módulos dedatabricks-feature-store
. Para obtener más información, consulte API de Python.
- Corrige el error de tiempo de espera al usar AutoML de mosaico con tablas de características.
- Pequeñas mejoras en UpgradeClient.
- Ahora puede crear puntos de conexión de característica y Function Serving. Para obtener más información, consulte Característica y Función Serving.
- Mejoras y correcciones de errores pequeños.
- Mejoras y correcciones de errores pequeños.
- Se han corregido direcciones URL de linaje de trabajos incorrectas registradas con determinadas configuraciones del área de trabajo.
- Mejoras y correcciones de errores pequeños.
- Versión de disponibilidad general de la ingeniería de características en el cliente Python del catálogo de Unity en PyPI
- Mejoras y correcciones de errores pequeños.
- Ahora puede deducir y registrar automáticamente un ejemplo de entrada al registrar un modelo. Para ello, establezca
infer_model_example
enTrue
cuando llame alog_model
. El ejemplo se basa en los datos de entrenamiento especificados en el parámetrotraining_set
.
- Se ha corregido el error al publicar en Aurora MySQL desde mariaDB Connector/J >=2.7.5.
- Mejoras y correcciones de errores pequeños.
A partir de la 0.14.0, es necesario especificar columnas de clave de marca de tiempo en el argumento primary_keys
. Las claves de marca de tiempo forman parte de las "claves principales" que identifican de forma única cada fila de la tabla de características. Al igual que otras columnas de clave principal, las columnas de clave de marca de tiempo no pueden contener valores NULL.
En el ejemplo siguiente, el DataFrame user_features_df
contiene las columnas siguientes: user_id
, ts
, purchases_30d
y is_free_trial_active
.
fs = FeatureStoreClient()
fs.create_table(
name="ads_team.user_features",
primary_keys=["user_id", "ts"],
timestamp_keys="ts",
features_df=user_features_df,
)
fs = FeatureStoreClient()
fs.create_table(
name="ads_team.user_features",
primary_keys="user_id",
timestamp_keys="ts",
features_df=user_features_df,
)
- Mejoras y correcciones de errores pequeños.
- La
mlflow-skinny
versión mínima necesaria es 2.4.0. - Se produce un error al crear un conjunto de entrenamiento si el elemento DataFrame proporcionado no contiene todas las claves de búsqueda necesarias.
- Al registrar un modelo que usa tablas de características en el catálogo de Unity, se registra automáticamente una firma de MLflow con el modelo.
- Ahora puede eliminar una tienda en línea mediante la API
drop_online_table
.
- En las áreas de trabajo habilitadas para el catálogo de Unity, ahora puede publicar tablas de características de área de trabajo y catálogo de Unity en almacenes en línea de Cosmos DB. Esto requiere Databricks Runtime 13.0 ML o posterior.
- Mejoras y correcciones de errores pequeños.
- Mejoras y correcciones de errores pequeños.
- Mejoras y correcciones de errores pequeños.
- Agregue
flask
como una dependencia para corregir el problema de dependencia que falta al puntuar modelos conscore_batch
.
- Mejoras y correcciones de errores pequeños.
- Versión pública inicial del cliente del almacén de características de Databricks en PyPI.