Compartilhar via


Notas sobre a engenharia de recursos do Databricks e a versão herdada do Repositório de Recursos do Workspace

Esta página lista as versões do cliente Engenharia de Recursos do Databricks no Catálogo do Unity e do Repositório de Recursos do Workspace do Databricks. Ambos os clientes estão disponíveis no PyPI: databricks-feature-engineering e databricks-feature-store.

As bibliotecas são usadas para:

  • Criar, ler e gravar tabelas de recursos.
  • Treinar modelos nos dados de recursos.
  • Publicar tabelas de recursos nas lojas online por serviço em tempo real.

Para obter a documentação de uso, consulte o Repositório de Recursos do Databricks. Para obter a documentação da API do Python, consulte a API do Python.

O cliente de Engenharia de Recursos no Catálogo do Unity funciona com os recursos e tabelas de recursos no Catálogo do Unity. O cliente do Repositório de Recursos do Workspace funciona para recursos e tabelas de recursos no Repositório de Recursos do Workspace. Ambos os clientes vêm pré-instalados no Databricks Runtime para Machine Learning. Eles também podem ser executados no Databricks Runtime após instalar databricks-feature-engineering do PyPI (pip install databricks-feature-engineering). Somente em testes de unidade, os dois clientes podem ser usados localmente ou em ambientes de CI/CD.

Para obter uma tabela mostrando a compatibilidade de versão do cliente com versões do Databricks Runtime e do Databricks Runtime ML, confira Matriz de compatibilidade da Engenharia de Recursos. Versões mais antigas do cliente do Repositório de Recursos do Workspace do Databricks estão disponíveis no PyPI como databricks-feature-store.

databricks-feature-engineering 0.12.1

  • Dá suporte a valores padrão para pesquisas de funcionalidades.
  • Correções de bugs e melhorias.

databricks-feature-engineering 0.11.0

  • Adicione suporte para a mlflow versão 3.0.
  • Correções de bugs e melhorias.

databricks-feature-engineering 0.10.2

  • Adicione suporte para a mlflow versão 2.20.0 e superior.
  • Adicione suporte para a numpy versão 2.x.
  • Correções de bugs e melhorias.

databricks-feature-engineering 0.9.0

  • Suporte para usar prebuilt_env em invocações de score_batch.
  • Recursos pontuais que unem melhorias de desempenho com o Photon.
  • Correções de bugs e melhorias.

databricks-feature-engineering 0.8.0

  • Suporte ao uso de params em invocações de score_batch, o que permite que parâmetros adicionais sejam passados para o modelo para inferência.
  • Correções de bugs e melhorias.

databricks-feature-engineering 0.7.0

databricks-feature-engineering 0.6.0

  • Agora há suporte para a execução das junções pontuais com o Spark nativo, além do suporte existente com o Tempo. Muito obrigado a Semyon Sinchenko por sugerir a ideia!
  • StructType agora tem suporte como um tipo de dados PySpark. StructType não tem suporte para serviços online.
  • write_table agora dá suporte à gravação em tabelas que têm clusterização líquida habilitada.
  • O parâmetro timeseries_columns para create_table foi renomeado para timeseries_column. Os fluxos de trabalho existentes podem continuar a usar o parâmetro timeseries_columns.
  • score_batch agora dá suporte para o parâmetro env_manager. Consulte a documentação do MLflow para obter mais informações.

databricks-engenharia-de-características 0.5.0

  • Nova API update_feature_spec em databricks-feature-engineering que permite que os usuários atualizem o proprietário de um FeatureSpec no Catálogo do Unity.

databricks-feature-engineering 0.4.0

  • Pequenas correções de bug e aprimoramentos.

engenharia de recursos do databricks 0.3.0

  • log_model agora usa o novo pacote databricks-feature-lookup PyPI, que inclui melhorias de desempenho para o serviço de modelo online.

databricks-feature-store 0.17.0

  • databricks-feature-store está obsoleto. Todos os módulos existentes neste pacote estão disponíveis no databricks-feature-engineering versão 0.2.0 e superior. Para obter detalhes, confira API do Python.

databricks-feature-engineering 0.2.0

  • databricks-feature-engineering agora contém todos os módulos de databricks-feature-store. Para obter detalhes, confira API do Python.

databricks-feature-store 0.16.3

  • Corrige o bug de tempo limite ao usar o AutoML com tabelas de recursos.

databricks-feature-engineering 0.1.3

  • Pequenos aprimoramentos no cliente de atualização.

databricks-feature-store 0.16.2

  • Agora você pode criar pontos de extremidade do Serviço de Recurso e Função. Para obter detalhes, consulte Recursos e Funcionalidades.

databricks-feature-store 0.16.1

  • Pequenas correções de bug e aprimoramentos.

databricks-feature-engineering 0.1.2 e databricks-feature-store 0.16.0

  • Pequenas correções de bug e aprimoramentos.
    • Correção de URLs de linhagem de trabalho incorretas registradas com determinadas configurações de espaço de trabalho.

databricks-feature-engineering 0.1.1

  • Pequenas correções de bug e aprimoramentos.

databricks-feature-engineering 0.1.0

  • Lançamento GA do cliente da Engenharia de Recursos no Catálogo do Unity para Python no PyPI

databricks-feature-store 0.15.1

  • Pequenas correções de bug e aprimoramentos.

databricks-feature-store 0.15.0

  • Agora você pode inferir e registrar automaticamente um exemplo de entrada ao registrar um modelo em log. Para fazer isso, defina infer_model_example como True ao chamar log_model. O exemplo é baseado nos dados de treinamento especificados no parâmetro training_set.

databricks-feature-store 0.14.2

  • Corrija o bug na publicação no Aurora MySQL do MariaDB Connector/J >=2.7.5.

databricks-feature-store 0.14.1

  • Pequenas correções de bug e aprimoramentos.

databricks-feature-store 0.14.0

A partir da versão 0.14.0, você deve especificar as colunas da chave de registro de data e hora no argumento primary_keys. Chaves de timestamp fazem parte das "chaves primárias" que identificam exclusivamente cada linha na tabela de características. Como outras colunas de chave primária, as colunas de chave de timestamp não podem conter valores nulos.

No exemplo a seguir, o DataFrame user_features_df contém as seguintes colunas: user_id, ts, purchases_30d e is_free_trial_active.

0.14.0 e superior

fs = FeatureStoreClient()

fs.create_table(
name="ads_team.user_features",
primary_keys=["user_id", "ts"],
timestamp_keys="ts",
features_df=user_features_df,
)

0.13.1 e inferior

fs = FeatureStoreClient()

fs.create_table(
name="ads_team.user_features",
primary_keys="user_id",
timestamp_keys="ts",
features_df=user_features_df,
)

databricks-feature-store 0.13.1

  • Pequenas correções de bug e aprimoramentos.

databricks-feature-store 0.13.0

  • A versão mínima necessária do mlflow-skinny agora é 2.4.0.
  • A criação de um conjunto de treinamento falhará se o DataFrame fornecido não contiver todas as chaves de pesquisa necessárias.
  • Ao registrar em log um modelo que usa tabelas de recursos no Catálogo do Unity, uma assinatura do MLflow é registrada automaticamente com o modelo.

databricks-feature-store 0.12.0

  • Agora você pode excluir um repositório online usando a API drop_online_table.

databricks-feature-store 0.11.0

  • Em workspaces habilitados para Unity Catalog, agora você pode publicar tabelas de recursos do workspace e do Unity Catalog em repositórios online do Cosmos DB. Isso requer o Databricks Runtime 13.0 ML ou posterior.

databricks-feature-store 0.10.0

  • Pequenas correções de bug e aprimoramentos.

databricks-feature-store 0.9.0

  • Pequenas correções de bug e aprimoramentos.

databricks-feature-store 0.8.0

  • Pequenas correções de bug e aprimoramentos.

databricks-feature-store 0.7.1

  • Adicione flask como dependência para corrigir o problema de dependência ausente ao pontuar modelos com score_batch.

databricks-feature-store versão 0.7.0

  • Pequenas correções de bug e aprimoramentos.

databricks-feature-store 0.6.1

  • Versão pública inicial do cliente do Repositório de Recursos do Databricks para o PyPI.