Compartilhar via


Repositório de Recursos do Databricks

Esta página é uma visão geral dos recursos disponíveis quando você usa o Repositório de Recursos do Databricks com o Catálogo do Unity.

O Repositório de Recursos do Databricks fornece um registro central para recursos usados em seus modelos de IA e ML. Tabelas de recursos e modelos são registrados no Catálogo do Unity, fornecendo governança interna, linhagem e compartilhamento e descoberta de recursos entre workspaces. Com o Databricks, todo o fluxo de trabalho de treinamento do modelo ocorre em uma única plataforma, incluindo:

  • Pipelines de dados que ingerem dados brutos, criam tabelas de recursos, treinam modelos e executam inferência em lote.
  • Pontos de extremidade de disponibilização de modelos e recursos que estão disponíveis com um único clique e fornecem milissegundos de latência.
  • Monitoramento de modelos e dados.

Quando você usa recursos do repositório de recursos para treinar modelos, o modelo controla automaticamente a linhagem para os recursos que foram usados no treinamento. Em tempo de inferência, o modelo pesquisa automaticamente os valores de recurso mais recentes. O repositório de recursos também fornece a computação sob demanda de recursos para aplicativos em tempo real. O repositório de recursos manipula todas as tarefas de computação de recursos. Isso elimina a distorção de treinamento/serviço, garantindo que os cálculos de recursos usados em inferência sejam os mesmos usados durante o treinamento de modelo. Ele também simplifica significativamente o código do lado do cliente, pois todas as pesquisas de recursos e a computação são tratadas pelo repositório de recursos.

Observação

Esta página aborda a engenharia de recursos e os recursos de serviço destinados aos workspaces habilitados para o Catálogo do Unity. Se o workspace não estiver habilitado para o Catálogo do Unity, consulte Repositório de recursos do workspace (herdado).

Visão geral conceitual

Para obter uma visão geral de como o Databricks Feature Store funciona e um glossário de termos, consulte a visão geral e o glossário do repositório de recursos.

Engenharia de recursos

Característica Description
Trabalhar com tabelas de recursos no Catálogo do Unity Crie e trabalhe com tabelas de recursos.

Descobrir e compartilhar recursos

Característica Description
Explorar recursos no Catálogo do Unity Explore e gerencie tabelas de recursos usando o Gerenciador de Catálogos e a interface do usuário de recursos.
Usar marcas com tabelas de recursos e recursos no Catálogo do Unity Use pares chave-valor simples para categorizar e gerenciar suas tabelas de recursos e recursos.

Usar recursos em fluxos de trabalho de treinamento

Característica Description
Usar recursos para treinar modelos Use recursos para treinar modelos.
Junções de recursos pontuais Use a correção pontual para criar um conjunto de dados de treinamento que reflita valores de recurso a partir do momento em que uma observação de rótulo foi registrada.
Python API Referência da API do Python

Recursos de serviço

Característica Description
Repositórios de recursos do Databricks Online Forneça dados de recursos para aplicativos online e modelos de machine learning em tempo real. Alimentado pelo Databricks Lakebase.
Model serving with automatic feature lookup Pesquise automaticamente os valores de recursos de uma loja online.
Pontos de extremidade de serviço de recurso Forneça recursos para modelos e aplicativos fora do Databricks.
Computação de recursos sob demanda Calcular valores de recurso no momento da inferência.

Governança e linhagem de recursos

Característica Description
Governança e linhagem de recursos Use o Catálogo do Unity para controlar o acesso a tabelas de recursos e exibir a linhagem de uma tabela de recursos, modelo ou função.

Tutorials

Tutorial Description
Exemplo de blocos de anotações para começar Bloco de anotações básico. Mostra como criar uma tabela de recursos, usá-la para treinar um modelo e executar a pontuação em lote usando a pesquisa automática de recursos. Também mostra a interface do usuário da Engenharia de Recursos para pesquisar recursos e exibir a linhagem.
Notebook de exemplo de táxi. Mostra o processo de criar recursos, atualizá-los e usá-los para treinamento de modelo e inferência em lote.
Exemplo: implantar e consultar um ponto de extremidade de serviço de recurso Tutorial e exemplo de notebook mostrando como implantar e consultar um recurso que atende ao ponto de extremidade.
Exemplo: usar recursos com aplicativos RAG estruturados Tutorial mostrando como usar tabelas online do Databricks e recursos que atendem pontos de extremidade para aplicativos rag (geração aumentada de recuperação).

Requisitos

  • O seu workspace precisa estar habilitado para o Unity Catalog.
  • A engenharia de recursos no Catálogo do Unity requer o Databricks Runtime 13.3 LTS ou versões mais recentes.

Se o workspace não atender a esses requisitos, consulte Repositório de Recursos do Workspace (herdado) de como usar o Repositório de Recursos do Workspace herdado.

Tipos de dados com suporte

A engenharia de recursos no Catálogo do Unity e o repositório de recursos do workspace dão suporte aos seguintes Tipos de dados PySpark:

  • IntegerType
  • FloatType
  • BooleanType
  • StringType
  • DoubleType
  • LongType
  • TimestampType
  • DateType
  • ShortType
  • ArrayType
  • BinaryType [1]
  • DecimalType [1]
  • MapType [1]
  • StructType [2]

[1] há suporte para BinaryType, DecimalTypee MapType em todas as versões da Engenharia de Recursos no Catálogo do Unity e no Repositório de Recursos do Workspace v0.3.5 ou superior. [2] StructType é suportado no Feature Engineering v0.6.0 ou em versões mais recentes.

Os tipos de dados listados acima dão suporte a tipos de recursos comuns em aplicativos de machine learning. Por exemplo:

  • Você pode armazenar vetores, tensores e inserções densos como ArrayType.
  • Você pode armazenar vetores, tensores e inserções esparsos como MapType.
  • Você pode armazenar texto como StringType.

Quando publicados em repositórios online, os recursos ArrayType e MapType são armazenados no formato JSON.

A interface do Armazém de Funcionalidades exibe metadados sobre os tipos de dados de funcionalidades.

Exemplo de tipos dados complexos

Mais informações

Para saber mais sobre as melhores práticas, baixe o Guia abrangente dos repositórios de recursos.