Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Esta página é uma visão geral dos recursos disponíveis quando você usa o Repositório de Recursos do Databricks com o Catálogo do Unity.
O Repositório de Recursos do Databricks fornece um registro central para recursos usados em seus modelos de IA e ML. Tabelas de recursos e modelos são registrados no Catálogo do Unity, fornecendo governança interna, linhagem e compartilhamento e descoberta de recursos entre workspaces. Com o Databricks, todo o fluxo de trabalho de treinamento do modelo ocorre em uma única plataforma, incluindo:
- Pipelines de dados que ingerem dados brutos, criam tabelas de recursos, treinam modelos e executam inferência em lote.
- Pontos de extremidade de disponibilização de modelos e recursos que estão disponíveis com um único clique e fornecem milissegundos de latência.
- Monitoramento de modelos e dados.
Quando você usa recursos do repositório de recursos para treinar modelos, o modelo controla automaticamente a linhagem para os recursos que foram usados no treinamento. Em tempo de inferência, o modelo pesquisa automaticamente os valores de recurso mais recentes. O repositório de recursos também fornece a computação sob demanda de recursos para aplicativos em tempo real. O repositório de recursos manipula todas as tarefas de computação de recursos. Isso elimina a distorção de treinamento/serviço, garantindo que os cálculos de recursos usados em inferência sejam os mesmos usados durante o treinamento de modelo. Ele também simplifica significativamente o código do lado do cliente, pois todas as pesquisas de recursos e a computação são tratadas pelo repositório de recursos.
Observação
Esta página aborda a engenharia de recursos e os recursos de serviço destinados aos workspaces habilitados para o Catálogo do Unity. Se o workspace não estiver habilitado para o Catálogo do Unity, consulte Repositório de recursos do workspace (herdado).
Visão geral conceitual
Para obter uma visão geral de como o Databricks Feature Store funciona e um glossário de termos, consulte a visão geral e o glossário do repositório de recursos.
Engenharia de recursos
| Característica | Description |
|---|---|
| Trabalhar com tabelas de recursos no Catálogo do Unity | Crie e trabalhe com tabelas de recursos. |
Descobrir e compartilhar recursos
| Característica | Description |
|---|---|
| Explorar recursos no Catálogo do Unity | Explore e gerencie tabelas de recursos usando o Gerenciador de Catálogos e a interface do usuário de recursos. |
| Usar marcas com tabelas de recursos e recursos no Catálogo do Unity | Use pares chave-valor simples para categorizar e gerenciar suas tabelas de recursos e recursos. |
Usar recursos em fluxos de trabalho de treinamento
| Característica | Description |
|---|---|
| Usar recursos para treinar modelos | Use recursos para treinar modelos. |
| Junções de recursos pontuais | Use a correção pontual para criar um conjunto de dados de treinamento que reflita valores de recurso a partir do momento em que uma observação de rótulo foi registrada. |
| Python API | Referência da API do Python |
Recursos de serviço
| Característica | Description |
|---|---|
| Repositórios de recursos do Databricks Online | Forneça dados de recursos para aplicativos online e modelos de machine learning em tempo real. Alimentado pelo Databricks Lakebase. |
| Model serving with automatic feature lookup | Pesquise automaticamente os valores de recursos de uma loja online. |
| Pontos de extremidade de serviço de recurso | Forneça recursos para modelos e aplicativos fora do Databricks. |
| Computação de recursos sob demanda | Calcular valores de recurso no momento da inferência. |
Governança e linhagem de recursos
| Característica | Description |
|---|---|
| Governança e linhagem de recursos | Use o Catálogo do Unity para controlar o acesso a tabelas de recursos e exibir a linhagem de uma tabela de recursos, modelo ou função. |
Tutorials
| Tutorial | Description |
|---|---|
| Exemplo de blocos de anotações para começar |
Bloco de anotações básico. Mostra como criar uma tabela de recursos, usá-la para treinar um modelo e executar a pontuação em lote usando a pesquisa automática de recursos. Também mostra a interface do usuário da Engenharia de Recursos para pesquisar recursos e exibir a linhagem. Notebook de exemplo de táxi. Mostra o processo de criar recursos, atualizá-los e usá-los para treinamento de modelo e inferência em lote. |
| Exemplo: implantar e consultar um ponto de extremidade de serviço de recurso | Tutorial e exemplo de notebook mostrando como implantar e consultar um recurso que atende ao ponto de extremidade. |
| Exemplo: usar recursos com aplicativos RAG estruturados | Tutorial mostrando como usar tabelas online do Databricks e recursos que atendem pontos de extremidade para aplicativos rag (geração aumentada de recuperação). |
Requisitos
- O seu workspace precisa estar habilitado para o Unity Catalog.
- A engenharia de recursos no Catálogo do Unity requer o Databricks Runtime 13.3 LTS ou versões mais recentes.
Se o workspace não atender a esses requisitos, consulte Repositório de Recursos do Workspace (herdado) de como usar o Repositório de Recursos do Workspace herdado.
Tipos de dados com suporte
A engenharia de recursos no Catálogo do Unity e o repositório de recursos do workspace dão suporte aos seguintes Tipos de dados PySpark:
IntegerTypeFloatTypeBooleanTypeStringTypeDoubleTypeLongTypeTimestampTypeDateTypeShortTypeArrayType-
BinaryType[1] -
DecimalType[1] -
MapType[1] -
StructType[2]
[1] há suporte para BinaryType, DecimalTypee MapType em todas as versões da Engenharia de Recursos no Catálogo do Unity e no Repositório de Recursos do Workspace v0.3.5 ou superior.
[2] StructType é suportado no Feature Engineering v0.6.0 ou em versões mais recentes.
Os tipos de dados listados acima dão suporte a tipos de recursos comuns em aplicativos de machine learning. Por exemplo:
- Você pode armazenar vetores, tensores e inserções densos como
ArrayType. - Você pode armazenar vetores, tensores e inserções esparsos como
MapType. - Você pode armazenar texto como
StringType.
Quando publicados em repositórios online, os recursos ArrayType e MapType são armazenados no formato JSON.
A interface do Armazém de Funcionalidades exibe metadados sobre os tipos de dados de funcionalidades.
Mais informações
Para saber mais sobre as melhores práticas, baixe o Guia abrangente dos repositórios de recursos.