Repositório de Características Databricks

Esta página é uma visão geral dos recursos disponíveis quando você usa o Databricks Feature Store com o Unity Catalog.

O Databricks Feature Store fornece um registro central para recursos usados em seus modelos de IA e ML. As tabelas e modelos de recursos são registrados no Unity Catalog, fornecendo governança integrada, linhagem e compartilhamento e descoberta de recursos entre espaços de trabalho. Com o Databricks, todo o fluxo de trabalho de treinamento do modelo ocorre em uma única plataforma, incluindo:

  • Pipelines de dados que ingerem dados brutos, criam tabelas de características, treinam modelos e executam inferência em lote.
  • Modelo e recurso servindo pontos de extremidade que estão disponíveis com um único clique e que fornecem milissegundos de latência.
  • Monitorização de dados e modelos.

Quando utilizas funcionalidades do Databricks Feature Store para treinar modelos, o modelo acompanha automaticamente a proveniência das funcionalidades que foram usadas no treinamento. No momento da inferência, o modelo procura automaticamente os valores mais recentes das características. O Databricks Feature Store também fornece computação sob demanda de características para aplicações em tempo real, gerindo todas as tarefas de cálculo das características. Isso elimina a distorção de treinamento/serviço, garantindo que os cálculos de recursos usados na inferência sejam os mesmos usados durante o treinamento do modelo. Também simplifica significativamente o código do lado do cliente, uma vez que todas as consultas de funcionalidades e cálculos são tratados pela Databricks Feature Store.

Observação

Esta página descreve o Databricks Feature Store para espaços de trabalho ativados para o Unity Catalog. Se o seu espaço de trabalho não estiver ativado para o Unity Catalog, consulte Armazenamento de Funcionalidades do Espaço de Trabalho (obsoleto).

Descrição geral conceptual

Para uma visão geral de como funciona a Databricks Feature Store e um glossário de termos, consulte a visão geral e o glossário da Feature Store.

Desenvolver funcionalidades

Característica Description
Tabelas de características Crie e trabalhe com tabelas de características.

Descubra e partilhe funcionalidades

Característica Description
Explore os recursos do Catálogo Unity Explore e gerencie tabelas de recursos usando o Catalog Explorer e a interface do usuário de recursos.
Usar tags com tabelas de funcionalidades e funcionalidades no Unity Catalog Use pares chave-valor simples para categorizar e gerir as suas tabelas de funcionalidades e características.

Usar funcionalidades em fluxos de trabalho de treinamento

Característica Description
Modelos de comboios com tabelas de características Use recursos para treinar modelos.
O recurso point-in-time se junta Use uma correção no ponto no tempo para criar um conjunto de dados de treino que reflita os valores das características a partir do tempo em que uma observação de rótulo foi registrada.
Python API Referência da API Python

Providenciar funcionalidades

Característica Description
Lojas de recursos on-line Databricks Fornecer dados de características para aplicações online e modelos de aprendizado de máquina em tempo real. Desenvolvido por Databricks Lakebase.
Serviço de Modelos com pesquisa automática de características Pesquise automaticamente valores das características de uma loja online.
Endpoints de fornecimento de funcionalidades Forneça recursos para modelos e aplicativos fora do Databricks.
Computação de características sob demanda Calcule os valores das características durante a inferência.

Governança e linhagem de funcionalidades

Característica Description
Governança e linhagem de funcionalidades Use o Unity Catalog para controlar o acesso a tabelas de recursos e exibir a linhagem de uma tabela de recursos, modelo ou função.

Tutoriais

Tutorial Description
Exemplos de blocos de notas para começar Notebook básico. Mostra como criar uma tabela de recursos, usá-la para treinar um modelo e executar a pontuação em lote usando a pesquisa automática de recursos. Também mostra a IU de Engenharia de Características para pesquisar características e visualizar linhagem.
Exemplo de notebook de táxi. Mostra o processo de criação de recursos, atualizando-os e usando-os para treinamento de modelo e inferência em lote.
Exemplo: implementar e consultar um ponto de extremidade de disponibilização de funcionalidades Tutorial e notebook de exemplo mostrando como implantar e consultar um endpoint de serviço de funcionalidade.
Exemplo: usar recursos com aplicativos RAG estruturados Tutorial mostrando como usar tabelas online do Databricks e endpoints de serviço de funcionalidades para aplicações de RAG (Recuperação Aumentada de Geração).

Requisitos

Para usar o Databricks Feature Store, o seu espaço de trabalho deve estar ativado para o Unity Catalog. Se o seu espaço de trabalho não estiver ativado para o Unity Catalog, consulte Armazenamento de Funcionalidades do Espaço de Trabalho (obsoleto).

Tipos de dados suportados:

O Databricks Feature Store e o legacy Workspace Feature Store suportam os seguintes tipos de dados PySpark:

  • IntegerType
  • FloatType
  • BooleanType
  • StringType
  • DoubleType
  • LongType
  • TimestampType
  • DateType
  • ShortType
  • ArrayType
  • BinaryType [1]
  • DecimalType [1]
  • MapType [1]
  • StructType [2]

[1] BinaryType, DecimalTypee MapType são suportados em todas as versões do Feature Engineering no Unity Catalog e no Workspace Feature Store v0.3.5 ou superior. [2] StructType é suportado no Feature Engineering v0.6.0 ou superior.

Os tipos de dados listados acima suportam tipos de recursos que são comuns em aplicativos de aprendizado de máquina. Por exemplo:

  • Você pode armazenar vetores densos, tensores e incorporações como ArrayType.
  • Você pode armazenar vetores, tensores e incorporações esparsos como MapType.
  • Você pode armazenar texto como StringType.

Quando publicado em lojas online, os recursos ArrayType e MapType são armazenados no formato JSON.

A interface do usuário do Feature Store exibe metadados sobre tipos de dados de recursos:

Exemplo de tipos de dados complexos

Mais informações

Para obter mais informações sobre práticas recomendadas, baixe o Guia abrangente para lojas de recursos.