Armazenamento de recursos do espaço de trabalho (legado)

Artigo
10/15/2024

Observação

Esta documentação abrange o repositório de recursos do workspace. Só use esta página se o espaço de trabalho não estiver habilitado para o Catálogo do Unity.

O Databricks recomenda o uso da Engenharia de Recursos no Catálogo do Unity. O repositório de recursos do workspace será preterido no futuro.

Por que usar o armazenamento de recursos do espaço de trabalho?

O armazenamento de recursos do espaço de trabalho é totalmente integrado a outros componentes do Azure Databricks.

Detectabilidade. A interface do usuário do Repositório de Recursos, acessível no workspace do Databricks, permite navegar e pesquisar recursos existentes.
Linhagem. Quando você cria uma tabela de recursos no Azure Databricks, as fontes de dados usadas para criar a tabela de recursos são salvas e acessíveis. Para cada recurso em uma tabela de recursos, também é possível acessar os modelos, notebooks, trabalhos e pontos de extremidade que o utilizam.
Integração com a pontuação e o fornecimento de modelo. Ao usar recursos do Repositório de Recursos para treinar um modelo, esse modelo é empacotado com metadados de recursos. Quando você usa o modelo para pontuação em lote ou inferência online, ele recupera automaticamente os recursos do Repositório de Recursos. O chamador não precisa saber sobre eles ou incluir lógica para pesquisar ou unir recursos a fim de pontuar novos dados. Isso facilita muito a implantação e as atualizações do modelo.
Pesquisas pontuais. O Repositório de Recursos dá suporte a casos de uso de série temporal e baseados em eventos que exigem uma correção pontual.

Como funciona o repositório de recursos do espaço de trabalho?

O fluxo de trabalho típico de machine learning com o Repositório de Recursos segue este caminho:

Escrever o código para converter dados brutos em recursos e criar um DataFrame do Spark contendo os recursos desejados.
Grave o DataFrame como uma tabela de recursos no armazenamento de recursos no espaço de trabalho.
Treine um modelo usando recursos do repositório de recursos. Ao fazer isso, o modelo armazena as especificações dos recursos usados para treinamento. Quando o modelo é usado para inferência, ele une automaticamente os recursos das tabelas de recursos apropriadas.
Registre o modelo no Registro de modelos.

Agora é possível usar o modelo para fazer previsões sobre novos dados. Para casos de uso em lote, o modelo recupera automaticamente os recursos necessários no Repositório de Recursos.

Fluxo de trabalho do Repositório de Recursos para casos de uso de aprendizado de máquina em lote.

Para casos de uso de distribuição em tempo real, publique os recursos em um armazenamento online. Confira Lojas online de terceiros.

No momento da inferência, o modelo faz a leitura dos recursos pré-computados do Repositório de Recursos online e os une aos dados fornecidos na solicitação do cliente para o ponto de extremidade de serviço do modelo.

Fluxo do Repositório de Recursos para os modelos de aprendizado de máquina distribuídos.

Comece a usar o armazenamento de recursos do espaço de trabalho

Para começar, experimente estes notebooks de exemplo. O notebook de exemplo básico explica como criar uma tabela de recursos, usá-la para treinar um modelo e, em seguida, executar a pontuação em lote usando a pesquisa automática de recursos. Ele também apresenta a interface do usuário da Engenharia de Recursos e mostra como você pode usá-la para pesquisar recursos e entender como os recursos são criados e usados.

Bloco de anotações de exemplo básico do Workspace Feature Store

Obter notebook

O notebook de exemplo de táxi ilustra o processo de criar recursos, atualizá-los e usá-los para treinamento de modelo e inferência em lotes.

Notebook de exemplo de táxi da Workspace Feature Store

Obter notebook

Tipos de dados com suporte

Para obter uma lista dos tipos de dados compatíveis, confira Tipos de dados compatíveis.

Compartilhar via