APIs de foundation model do Databricks

Artigo
04/25/2024

Este artigo fornece uma visão geral das APIs de foundation model no Azure Databricks. Ele inclui requisitos de uso, modelos com suporte e limitações.

O que são as APIs de foundation model do Databricks?

O Serviço de Modelo do Databricks agora dá suporte a APIs de Modelo de Fundação que permitem acessar e consultar modelos abertos de última geração de um ponto de extremidade de serviço. Com as APIs do Modelo Base, você pode criar aplicativos de maneira rápida e fácil que aproveitam um modelo de IA generativa de alta qualidade sem manter uma implantação de modelo própria.

As APIs do Modelo de Fundação são fornecidas em dois modos de preço:

Pagamento por token: esse é o modo mais fácil de começar a acessar modelos fundamentais no Databricks e é recomendado para iniciar sua jornada com as APIs de Modelos Fundamentais. Esse modo não foi projetado para aplicativos de alta taxa de transferência ou cargas de trabalho de produção de alto desempenho.
Taxa de transferência provisionada: esse modo é recomendado para todas as cargas de trabalho de produção, especialmente aquelas que exigem alta taxa de transferência, garantias de desempenho, modelos ajustados ou que têm requisitos de segurança adicionais. Os pontos de extremidade de taxa de transferência provisionados estão disponíveis com certificações de conformidade como HIPAA.

Confira Usar APIs de foundation model para obter diretrizes sobre como usar esses dois modos e os modelos com suporte.

Usando as APIs de Modelos Fundamentais, você pode:

Consultar uma LLM generalizada para verificar a validade de um projeto antes de investir mais recursos.
Consultar uma LLM generalizada para criar uma prova de conceito rápida para um aplicativo baseado em LLM antes de investir em treinamento e implantação de um modelo personalizado.
Usar um modelo de base, juntamente com um banco de dados vetor, para criar um chatbot usando RAG (geração aumentada de recuperação).
Substitua modelos proprietários por alternativas abertas para otimizar custo e desempenho.
Comparar LLMs com eficiência para ver qual é o melhor candidato para seu caso de uso ou trocar um modelo de produção por um que tenha melhor desempenho.
Criar um aplicativo de LLM para desenvolvimento ou produção com base em uma solução de serviço de LLM escalonável e respaldada por SLA que possa dar suporte aos picos de tráfego de produção.

Requisitos

Token de API do Databricks para autenticar solicitações de ponto de extremidade.
Computação sem servidor (para modelos de taxa de transferência provisionados).
Um espaço de trabalho em uma região com suporte:
- Regiões de pagamento por token.
- Regiões de taxa de transferência provisionada.

Observação

Para cargas de trabalho de taxa de transferência provisionada que usam o modelo Base DBRX, consulte Limites das APIs de Modelos Fundamentais para saber a disponibilidade da região.

Usar APIs de foundation model

Você tem várias opções para usar as APIs de Modelos Fundamentais.

As APIs são compatíveis com OpenAI, então você pode até usar o cliente OpenAI para consultas. Você também pode usar a IU, o SDK Python das APIs dos Modelos Fundamentais, o SDK de implantações do MLflow ou a API REST para consultar modelos com suporte. A Databricks recomenda usar o SDK de implantações do MLflow ou a API REST para interações estendidas e a interface do usuário para testar o recurso.

Confira Foundation models de consulta para obter exemplos de pontuação.

APIs de Modelo de Base de pagamento por token

Importante

Esse recurso está em uma versão prévia.

Os modelos de pagamento por tokens são acessíveis em seu workspace do Azure Databricks e são recomendados para começar. Para acessá-los em seu workspace, navegue até a guia Servindo na barra lateral esquerda. As APIs de foundation model estão localizadas na parte superior da exibição de lista pontos de extremidade.

Lista de pontos de extremidade de serviço

A tabela a seguir resume os modelos com suporte para pagamento por token. Veja Modelos suportados para pagamento por token para obter informações adicionais sobre o modelo.

Se você quiser testar e conversar com esses modelos, poderá fazer isso usando o AI Playground. Consulte Chat com LLMs com suporte usando o Playground de IA.

Modelar	Tipo de tarefa	Ponto de extremidade
Instrução ao DBRX	Chat	`databricks-dbrx-instruct`
Meta-Llama-3-70B-Instruct	Chat	`databricks-meta-llama-3-70b-instruct`
Meta-Llama-2-70B-Chat	Chat	`databricks-llama-2-70b-chat`
Mixtral-8x7B Instruct	Chat	`databricks-mixtral-8x7b-instruct`
Instrução MPT 7B	Completion	`databricks-mpt-7b-instruct`
Instrução MPT 30B	Completion	`databricks-mpt-30b-instruct`
BGE Grande (En)	Inserção	`databricks-bge-large-en`

Confira Foundation models de consulta para obter diretrizes sobre como consultar APIs de foundation models.
Confira Referência da API REST de foundation model para obter os parâmetros e a sintaxe necessários.

APIs de Modelo de Base de taxa de transferência provisionada

A taxa de transferência provisionada está em disponibilidade geral e o Databricks recomenda a taxa de transferência provisionada para cargas de trabalho de produção. A taxa de transferência provisionada fornece aos pontos de extremidade inferência otimizada para cargas de trabalho de modelos fundamentais que exigem garantias de desempenho. Confira APIs do Foundation Model de taxa de transferência provisionada para obter orientação passo a passo sobre como implantar APIs do Foundation Model no modo de taxa de transferência provisionada.

O suporte à taxa de transferência provisionada inclui:

Modelos de base de todos os tamanhos, como a Base DBRX. Os modelos básicos podem ser acessados usando o Databricks Marketplace ou, alternativamente, você pode baixá-los do Hugging Face ou de outra fonte externa e registrá-los no Catálogo do Unity. A última abordagem funciona com qualquer variante ajustada dos modelos com suporte, independentemente do método de ajuste fino empregado.
Variantes ajustadas de modelos base, como LlamaGuard-7B. Isso inclui modelos ajustados em dados proprietários.
Pesos e tokenizadores totalmente personalizados, como aqueles treinados do zero ou continuamente pré-treinados ou outras variações usando a arquitetura de modelo base (como CodeLlama, Yi-34B-Chat ou SOLAR-10.7B).

A tabela a seguir resume as arquiteturas de modelo com suporte para a taxa de transferência provisionada.

Arquitetura do modelo	Tipos de tarefa	Observações
DBRX	Chat ou conclusão	Consulte Limites das APIs de Modelo Fundamentais para a disponibilidade da região.
Meta Llama 3	Chat ou conclusão
Meta Llama 2	Chat ou conclusão
Mistral	Chat ou conclusão
Mixtral	Chat ou conclusão
MPT	Chat ou conclusão
BGE v1.5 (inglês)	Inserção

Limitações

Veja Limites e regiões do serviço de modelo.