APIs do Modelo de fundação do Databricks
Este artigo fornece uma visão geral das APIs do Modelo de Fundação no Azure Databricks. Inclui requisitos de utilização, modelos suportados e limitações.
O que são APIs do Databricks Foundation Model?
O Mosaic AI Model Serving agora suporta APIs de Modelo de Base que permitem acessar e consultar modelos abertos de última geração a partir de um ponto de extremidade de serviço. Com as APIs do Foundation Model, você pode criar aplicativos de forma rápida e fácil que aproveitam um modelo de IA generativa de alta qualidade sem manter sua própria implantação de modelo. As APIs do Modelo de Base são um Serviço Designado do Databricks, o que significa que ele usa o Databricks Geos para gerenciar a residência de dados ao processar o conteúdo do cliente.
As APIs do Modelo de Base são fornecidas em dois modos de preços:
- Pay-per-token: Esta é a maneira mais fácil de começar a acessar modelos de base no Databricks e é recomendada para começar sua jornada com APIs de modelo de fundação. Esse modo não foi projetado para aplicativos de alto rendimento ou cargas de trabalho de produção de alto desempenho.
- Taxa de transferência provisionada: esse modo é recomendado para todas as cargas de trabalho de produção, especialmente aquelas que exigem alto rendimento, garantias de desempenho, modelos ajustados ou têm requisitos de segurança adicionais. Os endpoints de taxa de transferência provisionados estão disponíveis com certificações de conformidade como a HIPAA.
Consulte Usar APIs de modelo básico para obter orientação sobre como usar esses dois modos e os modelos suportados.
Usando as APIs do Modelo de Fundação, você pode:
- Consulte um LLM generalizado para verificar a validade de um projeto antes de investir mais recursos.
- Consulte um LLM generalizado para criar uma prova de conceito rápida para um aplicativo baseado em LLM antes de investir em treinamento e implantar um modelo personalizado.
- Use um modelo de base, juntamente com um banco de dados vetorial, para criar um chatbot usando a geração aumentada de recuperação (RAG).
- Substitua modelos proprietários por alternativas abertas para otimizar o custo e o desempenho.
- Compare LLMs de forma eficiente para ver qual é o melhor candidato para o seu caso de uso ou troque um modelo de produção por um de melhor desempenho.
- Crie um aplicativo LLM para desenvolvimento ou produção sobre uma solução de LLM escalável e apoiada por SLA que pode suportar seus picos de tráfego de produção.
Requerimentos
- Token de API Databricks para autenticar solicitações de ponto de extremidade.
- Computação sem servidor (para modelos de taxa de transferência provisionada).
- Um espaço de trabalho em uma região suportada:
Nota
Para cargas de trabalho de taxa de transferência provisionadas que usam o modelo Base DBRX, consulte Limites de APIs do Modelo de Base para disponibilidade de região.
Usar APIs de modelo de base
Você tem várias opções para usar as APIs do Modelo de Base.
As APIs são compatíveis com OpenAI, então você pode usar o cliente OpenAI para consulta. Você também pode usar a interface do usuário, o SDK Python das APIs de Modelos Básicos, o SDK de Implantações MLflow ou a API REST para consultar modelos suportados. O Databricks recomenda o uso do SDK ou API do cliente OpenAI para interações estendidas e a interface do usuário para testar o recurso.
Consulte Modelos de IA generativa de consulta para obter exemplos de pontuação.
APIs do modelo de base de pagamento por token
Os modelos de pagamento por tokens são acessíveis em seu espaço de trabalho do Azure Databricks e são recomendados para começar. Para acessá-los em seu espaço de trabalho, navegue até a guia Servindo na barra lateral esquerda. As APIs do Modelo de Base estão localizadas na parte superior da exibição da lista Pontos de Extremidade.
A tabela a seguir resume os modelos suportados para pagamento por token. Consulte Modelos suportados para pagamento por token para obter informações adicionais sobre o modelo.
Se você quiser testar e conversar com esses modelos, você pode fazê-lo usando o AI Playground. Veja Bate-papo com LLMs e protótipos de aplicativos GenAI usando o AI Playground.
Importante
- A partir de 23 de julho de 2024, o Meta-Llama-3.1-70B-Instruct substitui o suporte para Meta-Llama-3-70B-Instruct em endpoints pay-per-token de APIs do Modelo de Fundação.
- O Meta-Llama-3.1-405B-Instruct é o maior modelo de linguagem grande de última geração disponível abertamente, criado e treinado pela Meta e distribuído pelo Azure Machine Learning usando o Catálogo de Modelos do AzureML.
- Os seguintes modelos estão agora aposentados. Consulte Modelos retirados para obter os modelos de substituição recomendados.
- Llama 2 70B Bate-papo
- MPT 7B Instruir
- MPT 30B Instruir
Modelo | Tipo de tarefa | Ponto final | Notas |
---|---|---|---|
GTE Grande (Inglês) | Incorporar | databricks-gte-large-en |
Não gera incorporações normalizadas. |
Meta-Llama-3.1-70B-Instruir | Chat | databricks-meta-llama-3-1-70b-instruct |
|
Meta-Llama-3.1-405B-Instruir* | Chat | databricks-meta-llama-3-1-405b-instruct |
Consulte Limites de APIs do Modelo de Base para disponibilidade de região. |
DBRX Instruir | Chat | databricks-dbrx-instruct |
Consulte Limites de APIs do Modelo de Base para disponibilidade de região. |
Instruções Mixtral-8x7B | Chat | databricks-mixtral-8x7b-instruct |
Consulte Limites de APIs do Modelo de Base para disponibilidade de região. |
BGE Large (Inglês) | Incorporar | databricks-bge-large-en |
Consulte Limites de APIs do Modelo de Base para disponibilidade de região. |
*
Entre em contato com sua equipe de conta do Databricks se encontrar falhas de endpoint ou erros de estabilização ao usar esse modelo.
- Consulte Modelos de IA generativa de consulta para obter orientação sobre como consultar APIs de modelo básico.
- Consulte Referência da API REST do modelo de base para obter os parâmetros e a sintaxe necessários.
APIs de modelo de base de taxa de transferência provisionada
A taxa de transferência provisionada fornece pontos de extremidade com inferência otimizada para cargas de trabalho de modelo básico que exigem garantias de desempenho. O Databricks recomenda a taxa de transferência provisionada para cargas de trabalho de produção. Consulte APIs de modelo de base de taxa de transferência provisionada para obter um guia passo a passo sobre como implantar APIs de modelo de base no modo provisionado.
O suporte à taxa de transferência provisionada inclui:
- Modelos base de todos os tamanhos, como DBRX Base. Os modelos básicos podem ser acessados usando o Databricks Marketplace, ou você pode alternativamente baixá-los do Hugging Face ou de outra fonte externa e registrá-los no Catálogo Unity. Esta última abordagem funciona com qualquer variante ajustada dos modelos suportados, independentemente do método de ajuste fino utilizado.
- Variantes ajustadas de modelos básicos, como o LlamaGuard-7B. Isso inclui modelos que são ajustados em dados proprietários.
- Pesos e tokenizadores totalmente personalizados, como aqueles treinados do zero ou pré-treinados continuados ou outras variações usando a arquitetura do modelo base (como CodeLlama).
A tabela a seguir resume as arquiteturas de modelo suportadas para taxa de transferência provisionada.
Importante
Meta Llama 3.2 está licenciado sob a LLAMA 3.2 Community License, Copyright © Meta Platforms, Inc. Todos os direitos reservados. Os clientes são responsáveis por garantir a sua conformidade com os termos desta licença e com a Política de Utilização Aceitável da Llama 3.2.
Meta Llama 3.1 são licenciados sob a LLAMA 3.1 Community License, Copyright © Meta Platforms, Inc. Todos os direitos reservados. Os clientes são responsáveis por garantir a conformidade com as licenças de modelo aplicáveis.
Arquitetura do modelo | Tipos de tarefa | Notas |
---|---|---|
Meta Lama 3,2 3B | Bate-papo ou conclusão | |
Meta Lama 3,2 1B | Bate-papo ou conclusão | |
Meta Lama 3,1 | Bate-papo ou conclusão | |
Meta Lama 3 | Bate-papo ou conclusão | |
Meta Lama 2 | Bate-papo ou conclusão | |
DBRX | Bate-papo ou conclusão | Consulte Limites de APIs do Modelo de Base para disponibilidade de região. |
Mistral | Bate-papo ou conclusão | |
Mixtral | Bate-papo ou conclusão | |
TMF | Bate-papo ou conclusão | |
GTE v1.5 (Inglês) | Incorporar | Não gera incorporações normalizadas. |
BGE v1.5 (Inglês) | Incorporar |
Limitações
Consulte Limites das APIs do Modelo de Fundação.