APIs do Modelo de Base do Databricks

Artigo
01/29/2025

Este artigo fornece uma visão geral das APIs do Modelo de Fundação no Azure Databricks. Inclui requisitos de utilização, modelos suportados e limitações.

O que são APIs do Databricks Foundation Model?

Mosaic AI Model Serving agora suporta as APIs de Modelo de Base que permitem aceder e consultar modelos abertos de última geração a partir de um endpoint de serviço. Esses modelos são hospedados pelo Databricks e você pode criar aplicativos que os usam de forma rápida e fácil sem manter sua própria implantação de modelo. As APIs do Foundation Model são um Serviço Designado do Databricks , o que significa que elas usam o Databricks Geos para gerir a residência de dados ao processar o conteúdo do cliente.

As APIs do Modelo de Base são fornecidas nos seguintes modos de preços:

Pay-per-token: Esta é a maneira mais fácil de começar a aceder a modelos fundamentais no Databricks e é recomendada para iniciar a sua jornada com APIs de Modelos Fundamentais. Esse modo não foi projetado para aplicativos de alto rendimento ou cargas de trabalho de produção de alto desempenho.
Taxa de rendimento provisionada: este modo é recomendado para todas as cargas de trabalho de produção, especialmente aquelas que exigem alto rendimento, compromissos de desempenho, modelos ajustados ou têm requisitos de segurança adicionais. Os endpoints de throughput provisionado estão disponíveis com certificações de conformidade, como a HIPAA.

Consulte Usar APIs de Modelo Fundacional para obter orientação sobre como utilizar estes modos e os modelos suportados.

Usando as APIs do Modelo de Fundação, você pode fazer o seguinte:

Consulte um LLM generalizado para verificar a validade de um projeto antes de investir mais recursos.
Consulte um LLM generalizado para criar uma prova de conceito rápida para um aplicativo baseado em LLM antes de investir em treinamento e implantar um modelo personalizado.
Use um modelo de base, juntamente com um banco de dados vetorial, para criar um chatbot usando a geração aumentada de recuperação (RAG).
Substitua modelos proprietários por alternativas abertas para otimizar o custo e o desempenho.
Compare LLMs de forma eficiente para ver o melhor candidato para o seu caso de uso ou troque um modelo de produção por um com melhor desempenho.
Crie uma aplicação LLM para desenvolvimento ou produção, baseada numa solução de LLM escalável e baseada em SLA, capaz de suportar picos de tráfego de produção.

Requisitos

Token de API Databricks para autenticar pedidos de endpoint.
Computação sem servidor (para modelos de taxa de transferência provisionada).
Um espaço de trabalho em uma das seguintes regiões suportadas:
- Regiões de pagamento por token.
- Regiões de taxa de transferência provisionada.

Usar APIs do Modelo de Base

Você tem várias opções para usar as APIs do Modelo de Base.

As APIs são compatíveis com OpenAI, então você pode usar o cliente OpenAI para consulta. Você também pode usar a interface do usuário, o SDK Python das APIs de Modelos Básicos, o SDK de Implantações MLflow ou a API REST para consultar modelos suportados. O Databricks recomenda o uso do SDK ou API do cliente OpenAI para interações estendidas e a interface do usuário para testar o recurso.

Consulte Modelos de base de consulta para obter exemplos de pontuação.

APIs do modelo fundamental de pagamento por token

Os pontos de extremidade pré-configurados que atendem aos modelos de pagamento por token podem ser acessados em seu espaço de trabalho do Azure Databricks. Esses modelos de pagamento por token são recomendados para começar. Para acessá-los em seu espaço de trabalho, navegue até a guia Servindo na barra lateral esquerda. As APIs do Modelo Básico estão localizadas no topo da lista de Endpoints.

Lista de endpoints de serviço

Modelos de pagamento por token suportados.
Consulte Query foundation models para obter orientação sobre como consultar APIs de Foundation Model.
Consulte a referência da API REST do modelo de base para obter os parâmetros e a sintaxe necessários.

APIs de modelo de base de taxa de transferência provisionada

A taxa de transferência provisionada fornece pontos de extremidade com inferência otimizada para cargas de trabalho de modelo básico que exigem garantias de desempenho. A Databricks recomenda a utilização de throughput provisionado para cargas de trabalho de produção.

Arquiteturas de modelo suportadas por throughput provisionado.
Consulte APIs de Modelo Fundamental de Taxa de Transferência Provisionada para um guia passo a passo sobre como implantar APIs de Modelo Fundamental no modo provisionado.

O suporte à largura de banda provisionada inclui:

Modelos base de todos os tamanhos. Os modelos básicos podem ser acessados usando o Databricks Marketplace, ou você pode alternativamente baixá-los do Hugging Face ou de outra fonte externa e registrá-los no Catálogo Unity. Esta última abordagem funciona com qualquer variante ajustada dos modelos suportados.
Variantes aperfeiçoadas de modelos base, como modelos que são aperfeiçoados em dados proprietários.
Pesos e tokenizadores totalmente personalizados, como aqueles treinados do zero ou pré-treinados de forma continuada ou outras variações usando a arquitetura do modelo base (por exemplo, CodeLlama).

Limitações

Consulte os limites de APIs do modelo fundamental .

Recursos adicionais

Modelos de base de consulta
APIs de modelo de base de taxa de transferência provisionada
Referência da API REST do modelo Foundation
Executar inferência LLM em lote usando ai_query
Modelos suportados para pagamento por token

Partilhar via

APIs do Modelo de Base do Databricks

O que são APIs do Databricks Foundation Model?

Requisitos

Usar APIs do Modelo de Base

APIs do modelo fundamental de pagamento por token

APIs de modelo de base de taxa de transferência provisionada

Limitações

Recursos adicionais

Comentários

Recursos adicionais