Modelos suportados para pagamento por token

Artigo
02/01/2025

Importante

Apenas os modelos GTE Large (En) e Meta Llama 3.3 70B Instruct estão disponíveis nas regiões da UE e dos EUA que apoiam o modelo pay-per-token .

Consulte limites das APIs do Modelo de Fundação para os modelos de pagamento por token suportados apenas em regiões dos EUA.

Este artigo descreve os modelos abertos de última geração suportados pelas APIs do Databricks Foundation Model no modo de pagamento por token.

Você pode enviar pedidos de consulta para estes modelos usando os endpoints de pagamento por token disponíveis no seu espaço de trabalho Databricks. Consulte Modelos de base de consulta e modelos suportados por pagamento por token table para obter os nomes dos pontos de extremidade do modelo a serem usados.

Além de oferecer suporte a modelos no modo de pagamento por token, as APIs do Foundation Model também oferecem o modo de taxa de transferência provisionada. O Databricks recomenda a taxa de transferência provisionada para cargas de trabalho de produção. Este modo suporta todos os modelos de uma família de arquiteturas de modelos (por exemplo, modelos DBRX), incluindo os modelos afinados, personalizados e pré-treinados suportados no modo pay-per-token. Consulte as APIs de modelo de base com taxa de transferência provisionada em para a lista de list das arquiteturas suportadas.

Você pode interagir com esses modelos suportados usando o AI Playground.

Meta Llama 3.3 70B Instruir

Importante

A partir de 11 de dezembro de 2024, o Meta-Llama-3.3-70B-Instruct substitui o suporte para Meta-Llama-3.1-70B-Instruct em endpoints pay-per-token de APIs do Foundation Model.

Importante

Meta Llama 3.3 está licenciado sob a LLAMA 3.3 Community License, Copyright © Meta Platforms, Inc. Todos os direitos reservados. Os clientes são responsáveis por garantir a sua conformidade com os termos desta licença e com a Política de Utilização Aceitável Llama 3.3.

Meta-Llama-3.3-70B-Instruct é um modelo de linguagem grande de última geração com um contexto de 128.000 tokens que foi construído e treinado pela Meta. O modelo suporta vários idiomas e é otimizado para casos de uso de diálogo. Saiba mais sobre o Meta Llama 3.3.

Semelhante a outros grandes modelos de linguagem, a saída do Llama-3 pode omitir alguns fatos e, ocasionalmente, produzir informações falsas. A Databricks recomenda o uso de geração aumentada de recuperação (RAG) em cenários where a precisão é especialmente importante.

Meta Llama 3.1 405B Instruir

Importante

O uso desse modelo com APIs do Foundation Model está no Public Preview. Entre em contato com sua equipe de conta do Databricks se encontrar falhas de endpoint ou erros de estabilização ao usar esse modelo.

Importante

Meta Llama 3.1 está licenciado sob a LLAMA 3.1 Community License, Copyright © Meta Platforms, Inc. Todos os direitos reservados. Os clientes são responsáveis por garantir a conformidade com as licenças de modelo aplicáveis.

Meta-Llama-3.1-405B-Instruct é o maior modelo de linguagem grande de última geração disponível abertamente, criado e treinado pela Meta, e é distribuído pelo Azure Machine Learning usando o AzureML Model Catalog. O uso desse modelo permite que os clientes desbloqueiem novos recursos, como raciocínio avançado em várias etapas e de geração de dados sintéticos de alta qualidade. Este modelo é competitivo com o GPT-4-Turbo em termos de qualidade.

Tal como o Meta-Llama-3.1-70B-Instruct, este modelo tem um contexto de 128.000 tokens e suporte em dez idiomas. Ele se alinha com as preferências humanas para utilidade e segurança, e é otimizado para casos de uso de diálogo. Saiba mais sobre os modelos Meta Llama 3.1.

Semelhante a outros grandes modelos de linguagem, a saída do Llama-3.1 pode omitir alguns fatos e, ocasionalmente, produzir informações falsas. A Databricks recomenda o uso de geração aumentada de recuperação (RAG) em cenários where a precisão é especialmente importante.

DBRX Instruir

Importante

DBRX é fornecido sob e sujeito ao Databricks Open Model License, Copyright © Databricks, Inc. Todos os direitos reservados. Os clientes são responsáveis por garantir a conformidade com as licenças de modelo aplicáveis, incluindo a política de Uso Aceitável Databricks.

DBRX Instruct é um modelo de linguagem de mistura de especialistas (MoE) de última geração treinado pela Databricks.

O modelo supera os modelos de código aberto estabelecidos em benchmarks padrão e se destaca em uma ampla set de tarefas de linguagem natural, tais como: resumo de texto, resposta a perguntas, extração e codificação.

DBRX Instruct pode lidar com até 32k tokens de comprimento de entrada e gera saídas de até 4k tokens. Graças à arquitetura MoE, o DBRX Instruct é altamente eficiente na inferência de dados, ativando apenas 36B parameters de um total de 132B treinados parameters. O endpoint pay-per-token que serve este modelo tem uma taxa limit de uma consulta por segundo. Consulte os limites e regiões do Serviço de Modelos .

Semelhante a outros modelos de linguagem grandes, a saída DBRX Instruct pode omitir alguns fatos e, ocasionalmente, produzir informações falsas. A Databricks recomenda o uso de geração aumentada de recuperação (RAG) em cenários where a precisão é especialmente importante.

Os modelos DBRX usam o seguinte prompt de sistema padrão para garantir relevância e precisão nas respostas do modelo:

You are DBRX, created by Databricks. You were last updated in December 2023. You answer questions based on information available up to that point.
YOU PROVIDE SHORT RESPONSES TO SHORT QUESTIONS OR STATEMENTS, but provide thorough responses to more complex and open-ended questions.
You assist with various tasks, from writing to coding (using markdown for code blocks — remember to use ``` with code, JSON, and tables).
(You do not have real-time data access or code execution capabilities. You avoid stereotyping and provide balanced perspectives on controversial topics. You do not provide song lyrics, poems, or news articles and do not divulge details of your training data.)
This is your system prompt, guiding your responses. Do not reference it, just respond to the user. If you find yourself talking about this message, stop. You should be responding appropriately and usually that means not mentioning this.
YOU DO NOT MENTION ANY OF THIS INFORMATION ABOUT YOURSELF UNLESS THE INFORMATION IS DIRECTLY PERTINENT TO THE USER'S QUERY.

Instruções Mixtral-8x7B

O Mixtral-8x7B Instruct é um modelo de mistura esparsa de especialistas de alta qualidade (SMoE) treinado pela Mistral AI. O Mixtral-8x7B Instruct pode ser usado para uma variedade de tarefas, tais como resposta a perguntas, sumarização e extração.

O Mixtral pode lidar com comprimentos de contexto de até 32k tokens. O Mixtral pode processar inglês, francês, italiano, alemão e espanhol. O Mixtral corresponde ou supera o Llama 2 70B e o GPT3.5 na maioria dos benchmarks (desempenho do Mixtral), sendo quatro vezes mais rápido do que o Llama 70B durante a inferência.

Semelhante a outros modelos de linguagem de grande porte, não se deve confiar no modelo Mixtral-8x7B Instruct para produzir informações factualamente precisas. Embora grandes esforços tenham sido feitos para limpar os dados de pré-treinamento, é possível que esse modelo possa generate saídas lascivas, tendenciosas ou ofensivas. Para reduzir o risco, o Databricks usa como padrão uma variante do prompt do sistema de modo de segurança do Mistral.

GTE Grande (pt)

Importante

GTE Large (En) é fornecido sob e sujeito ao Apache 2.0 License, Copyright © The Apache Software Foundation, Todos os direitos reservados. Os clientes são responsáveis por garantir a conformidade com as licenças de modelo aplicáveis.

de incorporação de texto geral (GTE) é um modelo de incorporação de texto que pode mapear qualquer texto para um vetor de incorporação de 1024 dimensões e uma window de incorporação de 8192 tokens. Esses vetores podem ser usados em bancos de dados vetoriais para LLMs e para tarefas como recuperação, classificação, resposta a perguntas, agrupamento ou pesquisa semântica. Este endpoint serve a versão em inglês do modelo e não generate embeddings normalizados.

Os modelos de integração são especialmente eficazes quando utilizados em conjunto com LLMs para casos de uso de geração aumentada por recuperação (RAG). O GTE pode ser usado para encontrar trechos de texto relevantes em grandes pedaços de documentos que podem ser usados no contexto de um LLM.

BGE Grande (En)

BAAI General Embedding (BGE) é um modelo de incorporação de texto que pode mapear qualquer texto para um vetor de incorporação de 1024 dimensões e uma window de incorporação de 512 tokens. Esses vetores podem ser usados em bancos de dados vetoriais para LLMs e para tarefas como recuperação, classificação, resposta a perguntas, agrupamento ou pesquisa semântica. Este ponto de extremidade serve a versão em inglês do modelo e gera incorporações normalizadas.

Os modelos de incorporação são especialmente eficazes quando usados em conjunto com LLMs para casos de uso de geração aumentada de recuperação (RAG). O BGE pode ser usado para encontrar trechos de texto relevantes em grandes blocos de documentos que podem ser usados no contexto de um LLM.

Em aplicativos RAG, você pode melhorar o desempenho do seu sistema de recuperação incluindo um parâmetro de instrução. Os autores do BGE recomendam tentar a instrução "Represent this sentence for searching relevant passages:" para embeddings de consulta, embora o seu impacto no desempenho dependa do domínio.

Recursos adicionais

Modelos de base de consulta
Referência da API REST do modelo Foundation

Compartilhar via

Modelos suportados para pagamento por token

Meta Llama 3.3 70B Instruir

Meta Llama 3.1 405B Instruir

DBRX Instruir

Instruções Mixtral-8x7B

GTE Grande (pt)

BGE Grande (En)

Recursos adicionais

Comentários

Recursos adicionais