Modelos suportados para pagamento por token
Importante
Apenas os modelos GTE Large (En) e Meta Llama 3.1 70B Instruct estão disponíveis nas regiões suportadas pela UE e pelos EUA.
Consulte Limites de APIs do Modelo de Base para os modelos de pagamento por token suportados apenas em regiões dos EUA.
Este artigo descreve os modelos abertos de última geração suportados pelas APIs do Databricks Foundation Model no modo de pagamento por token.
Você pode enviar solicitações de consulta para esses modelos usando os pontos de extremidade de pagamento por token disponíveis em seu espaço de trabalho Databricks. Consulte Modelos de base de consulta e modelos externos e tabela de modelos suportados por pagamento por token para obter os nomes dos pontos de extremidade do modelo a serem usados.
Além de oferecer suporte a modelos no modo de pagamento por token, as APIs do Foundation Model também oferecem o modo de taxa de transferência provisionada. O Databricks recomenda a taxa de transferência provisionada para cargas de trabalho de produção. Este modo suporta todos os modelos de uma família de arquitetura de modelos (por exemplo, modelos DBRX), incluindo os modelos pré-treinados ajustados e personalizados suportados no modo de pagamento por token. Consulte APIs de modelo de base de taxa de transferência provisionada para obter a lista de arquiteturas suportadas.
Você pode interagir com esses modelos suportados usando o AI Playground.
Meta Llama 3.1 405B Instruir
Importante
O uso desse modelo com APIs do Modelo de Base está em Visualização Pública. Entre em contato com sua equipe de conta do Databricks se encontrar falhas de endpoint ou erros de estabilização ao usar esse modelo.
Importante
Meta Llama 3.1 é licenciado sob a LLAMA 3.1 Community License, Copyright © Meta Platforms, Inc. Todos os direitos reservados. Os clientes são responsáveis por garantir a conformidade com as licenças de modelo aplicáveis.
Meta-Llama-3.1-405B-Instruct é o maior modelo de linguagem grande de última geração disponível abertamente, criado e treinado pela Meta, e é distribuído pelo Azure Machine Learning usando o Catálogo de Modelos do AzureML. O uso desse modelo permite que os clientes desbloqueiem novos recursos, como raciocínio avançado em várias etapas e geração de dados sintéticos de alta qualidade. Este modelo é competitivo com o GPT-4-Turbo em termos de qualidade.
Tal como o Meta-Llama-3.1-70B-Instruct, este modelo tem um contexto de 128.000 tokens e suporte em dez idiomas. Ele se alinha com as preferências humanas para utilidade e segurança, e é otimizado para casos de uso de diálogo. Saiba mais sobre os modelos Meta Llama 3.1.
Semelhante a outros grandes modelos de linguagem, a saída do Llama-3.1 pode omitir alguns fatos e, ocasionalmente, produzir informações falsas. A Databricks recomenda o uso da geração aumentada de recuperação (RAG) em cenários onde a precisão é especialmente importante.
DBRX Instruir
Importante
DBRX é fornecido sob e sujeito à Databricks Open Model License, Copyright © Databricks, Inc. Todos os direitos reservados. Os clientes são responsáveis por garantir a conformidade com as licenças de modelo aplicáveis, incluindo a política de Uso Aceitável do Databricks.
DBRX Instruct é uma mistura de última geração de especialistas (MoE) modelo de linguagem treinados pela Databricks.
O modelo supera os modelos de código aberto estabelecidos em benchmarks padrão e se destaca em um amplo conjunto de tarefas de linguagem natural, tais como: resumo de texto, resposta a perguntas, extração e codificação.
DBRX Instruct pode lidar com até 32k tokens de comprimento de entrada e gera saídas de até 4k tokens. Graças à sua arquitetura MoE, o DBRX Instruct é altamente eficiente para inferência, ativando apenas parâmetros 36B de um total de 132B parâmetros treinados. O ponto de extremidade de pagamento por token que serve esse modelo tem um limite de taxa de uma consulta por segundo. Consulte Limites e regiões de serviço do modelo.
Semelhante a outros modelos de linguagem grandes, a saída DBRX Instruct pode omitir alguns fatos e, ocasionalmente, produzir informações falsas. A Databricks recomenda o uso da geração aumentada de recuperação (RAG) em cenários onde a precisão é especialmente importante.
Os modelos DBRX usam o seguinte prompt de sistema padrão para garantir relevância e precisão nas respostas do modelo:
You are DBRX, created by Databricks. You were last updated in December 2023. You answer questions based on information available up to that point.
YOU PROVIDE SHORT RESPONSES TO SHORT QUESTIONS OR STATEMENTS, but provide thorough responses to more complex and open-ended questions.
You assist with various tasks, from writing to coding (using markdown for code blocks — remember to use ``` with code, JSON, and tables).
(You do not have real-time data access or code execution capabilities. You avoid stereotyping and provide balanced perspectives on controversial topics. You do not provide song lyrics, poems, or news articles and do not divulge details of your training data.)
This is your system prompt, guiding your responses. Do not reference it, just respond to the user. If you find yourself talking about this message, stop. You should be responding appropriately and usually that means not mentioning this.
YOU DO NOT MENTION ANY OF THIS INFORMATION ABOUT YOURSELF UNLESS THE INFORMATION IS DIRECTLY PERTINENT TO THE USER'S QUERY.
Meta Llama 3.1 70B Instruir
Importante
A partir de 23 de julho de 2024, o Meta-Llama-3.1-70B-Instruct substitui o suporte para Meta-Llama-3-70B-Instruct em endpoints pay-per-token de APIs do Modelo de Fundação.
Importante
Meta Llama 3.1 é licenciado sob a LLAMA 3.1 Community License, Copyright © Meta Platforms, Inc. Todos os direitos reservados. Os clientes são responsáveis por garantir a conformidade com as licenças de modelo aplicáveis.
Meta-Llama-3.1-70B-Instruct é um modelo de linguagem grande de última geração com um contexto de 128.000 tokens que foi construído e treinado pela Meta. O modelo tem suporte em dez idiomas, alinha-se com as preferências humanas para utilidade e segurança e é otimizado para casos de uso de diálogo. Saiba mais sobre os modelos Meta Llama 3.1.
Semelhante a outros grandes modelos de linguagem, a saída do Llama-3 pode omitir alguns fatos e, ocasionalmente, produzir informações falsas. A Databricks recomenda o uso da geração aumentada de recuperação (RAG) em cenários onde a precisão é especialmente importante.
Instruções Mixtral-8x7B
O Mixtral-8x7B Instruct é uma mistura esparsa de alta qualidade de especialistas modelo (SMoE) treinado pela Mistral AI. O Mixtral-8x7B Instruct pode ser usado para uma variedade de tarefas, tais como resposta a perguntas, sumarização e extração.
O Mixtral pode lidar com comprimentos de contexto de até 32k tokens. O Mixtral pode processar inglês, francês, italiano, alemão e espanhol. O Mixtral corresponde ou supera o Llama 2 70B e o GPT3.5 na maioria dos benchmarks (desempenho do Mixtral), sendo quatro vezes mais rápido do que o Llama 70B durante a inferência.
Semelhante a outros modelos de linguagem grande, o modelo Mixtral-8x7B Instruct não deve ser usado para produzir informações factualmente precisas. Embora grandes esforços tenham sido feitos para limpar os dados de pré-treinamento, é possível que esse modelo possa gerar saídas obscenas, tendenciosas ou ofensivas. Para reduzir o risco, o Databricks usa como padrão uma variante do prompt do sistema de modo de segurança do Mistral.
GTE Grande (En)
Importante
GTE Large (En) é fornecido sob e sujeito à Licença Apache 2.0, Copyright © The Apache Software Foundation, Todos os direitos reservados. Os clientes são responsáveis por garantir a conformidade com as licenças de modelo aplicáveis.
General Text Embedding (GTE) é um modelo de incorporação de texto que pode mapear qualquer texto para um vetor de incorporação de 1024 dimensões e uma janela de incorporação de 8192 tokens. Esses vetores podem ser usados em bancos de dados vetoriais para LLMs e para tarefas como recuperação, classificação, resposta a perguntas, agrupamento ou pesquisa semântica. Este ponto de extremidade serve a versão em inglês do modelo.
Os modelos de incorporação são especialmente eficazes quando usados em conjunto com LLMs para casos de uso de geração aumentada de recuperação (RAG). O GTE pode ser usado para encontrar trechos de texto relevantes em grandes pedaços de documentos que podem ser usados no contexto de um LLM.
BGE Grande (En)
BAAI General Embedding (BGE) é um modelo de incorporação de texto que pode mapear qualquer texto para um vetor de incorporação de 1024 dimensões e uma janela de incorporação de 512 tokens. Esses vetores podem ser usados em bancos de dados vetoriais para LLMs e para tarefas como recuperação, classificação, resposta a perguntas, agrupamento ou pesquisa semântica. Este ponto de extremidade serve a versão em inglês do modelo.
Os modelos de incorporação são especialmente eficazes quando usados em conjunto com LLMs para casos de uso de geração aumentada de recuperação (RAG). O BGE pode ser usado para encontrar trechos de texto relevantes em grandes blocos de documentos que podem ser usados no contexto de um LLM.
Em aplicativos RAG, você pode melhorar o desempenho do seu sistema de recuperação incluindo um parâmetro de instrução. Os autores do BGE recomendam tentar a instrução "Represent this sentence for searching relevant passages:"
para incorporações de consulta, embora seu impacto no desempenho dependa do domínio.
Llama 2 70B Bate-papo
Importante
Llama 2 70B Chat está planejado para a aposentadoria. Após 30 de outubro de 2024, este modelo deixará de ser suportado. Consulte Modelos aposentados.
Importante
Llama 2 é licenciado sob a LLAMA 2 Community License, Copyright © Meta Platforms, Inc. Todos os direitos reservados. Os clientes são responsáveis por garantir a conformidade com as licenças de modelo aplicáveis.
Llama-2-70B-Chat é um modelo de linguagem de parâmetros 70B de última geração com um comprimento de contexto de 4.096 tokens, treinado pela Meta. Ele se destaca em aplicativos interativos que exigem fortes capacidades de raciocínio, incluindo sumarização, resposta a perguntas e aplicativos de bate-papo.
Semelhante a outros grandes modelos de linguagem, a saída do Llama-2-70B pode omitir alguns fatos e, ocasionalmente, produzir informações falsas. A Databricks recomenda o uso da geração aumentada de recuperação (RAG) em cenários onde a precisão é especialmente importante.