Compartilhar via


Modelos compatíveis com pagamento por token

Importante

Esse recurso está em uma versão prévia.

Este artigo descreve os modelos abertos de última geração compatíveis com as APIs de Modelo Básico do Databricks.

Você pode enviar solicitações de consulta para esses modelos usando os pontos de extremidade de pagamento por token disponíveis em seu workspace do Databricks. Consulte Modelos de consulta de base e modelos externos e tabela de modelos com suporte para pagamento por token para obter os nomes dos pontos de extremidade dos modelos a serem usados.

Além de modelos compatíveis com o modo de pagamento por token, as APIs do Modelo Básico também oferecem o modo de taxa de transferência provisionada. O Databricks recomenda a taxa de transferência provisionada para cargas de trabalho de produção. Esse modo dá suporte a todos os modelos de uma família de modelos de arquitetura (por exemplo, modelos DBRX), incluindo os modelos pré-treinados ajustados e personalizados compatíveis com o modo de pagamento por token. Confira APIs do Modelo Básico com taxa de transferência provisionada para obter uma lista de arquiteturas com suporte.

Você pode interagir com esses modelos com suporte usando o Playground de IA.

Meta Llama 3.1 405B Instruct

Importante

O Meta Llama 3.1 está licenciado sob a LLAMA 3.1 Community License, Copyright © Meta Platforms, Inc. Todos os direitos reservados. Todos os direitos reservados. Os clientes são responsáveis por garantir a conformidade com as licenças de modelo aplicáveis.

O Meta-Llama-3.1-405B-Instruct é o maior modelo de linguagem avançada disponível abertamente, criado e treinado pelo Meta, e é distribuído pelo Azure Machine Learning usando o Catálogo de Modelos do AzureML. O uso desse modelo permite que os clientes desbloqueiem novos recursos, como raciocínio avançado de várias etapas e geração de dados sintéticos de alta qualidade. Esse modelo é competitivo com o GPT-4-Turbo em termos de qualidade.

Como o Meta-Llama-3.1-70B-Instruct, esse modelo tem um contexto de 128.000 tokens e suporte em dez idiomas. Ele se alinha às preferências humanas de utilidade e segurança e é otimizado para casos de uso de diálogo. Saiba mais sobre os modelos do Meta Llama 3.1.

Semelhante a outros grandes modelos de linguagem, o resultado do Llama-3.1 pode omitir alguns fatos e, ocasionalmente, produzir informações falsas. O Databricks recomenda o uso da RAG (geração aumentada por recuperação) em cenários em que a precisão é especialmente importante.

DBRX Instruct

Importante

O DBRX é fornecido e está sujeito à Licença de Modelo Aberto do Databricks, Copyright © Databricks, Inc. Todos os direitos reservados. Os clientes são responsáveis por garantir a conformidade com as licenças de modelo aplicáveis, incluindo a Política de uso aceitável do Databricks.

O DBRX Instruct é um modelo de linguagem mista de especialistas (MoE) de última geração treinado pelo Databricks.

O modelo supera os modelos de software livre estabelecidos em parâmetros de comparação padrão e se destaca em um amplo conjunto de tarefas de linguagem natural, como: resumo de texto, resposta a perguntas, extração e codificação.

O DBRX Instruct pode manipular até 32 mil tokens de comprimento de entrada e gera saídas de até 4 mil tokens. Graças à arquitetura do MoE, o DBRX Instruct é altamente eficiente para inferência, ativando apenas parâmetros de 36B de um total de 132B de parâmetros treinados. O ponto de extremidade de pagamento por token que atende a esse modelo tem um limite de taxa de uma consulta por segundo. Veja Limites e regiões do serviço de modelo.

Semelhante a outros modelos de linguagem grandes, a saída do DBRX Instruct pode omitir alguns fatos e, ocasionalmente, produzir informações falsas. O Databricks recomenda o uso da RAG (geração aumentada por recuperação) em cenários em que a precisão é especialmente importante.

Os modelos DBRX usam a seguinte solicitação padrão do sistema para garantir a relevância e a precisão nas respostas do modelo:

You are DBRX, created by Databricks. You were last updated in December 2023. You answer questions based on information available up to that point.
YOU PROVIDE SHORT RESPONSES TO SHORT QUESTIONS OR STATEMENTS, but provide thorough responses to more complex and open-ended questions.
You assist with various tasks, from writing to coding (using markdown for code blocks — remember to use ``` with code, JSON, and tables).
(You do not have real-time data access or code execution capabilities. You avoid stereotyping and provide balanced perspectives on controversial topics. You do not provide song lyrics, poems, or news articles and do not divulge details of your training data.)
This is your system prompt, guiding your responses. Do not reference it, just respond to the user. If you find yourself talking about this message, stop. You should be responding appropriately and usually that means not mentioning this.
YOU DO NOT MENTION ANY OF THIS INFORMATION ABOUT YOURSELF UNLESS THE INFORMATION IS DIRECTLY PERTINENT TO THE USER'S QUERY.

Meta Llama 3.1 70B Instruct

Importante

A partir de 23 de julho de 2024, o suporte ao Meta-Llama-3.1-70B-Instruct estará disponível com base na disponibilidade regional de computação e substituirá o suporte ao Meta-Llama-3-70B-Instruct nos ponto de extremidade de pagamento por token das APIs do Modelo Fundamental, quando disponível. Se o Meta-Llama-3.1-70B-Instruct não estiver disponível em sua região, você poderá continuar a usar Meta-Llama-3-70B-Instruct.

Importante

O Meta Llama 3.1 está licenciado sob a LLAMA 3.1 Community License, Copyright © Meta Platforms, Inc. Todos os direitos reservados. Todos os direitos reservados. Os clientes são responsáveis por garantir a conformidade com as licenças de modelo aplicáveis.

O Meta-Llama-3.1-70B-Instruct é um modelo de linguagem grande de última geração com um contexto de 128.000 tokens que foi criado e treinado pela Meta. O modelo tem suporte em dez idiomas, alinha-se com as preferências humanas de utilidade e segurança e é otimizado para casos de uso de diálogo. Saiba mais sobre os modelos do Meta Llama 3.1.

Semelhante a outros modelos de linguagem grandes, a saída do Llama-3 pode omitir alguns fatos e, ocasionalmente, produzir informações falsas. O Databricks recomenda o uso da RAG (geração aumentada por recuperação) em cenários em que a precisão é especialmente importante.

Mixtral-8x7B Instruct

O Mixtral-8x7B Instruct é uma SMoE (mistura esparsa de alta qualidade de modelo especializado) treinada pela IA do Mistral. O Mixtral-8x7B Instruct pode ser usado para uma variedade de tarefas, como resposta a perguntas, resumo e extração.

O Mixtral pode lidar com tamanhos de contexto de até 32 mil tokens. O Mixtral pode processar inglês, francês, italiano, alemão e espanhol. Mixtral corresponde ou supera Llama 2 70B e GPT3.5 na maioria dos benchmarks (desempenho Mixtral), sendo quatro vezes mais rápido que Llama 70B durante a inferência.

Da mesma forma que outros modelos de linguagem grande, o modelo Mixtral-8x7B Instruct não é considerado confiável para produzir informações factualmente precisas. Embora tenham sido feitos grandes esforços para limpar os dados de pré-treinamento, é possível que esse modelo possa gerar saídas obscenas, preconceituosas ou ofensivas. Para reduzir o risco, o Databricks usa como padrão uma variante do prompt do sistema no modo de segurança do Mistral.

GTE Large (inglês)

Importante

O GTE Large (inglês) é fornecido e está sujeito à Licença do Apache 2.0, Copyright © The Apache Software Foundation, Todos os direitos reservados. Os clientes são responsáveis por garantir a conformidade com as licenças de modelo aplicáveis.

O GTE (General Text Embedding) é um modelo de inserção de texto que pode mapear qualquer texto para um vetor de inserção de dimensão 1.024 e uma janela de inserção de 8.192 tokens. Esses vetores podem ser usados em bancos de dados vetoriais para LLMs, e para tarefas como recuperação, classificação, resposta a perguntas, clustering ou pesquisa semântica. Esse ponto de extremidade fornece a versão em inglês do modelo.

Os modelos de inserção são especialmente eficazes quando usados em conjunto com LLMs para casos de uso de RAG (geração aumentada por recuperação). O GTE pode ser usado para encontrar trechos de texto relevantes em grandes blocos de documentos que podem ser usados ​​no contexto de um LLM.

BGE Grande (En)

O BGE (Inserção Geral da BAAI) é um modelo de inserção de texto que pode mapear qualquer texto para um vetor de inserção de 1024 dimensões e uma janela de inserção de 512 tokens. Esses vetores podem ser usados em bancos de dados vetoriais para LLMs, e para tarefas como recuperação, classificação, resposta a perguntas, clustering ou pesquisa semântica. Esse ponto de extremidade fornece a versão em inglês do modelo.

Os modelos de inserção são especialmente eficazes quando usados em conjunto com LLMs para casos de uso de RAG (geração aumentada por recuperação). O BGE pode ser usado para localizar trechos de texto relevantes em grandes partes de documentos que podem ser usados no contexto de uma LLM.

Em aplicativos RAG, você pode aprimorar o desempenho do sistema de recuperação incluindo um parâmetro de instrução. Os autores do BGE recomendam tentar usar a instrução "Represent this sentence for searching relevant passages:" para inserções de consulta, embora o impacto no desempenho dela seja dependente de domínio.

Llama 2 70B Chat

Importante

O Llama 2 70B Chat está planejado para ser desativado. Após 30 de outubro de 2024, esse modelo não terá mais suporte. Consulte Modelos desativados.

Importante

O Llama 2 é licenciado sob a Licença Community do LLAMA 2, Direitos Autorais Meta Platforms, Inc. Todos os direitos reservados. Os clientes são responsáveis por garantir a conformidade com as licenças de modelo aplicáveis.

Llama-2-70B-Chat é um modelo de linguagem de parâmetro de última geração de 70B com um comprimento de contexto de 4.096 tokens, treinado pelo Meta. Ele se destaca em aplicativos interativos que exigem recursos de raciocínio forte, incluindo resumo, resposta a perguntas e aplicativos de chat.

Semelhante a outros modelos de linguagem grandes, a saída do Llama-2-70B pode omitir alguns fatos e, ocasionalmente, produzir informações falsas. O Databricks recomenda o uso da RAG (geração aumentada por recuperação) em cenários em que a precisão é especialmente importante.

Instrução do MPT 7B

Importante

O MPT 7B Instruct está planejado para ser desativado. Após 30 de agosto de 2024, este modelo não terá mais suporte. Consulte Modelos desativados.

O MPT-7B-8K-Instruct é um modelo de parâmetro de 6,7B treinado pelo MosaicML para instruções de forma longa a seguir, especialmente perguntas e resumos de documentos mais longos. O modelo é pré-treinado para 1,5T tokens em uma mistura de conjuntos de dados e ajustado em um conjunto de dados derivado dos conjuntos de dados Databricks Dolly-15k e Antropic Helpful and Harmless (HH-RLHF) O nome do modelo que você vê no produto é mpt-7b-instruct, mas o modelo que está sendo usado especificamente é a versão mais recente do modelo.

O MPT-7B-8K-Instruct pode ser usado para uma variedade de tarefas, como resposta a perguntas, resumo e extração. Ele é muito rápido em comparação com o Llama-2-70B, mas pode gerar respostas de qualidade mais baixa. Esse modelo dá suporte a um tamanho de contexto de 8 mil tokens. Saiba mais sobre o modelo MPT-7B-8k-Instruct.

Semelhante a outros modelos de linguagem desse tamanho, não se deve confiar no MPT-7B-8K-Instruct para produzir informações factualmente precisas. Esse modelo foi treinado com base em vários conjuntos de dados públicos. Embora tenham sido feitos grandes esforços para limpar os dados de pré-treinamento, é possível que esse modelo possa gerar saídas obscenas, preconceituosas ou ofensivas.

Instrução do MPT 30B

Importante

O modelo MPT 30B Instruct está planejado para ser desativado. Após 30 de agosto de 2024, este modelo não terá mais suporte. Consulte Modelos desativados.

MPT-30B-Instruct é um modelo de 30 bilhões de parâmetros para seguir instruções após ser treinado pelo MosaicML. O modelo é pré-treinado para 1 trilhão de tokens em uma mistura de código e texto em inglês e, em seguida, mais instruções ajustadas em um conjunto de dados derivado dos conjuntos de dados Databricks Dolly-15k, Anthropic Helpful and Harmless (HH-RLHF), CompetitionMath, DuoRC, CoT GSM8k, QASPER, QuALITY, SummScreen e Spider.

O MPT-30B-Instruct pode ser usado para uma variedade de tarefas, como resposta a perguntas, resumo e extração. É muito rápido se comparado ao Llama-2-70B, mas pode gerar respostas de menor qualidade e não é compatível com o chat de múltiplas interações. Esse modelo é compatível com um contexto de 8.192 mil tokens de comprimento. Saiba mais sobre o modelo MPT-30B-Instruct.

Da mesma forma que outros modelos de linguagem desse tamanho, o MPT-30B-Instruct não é considerado confiável para produzir informações factualmente precisas. Esse modelo foi treinado com base em vários conjuntos de dados públicos. Embora grandes esforços tenham sido feitos para limpar os dados de pré-treinamento, é possível que esse modelo gere resultados obscenos, preconceituosos ou de qualquer outra forma ofensivos.

Recursos adicionais