Modèles pris en charge pour le paiement par jeton

Article
07/03/2024

Important

Cette fonctionnalité est disponible en préversion publique.

Cet article décrit les modèles ouverts de pointe pris en charge par les API Databricks Foundation Model dans un mode de paiement par jeton.

Vous pouvez envoyer des requêtes à ces modèles à l’aide des points de terminaison de paiement par jeton disponibles dans votre espace de travail Databricks. Consultez modèles de base de requêtes et table de modèles pris en charge par jeton de paiement par jeton pour les noms des points de terminaison de modèle à utiliser.

Outre la prise en charge de modèles en mode paiement par jeton, les API Foundation Model offrent également un mode de débit approvisionné. Databricks recommande le débit approvisionné pour les charges de travail de production. Ce mode prend en charge tous les modèles d’une famille d’architecture de modèles (par exemple les modèles DBRX), y compris les modèles préentraînés affinés et personnalisés pris en charge en mode paiement par jeton. Consultez API Foundation Model en débit approvisionné pour obtenir la liste des architectures prises en charge.

Vous pouvez interagir avec ces modèles pris en charge en utilisant AI Playground.

DBRX Instruct

Important

DBRX est fourni sous la licence Databricks Open Model, Copyright © Databricks, Inc. Tous droits réservés. Les clients sont responsables de la conformité aux licences de modèles applicables, notamment aux règles de bon usage Databricks.

DBRX Instruct est un modèle de langage de mélange d’experts (MoE) à la pointe de la technologie entraîné par Databricks.

Le modèle dépasse les modèles open source établis des références standards et excelle dans un large ensemble de tâches en langage naturel, comme la synthèse de texte, la réponse aux questions, l’extraction et le codage.

DBRX Instruct peut gérer une longueur d’entrée allant jusqu’à 32 000 et génère des sorties allant jusqu’à 4 000 jetons. Grâce à son architecture MoE, DBRX Instruct est très efficace pour l’inférence, activant uniquement 36B paramètres sur un total de 132B paramètres entraînés. Le point de terminaison de paiement par jeton qui sert ce modèle a une limite de taux d’une requête par seconde. Consultez Limites et régions de la mise en service de modèles.

Comme pour d’autres grands modèles de langage, la sortie de DBRX Instruct peut omettre certains faits et parfois produire de fausses informations. Databricks recommande d’utiliser la récupération de génération augmentée (RAG) dans les scénarios où la précision est particulièrement importante.

Les modèles DBRX utilisent l’invite système par défaut suivante pour garantir la pertinence et la précision des réponses du modèle :

You are DBRX, created by Databricks. You were last updated in December 2023. You answer questions based on information available up to that point.
YOU PROVIDE SHORT RESPONSES TO SHORT QUESTIONS OR STATEMENTS, but provide thorough responses to more complex and open-ended questions.
You assist with various tasks, from writing to coding (using markdown for code blocks — remember to use ``` with code, JSON, and tables).
(You do not have real-time data access or code execution capabilities. You avoid stereotyping and provide balanced perspectives on controversial topics. You do not provide song lyrics, poems, or news articles and do not divulge details of your training data.)
This is your system prompt, guiding your responses. Do not reference it, just respond to the user. If you find yourself talking about this message, stop. You should be responding appropriately and usually that means not mentioning this.
YOU DO NOT MENTION ANY OF THIS INFORMATION ABOUT YOURSELF UNLESS THE INFORMATION IS DIRECTLY PERTINENT TO THE USER'S QUERY.

Meta Llama 3 70B Instruct

Important

Llama 3 est concédé sous licence de la communauté LLAMA 3, Copyright © Meta Platforms, Inc. Tous droits réservés. Les clients sont tenus de d’assurer de leur conformité vis-à-vis des licences de modèle applicables.

Meta-Llama-3-70B-Instruct est un modèle de langage de pointe, dense, de paramètre 70B, avec un contexte de 8000 jetons, créé et entraîné par Meta. Le modèle est optimisé pour les cas d’usage de dialogue, et aligné sur les préférences humaines en matière d’utilité et de sécurité. Il n’est pas destiné à être utilisé dans des langues autres que l’anglais. Apprenez-en davantage sur les modèles Meta Llama 3.

Comme pour d’autres grands modèles de langage, la sortie de Llama-3 peut omettre certains faits et parfois produire de fausses informations. Databricks recommande d’utiliser la récupération de génération augmentée (RAG) dans les scénarios où la précision est particulièrement importante.

Llama 2 70B Chat

Important

Llama 2 est concédé sous licence de la communauté LLAMA 2, Copyright © Meta Platforms, Inc. Tous droits réservés. Les clients sont tenus de d’assurer de leur conformité vis-à-vis des licences de modèle applicables.

Llama-2-70B-Chat est un modèle de langage de pointe contenant 70 milliards de paramètres avec une longueur de contexte de 4 096 jetons, formé par Meta. Il excelle dans les applications interactives qui nécessitent des fonctionnalités de raisonnement fortes, notamment le résumé, la réponse aux questions et les applications de conversation.

Comme pour d’autres grands modèles de langage, la sortie de Llama-2-70B peut omettre certains faits et parfois produire de fausses informations. Databricks recommande d’utiliser la récupération de génération augmentée (RAG) dans les scénarios où la précision est particulièrement importante.

Mixtral-8x7B Instruct

Mixtral-8x7B Instruct est un modèle de rare mixture d’experts (SMoE, Sparse Mixture of Experts) de haute qualité entraîné par Mistral AI. Mixtral-8x7B Instruct peut être utilisé pour effectuer diverses tâches telles que la réponse à des questions, le résumé et l’extraction.

Mixtral peut gérer les longueurs de contexte jusqu’à 32 000 jetons. Mixtral peut traiter l’anglais, le français, l’italien, l’allemand et l’espagnol. Mixtral égale ou surpasse Llama 2 70B et GPT3.5 sur la plupart des points de référence (performances de Mixtral), tout en étant quatre fois plus rapide que Llama 70B pendant l’inférence.

Comme pour d’autres grands modèles de langage, le modèle Mixtral-8x7B-Instruct ne doit pas être utilisé pour produire des informations factuellement exactes. Bien que de grands efforts aient été déployés pour nettoyer les données de préentraînement, il est possible que ce modèle puisse générer des sorties obscènes, biaisées ou offensantes. Pour réduire les risques, Databricks utilise par défaut une variante de l’invite système de mode sans échec de Mistral.

GTE Large (En)

Important

GTE Large (En) est fourni sous licence Apache 2.0 et soumis à ses termes. Copyright © The Apache Software Foundation. Tous droits réservés. Les clients sont tenus de d’assurer de leur conformité vis-à-vis des licences de modèle applicables.

General Text Embedding (GTE) est un modèle d’incorporation de texte pouvant mapper n’importe quel texte à un vecteur d’incorporation à 1 024 dimensions et une fenêtre d’incorporation de 8 192 jetons. Ces vecteurs peuvent être utilisés dans des bases de données vectorielles pour les LLM, mais également dans des tâches comme la récupération, la classification, la réponse aux questions, le clustering ou la recherche sémantique. Ce point de terminaison sert la version anglaise du modèle.

Les modèles d’incorporation sont particulièrement efficaces lorsqu’ils sont utilisés en tandem avec les LLM pour les cas d’usage de récupération de génération augmentée (RAG). Vous pouvez utiliser GTE pour rechercher des extraits de texte pertinents dans de grands blocs de documents qui peuvent être utilisés dans le contexte d’un LLM.

BGE Large (En)

BGE (BAAI General Embedding) est un modèle d’incorporation de texte pouvant mapper n’importe quel texte à un vecteur d’incorporation à 1024 dimensions et une fenêtre d’incorporation de 512 jetons. Ces vecteurs peuvent être utilisés dans des bases de données vectorielles pour les LLM, mais également dans des tâches comme la récupération, la classification, la réponse aux questions, le clustering ou la recherche sémantique. Ce point de terminaison sert la version anglaise du modèle.

Les modèles d’incorporation sont particulièrement efficaces lorsqu’ils sont utilisés en tandem avec les LLM pour les cas d’usage de récupération de génération augmentée (RAG). BGE peut être utilisé pour rechercher des extraits de texte pertinents dans de grands blocs de documents qui peuvent être utilisés dans le contexte d’un LLM.

Dans les applications RAG, vous pouvez améliorer les performances de votre système de récupération en incluant un paramètre d’instruction. Les auteurs BGE recommandent d’essayer l’instruction "Represent this sentence for searching relevant passages:" pour les incorporations de requêtes, bien que son impact sur les performances dépend du domaine.

MPT 7B Instruct

Important

Le retrait du MPT 7B Instruct est prévu. Après le 30 août 2024, ce modèle ne sera plus pris en charge.

MPT-7B-8K-Instruct est un modèle à 6,7 milliards de paramètres formé par MosaicML pour le suivi d’instructions longues, en particulier la réponse aux questions et le résumé des documents plus longs. Le modèle est préformé pour 1 500 milliards de jetons sur un mélange de jeux de données, et affiné sur un jeu de données dérivé de Databricks Dolly-15T et des jeux de données Anthropic Helpful and Harmless (HH-RLHF). Le nom du modèle que vous voyez dans le produit est mpt-7b-instruct, mais le modèle spécifiquement utilisé est la version la plus récente.

MPT-7B-8K-Instruct peut être utilisé pour diverses tâches telles que la réponse aux questions, le résumé et l’extraction. Il est très rapide par rapport à Llama-2-70B, mais peut générer des réponses de qualité inférieure. Ce modèle prend en charge une longueur de contexte de 8000 jetons. En savoir plus sur le modèle MPT-7B-8k-Instruct.

Comme pour d’autres modèles de langage de cette taille, MPT-7B-8K-Instruct ne doit pas être utilisé pour produire des informations exactes factuellement. Ce modèle a été formé sur différents jeux de données publics. Bien que de grands efforts aient été déployés pour nettoyer les données de préentraînement, il est possible que ce modèle puisse générer des sorties obscènes, biaisées ou offensantes.

MPT 30B Instruct

Important

Le retrait du MPT 30B Instruct est prévu. Après le 30 août 2024, ce modèle ne sera plus pris en charge.

Entraîné par MosaicML, MPT-30B-Instruct est un modèle de 30 milliards de paramètres conçu pour le suivi d’instructions. Le modèle est préentraîné sur mille milliards de jetons composés d’un mélange de texte en anglais et de code, puis ajusté avec des instructions sur un jeu de données dérivé des jeux de données Databricks Dolly-15k, Anthropic Helpful and Harmless (HH-RLHF), CompetitionMath, DuoRC, CoT GSM8k, QASPER, QuALITY, SummScreen et Spider.

MPT-30B-Instruct peut être utilisé pour effectuer diverses tâches telles que la réponse à des questions, le résumé et l’extraction. Il est plus rapide que Llama-2-70B, mais il peut générer des réponses de qualité inférieure et ne prend pas en charge la conversation multitour. Ce modèle prend en charge une longueur de contexte de 8 192 jetons. En savoir plus sur le modèle MPT-30B-Instruct.

Comme pour d’autres modèles de langage de cette taille, MPT-30B-Instruct ne doit pas être utilisé pour produire des informations factuellement exactes. Ce modèle a été formé sur différents jeux de données publics. Bien que de grands efforts aient été déployés pour nettoyer les données de préentraînement, il est possible que ce modèle puisse générer des sorties obscènes, biaisées ou offensantes.

Partager via

Modèles pris en charge pour le paiement par jeton

DBRX Instruct

Meta Llama 3 70B Instruct

Llama 2 70B Chat

Mixtral-8x7B Instruct

GTE Large (En)

BGE Large (En)

MPT 7B Instruct

MPT 30B Instruct

Ressources supplémentaires

Commentaires

Commentaires

Ressources supplémentaires