Partage via


API Databricks Foundation Model

Cet article offre une vue d’ensemble des API Foundation Model d’Azure Databricks. Il traite des exigences d’utilisation, des modèles pris en charge et des limitations.

En quoi consistent les API Databricks Foundation Model ?

Le Service de modèle Databricks prend désormais en charge les API Foundation Model qui vous permettent d’accéder à des modèles ouverts de pointe et de les interroger à partir d’un point de terminaison de mise en service. Grâce aux API Foundation Model, vous pouvez générer avec rapidité et simplicité des applications qui tirent profit d’un modèle d’IA générative de haute qualité sans conserver votre propre modèle de déploiement. Les API Foundation Model sont un service désigné Databricks, ce qui signifie qu’il utilise Databricks Geos pour gérer la résidence des données lors du traitement du contenu client.

Les API Foundation Model sont fournies selon deux modes de tarification :

  • Paiement par jeton : façon la plus simple d’accéder aux modèles de base Foundation Model sur Databricks et mode recommandé pour commencer votre aventure avec des API Foundation Model. Ce mode n’est pas conçu pour les applications à haut débit ou les charges de travail de production performantes.
  • Débit approvisionné : ce mode est recommandé pour toutes les charges de travail de production, en particulier celles qui nécessitent un débit élevé, des garanties de performances, des modèles affinés ou des exigences de sécurité supplémentaires. Les points de terminaison de débit approvisionné sont disponibles avec des certifications de conformité telles que HIPAA.

Pour plus d’informations sur l’utilisation de ces deux modes et ses modèles pris en charge, consultez Utiliser les API Foundation Model.

Grâce aux API Foundation Model, vous pouvez :

  • Interroger un LLM généralisé pour vérifier la validité d’un projet avant de faire appel à davantage de ressources.
  • Interroger un LLM généralisé afin de créer une preuve de concept rapide pour une application basée sur un LLM avant d’investir dans l’apprentissage et le déploiement d’un modèle personnalisé.
  • Utiliser un modèle de fondation, ainsi qu’une base de données vectorielle, pour créer un chatbot utilisant la génération augmentée de récupération (RAG).
  • Remplacer les modèles propriétaires par des alternatives libres de droits afin d’optimiser les coûts et les performances.
  • Comparez efficacement les LLM pour déceler le meilleur candidat pour votre cas d’usage, ou échangez un modèle de production contre un modèle plus performant.
  • Générez une application LLM de développement ou de production en plus d’une solution de service LLM évolutive dotée d’un contrat de niveau de service pouvant gérer vos pics de trafic de production.

Exigences

Utiliser les API Foundation Model

Vous pouvez interroger les API Foundation Model à l’aide de plusieurs méthodes.

Les API sont compatibles avec OpenAI. Vous pouvez donc utiliser le client OpenAI pour l’interrogation. Vous pouvez également utiliser l’interface utilisateur, le kit de développement logiciel (SDK) Python des API Foundation Model, le kit de développement logiciel (SDK) des déploiements MLflow ou l’API REST pour interroger des modèles pris en charge. Databricks recommande d’utiliser l’API ou le SDK client OpenAI pour les interactions étendues et l’interface utilisateur pour essayer la fonctionnalité.

Pour obtenir des exemples de scoring, consultez les modèles IA dégénératives de requête.

API Foundation Model avec paiement par jeton

Les modèles de paiement par jeton sont accessibles dans votre espace de travail Azure Databricks et sont recommandés pour commencer. Pour y accéder dans votre espace de travail, accédez à l’onglet Service dans la barre latérale gauche. Les API Foundation Model se trouvent en haut de la liste des points de terminaison.

Liste des points de terminaison de service

Le tableau suivant résume les modèles pris en charge pour le paiement par jeton. Consultez les modèles pris en charge pour le paiement par jeton pour obtenir des informations supplémentaires sur le modèle.

Si vous souhaitez tester et avoir une conversation avec ces modèles, vous pouvez le faire en utilisant le terrain de jeu de l’IA (AI Playground). Consultez Conversation avec des LLM et prototypage d’applications d’IA générative à l’aide d’AI Playground.

Important

  • Depuis le 23 juillet 2024, Meta-Llama-3.1-70B-Instruct remplace la prise en charge de Meta-Llama-3-70B-Instruct dans les points de terminaison de paiement par jeton des API Foundation Model.
  • Meta-Llama-3.1-405B-Instruct est le plus grand modèle de grand langage ouvert disponible, créé et formé par Meta et distribué par Azure Machine Learning à l’aide du catalogue de modèles AzureML.
  • Les modèles suivants sont désormais mis hors service. Consultez Modèles hors service pour connaître les modèles de remplacement recommandés.
    • Llama 2 70B Chat
    • MPT 7B Instruct
    • MPT 30B Instruct
Modèle Type de tâche Point de terminaison Notes
GTE Large (anglais) Intégration databricks-gte-large-en Ne génère pas d’incorporations normalisées.
Meta-Llama-3.1-70B-Instruct Conversation instantanée databricks-meta-llama-3-1-70b-instruct
Meta-Llama-3.1-405B-Instruct* Conversation instantanée databricks-meta-llama-3-1-405b-instruct Consultez Limites des API Foundation Model pour la disponibilité de la région.
DBRX Instruct Conversation instantanée databricks-dbrx-instruct Consultez Limites des API Foundation Model pour la disponibilité de la région.
Mixtral-8x7B Instruct Conversation instantanée databricks-mixtral-8x7b-instruct Consultez Limites des API Foundation Model pour la disponibilité de la région.
BGE Large (anglais) Intégration databricks-bge-large-en Consultez Limites des API Foundation Model pour la disponibilité de la région.

* Contactez votre équipe de compte Databricks si vous rencontrez des échecs de point de terminaison ou des erreurs de stabilisation lors de l’utilisation de ce modèle.

API Foundation Model avec débit approvisionné

Le débit approvisionné fournit des points de terminaison avec une inférence optimisée pour les charges de travail de modèles de base qui nécessitent des garanties de performances. Databricks recommande le débit approvisionné pour les charges de travail de production. Consultez API Foundation Model à débit approvisionné pour obtenir un guide étape par étape sur la manière de déployer les API Foundation Model en mode débit approvisionné.

La prise en charge du débit approvisionné comprend les éléments suivants :

  • Modèles de base de toutes tailles, tels que DBRX Base. Les modèles de base sont accessibles via la Place de marché Databricks, mais vous pouvez également les télécharger à partir de Hugging Face ou d’une autre source externe et les enregistrer dans le catalogue Unity. Cette dernière approche fonctionne avec toutes les variantes finement ajustées des modèles pris en charge, quelle que soit la méthode d’affinage utilisée.
  • Variantes affinées de modèles de base, comme LlamaGuard-7B ou meta-llama/Llama-3.1-8B. Cela comprend des modèles affinés sur des données propriétaires.
  • Poids et tokenizers entièrement personnalisés, tels que ceux entraînés à partir de zéro ou des variantes préentraînés ou d’autres variantes à l’aide de l’architecture de modèle de base (par exemple, CodeLlama).

Le tableau suivant récapitule les architectures de modèle prises en charge pour le débit approvisionné.

Important

Meta Llama 3.2 est concédé sous Licence de la communauté LLAMA 3.2, Copyright © Meta Platforms, Inc. Tous droits réservés. Les clients sont responsables de leur conformité aux conditions de cette licence et de la Politique d’utilisation acceptable de Llama 3.2.

Meta Llama 3.1 est concédé sous Licence de la communauté LLAMA 3.1, Copyright © Meta Platforms, Inc. Tous droits réservés. Les clients sont tenus de d’assurer de leur conformité vis-à-vis des licences de modèle applicables.

Architecture du modèle Types de tâche Notes
Meta Llama 3.2 3B Conversation ou saisie semi-automatique Consultez les limites de débit approvisionnées pour les variantes de modèle prises en charge et la disponibilité des régions.
Meta Llama 3.2 1B Conversation ou saisie semi-automatique Consultez les limites de débit approvisionnées pour les variantes de modèle prises en charge et la disponibilité des régions.
Meta Llama 3.1 Conversation ou saisie semi-automatique Consultez les limites de débit approvisionnées pour les variantes de modèle prises en charge et la disponibilité des régions.
Meta Llama 3 Conversation ou saisie semi-automatique
Meta Llama 2 Conversation ou saisie semi-automatique
DBRX Conversation ou saisie semi-automatique Consultez les limites de débit provisionnée pour la disponibilité de la région.
Mistral Conversation ou saisie semi-automatique
Mixtral Conversation ou saisie semi-automatique
MPT Conversation ou saisie semi-automatique
GTE v1.5 (anglais) Intégration Ne génère pas d’incorporations normalisées.
BGE v1.5 (anglais) Intégration

Limites

Consultez les limites des API Foundation Model.

Ressources supplémentaires