Migrer des points de terminaison de mise en service de LLM optimisés vers un débit approvisionné

Cet article explique comment migrer vos points de terminaison de mise en service de LLM existants vers l’expérience de débit approvisionné disponible à l’aide des API Foundation Model.

Ce qui a changé

Le débit approvisionné offre une expérience plus simple pour lancer des points de terminaison de mise en service de LLM optimisés. Databricks a modifié son système de mise en service de modèles LLM afin que :

  • Les plages de scale-out puissent être configurées en termes natifs LLM, comme les jetons par seconde au lieu de la concurrence.
  • Les clients n’aient plus besoin de sélectionner eux-mêmes les types de charges de travail GPU.

Les nouveaux points de terminaison de mise en service de LLM soient créés avec un débit approvisionné par défaut. Si vous souhaitez continuer à sélectionner le type de charge de travail GPU, cette expérience est uniquement prise en charge à l’aide de l’API.

Migrer des points de terminaison de mise en service de LLM optimisés vers le débit approvisionné

La façon la plus simple de migrer votre point de terminaison existant vers le débit approvisionné consiste à mettre à jour votre point de terminaison avec une nouvelle version de modèle. Une fois que vous avez sélectionné une nouvelle version de modèle, l’interface utilisateur affiche l’expérience de débit approvisionné. L’interface utilisateur affiche les jetons par seconde en fonction des points de référence Databricks pour les cas d’usage classiques.

Provisioned throughput LLM serving

Les performances avec cette offre mise à jour sont nettement supérieures en raison d’améliorations de l’optimisation. De plus, le prix de votre point de terminaison reste inchangé. Veuillez nous contacter à l’adresse model-serving-feedback@databricks.com pour tout commentaire ou toute question sur les produits.