Partager via


Déployer des modèles à l’aide de Mosaïque AI Model Service

Cet article décrit Mosaic AI Model Serving, la solution Databricks pour le déploiement de modèles d'IA et d'apprentissage automatique pour une utilisation en temps réel et des inférences par lots.

Qu’est-ce que le modèle d’IA Mosaïque sert ?

Mosaïque AI Model Serving fournit une interface unifiée pour déployer, régir et interroger des modèles IA pour l’inférence en temps réel et par lots. Chaque modèle servi est disponible en tant qu’API REST que vous pouvez intégrer à votre application web ou cliente.

Model Serving fournit un service à haute disponibilité et à faible latence pour le déploiement de modèles. Le service effectue automatiquement un scale-up ou un scale-down pour répondre aux modifications de la demande, ce qui réduit les coûts d’infrastructure tout en optimisant les performances de latence. Cette fonctionnalité utilise le calcul serverless. Pour plus d’informations, consultez la Page de tarification du Service de modèles.

Model Service offre une API REST unifiée et une API de déploiement MLflow pour les tâches CRUD et d’interrogation. En outre, il fournit une interface utilisateur unique pour gérer tous vos modèles et leurs points de terminaison de service respectifs. Vous pouvez également accéder aux modèles directement à partir de SQL à l’aide d’AI Functions pour faciliter l’intégration aux flux de travail d’analytique.

Les fonctions IA et le service de modèle sont étroitement intégrés pour les scénarios d’inférence par lots. Vous pouvez utiliser l’une des fonctions IA spécifiques à la tâche ou ai-query dans vos pipelines d’inférence par lots. Si vous choisissez d’utiliser un modèle préprovisionné hébergé et géré par Databricks, vous n’avez pas besoin de configurer vous-même un modèle servant un point de terminaison.

Consultez les guides suivants pour commencer :

Modèles que vous pouvez déployer

Le service de modèle prend en charge l’inférence en temps réel et par lots pour les types de modèles suivants :

  • Modèles personnalisés. Il s’agit de modèles Python empaquetés au format MLflow. Ils peuvent être inscrits dans Unity Catalog ou dans le registre de modèle de l’espace de travail. Il peut s’agir notamment de modèles scikit-learn, XGBoost, PyTorch et Hugging Face Transformer.
  • Modèles de base.
    • Modèles de base hébergés par Databricks comme Meta Llama. Ces modèles sont disponibles à l’aide des API Foundation Model. Ces modèles sont des architectures de modèle de base curées qui prennent en charge l’inférence optimisée. Les modèles de base, tels que Meta-Llama-3.3-70B-Instruct, GTE-Large et Mistral-7B, sont disponibles pour une utilisation immédiate avec la tarification de paiement par jeton , et les charges de travail qui nécessitent des garanties de performances et des variantes de modèle affinées peuvent être déployées avec un débit approvisionné.
    • Modèles de base hébergés en dehors de Databricks comme GPT-4 à partir d’OpenAI. Ces modèles sont accessibles à l’aide de modèles externes. Les points de terminaison qui servent ces modèles peuvent être régis de manière centralisée à partir d’Azure Databricks. Vous pouvez donc simplifier l’utilisation et la gestion de différents fournisseurs LLM, tels qu’OpenAI et Anthropic, au sein de votre organisation.

Remarque

Vous pouvez interagir avec des grands modèles de langage pris en charge en utilisant AI Playground. AI Playground est un environnement de type conversationnel dans lequel vous pouvez tester, inviter et comparer des LLM. Cette fonctionnalité est disponible dans votre espace de travail Azure Databricks.

Pourquoi utiliser le Service de modèles ?

  • Déployez et interrogez tous les modèles : La mise en service de modèles fournit une interface unifiée qui vous permet de gérer tous les modèles dans un emplacement et de les interroger à l’aide d’une unique API, qu’ils soient hébergés sur Databricks ou en externe. Cette approche simplifie le processus d’expérimentation, notamment la personnalisation et le déploiement de modèles en production sur différents clouds et fournisseurs.

  • Personnaliser en toute sécurité les modèles avec vos données privées : basé sur une plateforme Data Intelligence, Model Serving simplifie l’intégration des fonctionnalités et des embeddings dans les modèles grâce à l’intégration native avec le magasin de fonctionnalités Databricks et la recherche vectorielle d’IA Mosaic. Pour une précision accrue et une compréhension contextuelle améliorée, les modèles peuvent être affinés avec des données propriétaires et déployés sans effort sur la mise en service de modèle.

  • Gouverner et surveiller des modèles : L’interface utilisateur de mise en service vous permet de gérer tous les points de terminaison de modèle de manière centralisée à partir d’un seul endroit, y compris les modèles hébergés en externe. Vous pouvez gérer les autorisations, suivre et définir des limites d’utilisation et surveiller la qualité de tous les types de modèles à l’aide de la passerelle AI. Cela vous permet de démocratiser l’accès à SaaS et d’ouvrir des LLM au sein de votre organisation tout en veillant à ce que les garde-fous appropriés soient en place.

  • Réduire les coûts avec l’inférence optimisée et la mise à l’échelle rapide : Databricks a implémenté une gamme d’optimisations pour vous assurer d’obtenir le meilleur en termes de débit et de latence pour les modèles volumineux. Les points de terminaison effectuent automatiquement un scale-up ou un scale-down pour répondre aux modifications de la demande, ce qui réduit les coûts d’infrastructure, tout en optimisant les performances de latence. Surveillez les coûts de service de modèle.

    • Pour les charges de travail sensibles à la latence ou impliquant un nombre élevé de requêtes par seconde, consultez Optimiser les points de terminaison de service du modèle pour la production pour des stratégies d’optimisation complètes. Contactez votre équipe de compte Databricks pour vous assurer que votre espace de travail est activé pour une scalabilité élevée.
  • Apporter la fiabilité et la sécurité à la mise en service de modèle : La mise en service de modèle est conçue pour une utilisation de production à haute disponibilité et à faible latence. Elle peut prendre en charge plus de 25 000 requêtes par seconde avec une latence de charge inférieure à 50 ms. Les charges de travail de mise en service sont protégées par plusieurs couches de sécurité, garantissant ainsi un environnement sécurisé et fiable pour les tâches les plus sensibles. Vous pouvez contrôler l’accès réseau aux points de terminaison Model Serving en configurant des stratégies réseau. Consultez Gérer les stratégies réseau pour le contrôle de sortie serverless.

Remarque

Model Service ne fournit pas de correctifs de sécurité aux images de modèle existantes en raison du risque de déstabilisation des déploiements de production. Une nouvelle image de modèle créée à partir d’une nouvelle version de modèle contient les derniers correctifs. Contactez votre équipe de compte Databricks pour plus d’informations.

Exigences

Activer la mise en service de modèles pour votre espace de travail

Aucune étape supplémentaire n’est nécessaire pour activer le service de modèles dans votre espace de travail.

Limitations et disponibilité de la région

Le Service de modèles Mosaic AI impose des limites par défaut pour garantir des performances fiables. Consultez l’article Limites et régions du service de modèle. Si vous avez des commentaires sur ces limites ou un point de terminaison dans une région non prise en charge, contactez l’équipe en charge de votre compte Databricks.

Protection des données dans Model Service

Databricks prend au sérieux la sécurité des données. Databricks comprend l’importance des données que vous analysez à l’aide du Service de modèles Mosaic AI et implémente les contrôles de sécurité suivants pour protéger vos données.

  • Chaque requête client au service de modèles est logiquement isolée, authentifiée et autorisée.
  • Le Service de modèles Mosaic AI chiffre toutes les données au repos (AES-256) et en transit (TLS 1.2+).

Pour tous les comptes payants, le Service de modèles Mosaic AI n’utilise pas les entrées utilisateur envoyées au service ou les sorties du service pour effectuer l’apprentissage de modèles ou améliorer les services Databricks.

Pour toutes les charges de travail Mosaic AI Model Service, Databricks conserve les journaux de build de conteneur pendant jusqu’à trente (30) jours et les données de métriques pour jusqu’à quatorze (14) jours.

Pour les API Databricks Foundation Model, dans le cadre de la fourniture du service, Databricks peut traiter et stocker temporairement des entrées et des sorties à des fins de prévention, de détection et d’atténuation des abus ou des utilisations dangereuses. Vos entrées et sorties sont isolées de celles d’autres clients, stockées dans la même région que votre espace de travail pendant trente (30) jours maximum et accessibles uniquement pour détecter et répondre aux problèmes de sécurité ou d’abus.

Les API Foundation Model sont un service désigné Databricks, ce qui signifie qu’il respecte les limites de résidence des données comme implémenté par Databricks Geos.

Ressources supplémentaires