Service de modèle avec Azure Databricks

Article
04/11/2024

Cet article décrit le Service de modèle Azure Databricks, y compris ses avantages et ses limitations.

Qu’est-ce que le service de modèles ?

Le service de modèles Databricks fournit une interface unifiée pour déployer, régir et interroger des modèles IA. Chaque modèle servi est disponible en tant qu’API REST que vous pouvez intégrer à votre application web ou cliente.

Model Serving fournit un service à haute disponibilité et à faible latence pour le déploiement de modèles. Le service effectue automatiquement un scale-up ou un scale-down pour répondre aux modifications de la demande, ce qui réduit les coûts d’infrastructure tout en optimisant les performances de latence. Cette fonctionnalité utilise le calcul serverless. Pour plus d’informations, consultez la Page de tarification du Service de modèles.

Le service de modèles prend en charge les modèles suivants :

Modèles personnalisés. Il s’agit de modèles Python empaquetés au format MLflow. Ils peuvent être inscrits dans Unity Catalog ou dans le registre de modèle de l’espace de travail. Il peut s’agir notamment de modèles scikit-learn, XGBoost, PyTorch et Hugging Face Transformer.
Modèles ouverts de pointe mis à la disposition par les API Foundation Model. Ces modèles sont des architectures de modèle de base curées qui prennent en charge l’inférence optimisée. Les modèles de base, tels que Llama-2-70B-chat, BGE-Large et Mistral-7B, sont disponibles pour une utilisation immédiate avec la tarification de paiement par jeton, mais aussi les charges de travail qui nécessitent des garanties de performances et des variantes de modèle affinées peuvent être déployées avec un débit approvisionné.
Modèles externes. Il s’agit de modèles hébergés en dehors de Databricks. Les points de terminaison servant des modèles externes peuvent être régis de manière centralisée et les clients peuvent établir des limites de débit et un contrôle d’accès les concernant. Les exemples incluent des modèles de base tels que GPT-4 d’OpenAI, Claude d’Anthropic et d’autres.

Remarque

Vous pouvez interagir avec des grands modèles de langage pris en charge en utilisant AI Playground. AI Playground est un environnement de type conversationnel dans lequel vous pouvez tester, inviter et comparer des LLM. Cette fonctionnalité est disponible dans votre espace de travail Azure Databricks.

Le service de modèles offre une API REST unifiée et l’API MLflow Deployment pour les tâches CRUD et d’interrogation. En outre, il fournit une interface utilisateur unique pour gérer tous vos modèles et leurs points de terminaison de service respectifs. Vous pouvez également accéder aux modèles directement à partir de SQL à l’aide de fonctions IA pour faciliter l’intégration aux flux de travail d’analytique.

Pour obtenir un didacticiel d’introduction sur la façon de servir des modèles personnalisés sur Azure Databricks, consultez Didacticiel : Déployer et interroger un modèle personnalisé.

Pour obtenir un tutoriel de démarrage sur la façon d’interroger un modèle de fondation sur Databricks, consultez Commencer à interroger des LLM sur Databricks.

Pourquoi utiliser le Service de modèles ?

Déployez et interrogez tous les modèles : La mise en service de modèles fournit une interface unifiée qui vous permet de gérer tous les modèles dans un emplacement et de les interroger à l’aide d’une unique API, qu’ils soient hébergés sur Databricks ou en externe. Cette approche simplifie le processus d’expérimentation, notamment la personnalisation et le déploiement de modèles en production sur différents clouds et fournisseurs.
Personnalisez en toute sécurité des modèles avec vos données privées : basé sur une plateforme Data Intelligence, la mise en service de modèles simplifie l’intégration des fonctionnalités et des incorporations dans des modèles via l’intégration native avec le Magasin de caractéristiques Databricks et le Recherche vectorielle Databricks. Pour une précision accrue et une compréhension contextuelle améliorée, les modèles peuvent être affinés avec des données propriétaires et déployés sans effort sur la mise en service de modèle.
Gouverner et surveiller des modèles : L’interface utilisateur de mise en service vous permet de gérer tous les points de terminaison de modèle de manière centralisée à partir d’un seul endroit, y compris les modèles hébergés en externe. Vous pouvez gérer les autorisations, suivre et définir des limites d’utilisation et surveiller la qualité de tous les types de modèles. Cela vous permet de démocratiser l’accès à SaaS et d’ouvrir des LLM au sein de votre organisation tout en veillant à ce que les garde-fous appropriés soient en place.
Réduire les coûts avec l’inférence optimisée et la mise à l’échelle rapide : Databricks a implémenté une gamme d’optimisations pour vous assurer d’obtenir le meilleur en termes de débit et de latence pour les modèles volumineux. Les points de terminaison effectuent automatiquement un scale-up ou un scale-down pour répondre aux modifications de la demande, ce qui réduit les coûts d’infrastructure, tout en optimisant les performances de latence.
Apporter la fiabilité et la sécurité à la mise en service de modèle : La mise en service de modèle est conçue pour une utilisation de production à haute disponibilité et à faible latence. Elle peut prendre en charge plus de 25 000 requêtes par seconde avec une latence de charge inférieure à 50 ms. Les charges de travail de mise en service sont protégées par plusieurs couches de sécurité, garantissant ainsi un environnement sécurisé et fiable pour les tâches les plus sensibles.

Exigences

Modèle inscrit dans le catalogue Unity Catalog ou le Registre de modèles de l’espace de travail.
Autorisations sur les modèles inscrits, comme décrit dans Listes de contrôle d’accès des points de terminaison de service.
MLflow 1.29 ou version ultérieure

Activer la mise en service de modèles pour votre espace de travail

Aucune étape supplémentaire n’est nécessaire pour activer le service de modèles dans votre espace de travail.

Limitations et disponibilité de la région

Le service de modèles Databricks impose des limites par défaut pour garantir des performances fiables. Consultez l’article Limites et régions du service de modèle. Si vous avez des commentaires sur ces limites ou un point de terminaison dans une région non prise en charge, contactez l’équipe en charge de votre compte Databricks.

Protection des données dans le service de modèles

Databricks prend au sérieux la sécurité des données. Databricks comprend l’importance des données que vous analysez à l’aide du service de modèles Databricks et implémente les contrôles de sécurité suivants pour protéger vos données.

Chaque requête client au service de modèles est logiquement isolée, authentifiée et autorisée.
Le service de modèles Databricks chiffre toutes les données au repos (AES-256) et en transit (TLS 1.2+).

Pour tous les comptes payants, le service de modèles Databricks n’utilise pas les entrées utilisateur envoyées au service ou les sorties du service pour effectuer l’apprentissage des modèles ou améliorer les services Databricks.

Pour les API Databricks Foundation Model, dans le cadre de la fourniture du service, Databricks peut traiter et stocker temporairement des entrées et des sorties à des fins de prévention, de détection et d’atténuation des abus ou des utilisations dangereuses. Vos entrées et sorties sont isolées de celles d’autres clients, stockées dans la même région que votre espace de travail pendant trente (30) jours maximum et accessibles uniquement pour détecter et répondre aux problèmes de sécurité ou d’abus.