Modèle servant avec Serverless Real-Time Inference

Article
03/06/2024

Important

Cette documentation a été mise hors service et peut ne pas être mise à jour. Les produits, services ou technologies mentionnés dans ce contenu ne sont plus pris en charge.
Les conseils contenus dans cet article concernent la version préliminaire de la fonctionnalité Model Serving, anciennement Serverless Real-Time Inference. Databricks vous recommande de migrer vos workflows de diffusion de modèles vers la fonctionnalité généralement disponible. Consultez Mise en service de modèles avec Azure Databricks.

Important

Cette fonctionnalité est disponible en préversion publique.

Cet article décrit la mise en service du modèle avec la fonctionnalité Azure Databricks Serverless Real-Time Inference, ainsi que ses avantages et ses limites par rapport à la mise en service du modèle MLflow hérité.

Serverless Real-Time Inference expose vos modèles Machine Learning MLflow en tant que points de terminaison d’API REST évolutifs. Cette fonctionnalité utilise le calcul serverless, ce qui signifie que les points de terminaison et les ressources de calcul associées sont gérés et exécutés dans votre compte Databricks. Pour plus d’informations, consultez la page Tarification de l’inférence serverless en temps réel.

La fonctionnalité de mise en service du modèle MLflow hérité utilise un cluster à nœud unique qui s’exécute sous votre compte dans ce que l’on appelle désormais le plan de calcul classique. Ce plan de calcul comprend le réseau virtuel et les ressources de calcul qui lui sont associées, comme les clusters pour les notebooks et les travaux, les entrepôts SQL pro et classiques et les points de terminaison de mise en service de modèle classique.

Pourquoi utiliser la fonctionnalité Serverless Real-Time Inference ?

La fonctionnalité Serverless Real-Time Inference offre ce qui suit :

Possibilité de lancer un point de terminaison en un seul clic : Databricks prépare automatiquement un environnement prêt pour la production pour votre modèle et offre des options de configuration serverless pour le calcul.
Haute disponibilité et scalabilité : la fonctionnalité Serverless Real-Time Inference est destinée à une utilisation en production et peut prendre en charge un maximum de 3 000 requêtes par seconde (RPS). Le scale-up et le scale-down des points de terminaison Serverless Real-Time Inference est automatique, ce qui signifie qu’ils s’ajustent automatiquement en fonction du volume des demandes de scoring.
Tableaux de bord : utilisez le tableau de bord intégré de la fonctionnalité Serverless Real-Time Inference pour surveiller l’intégrité de vos points de terminaison de modèles à l’aide de métriques telles que le nombre de RPS, la latence et le taux d’erreur.
Intégration du Magasin de fonctionnalités : lorsque votre modèle fait l’objet d’un apprentissage avec des caractéristiques issues du Magasin de fonctionnalités Databricks, il est empaqueté avec des métadonnées de caractéristiques. Si vous configurez votre magasin en ligne, ces caractéristiques sont incorporées en temps réel à mesure que les demandes de scoring sont reçues.

Limites

Tant que ce service est en préversion, les limites suivantes s’appliquent :

Limite de taille de charge utile de 16 Mo par demande.
Limite par défaut de 200 RPS de demandes de scoring par espace de travail inscrit. Vous pouvez augmenter cette limite jusqu’à 3 000 QPS par espace de travail en contactant le support Databricks.
Prise en charge optimale pour une latence et une disponibilité inférieures à 100 millisecondes.
Le Service de modèles ne prend pas en charge les scripts init.

Les points de terminaison Serverless Real-Time Inference sont ouverts à Internet pour le trafic entrant, sauf si une liste d’adresses IP autorisées est activée dans l’espace de travail, auquel cas cette liste s’applique également aux points de terminaison.

Disponibilité dans les régions

Serverless Real-Time Inference est disponible dans les régions Azure suivantes :

eastus2
westus
eastus
westeurope
centralus
northcentralus
northeurope

Attentes en matière de délai de passage de la phase de préproduction à la phase de production

Le passage d’un modèle de la phase de préproduction à la phase de production prend du temps. Le déploiement d’une version de modèle nouvellement inscrite implique la création d’une image conteneur du modèle et l’approvisionnement du point de terminaison du modèle. Ce processus peut prendre environ 5 minutes.

Databricks effectue une mise à jour « sans temps d’arrêt » des points de terminaison /staging et /production en conservant le modèle de déploiement existant jusqu’à ce que le nouveau soit prêt. Cela permet d’éviter toute interruption des points de terminaison de modèle qui sont en cours d’utilisation.

Si le calcul du modèle prend plus de 60 secondes, les demandes expirent. Si vous pensez que votre calcul de modèle prendra plus de 60 secondes, contactez le support Databricks.

Prérequis

Important

Pendant la phase de préversion publique, vous devez contacter le support Databricks pour activer la fonctionnalité Serverless Real-Time Inference sur votre espace de travail.

Avant de pouvoir créer des points de terminaison Serverless Real-Time Inference, vous devez les activer sur votre espace de travail. Consultez Activer les points de terminaison Serverless Real-Time Inference pour le déploiement de modèle.

Une fois les points de terminaison Serverless Real-Time Inference activés sur votre espace de travail, vous devez disposer des autorisations suivantes afin de créer des points de terminaison pour la mise en service du modèle :

Autorisations de création de clusters sur l’espace de travail.
Autorisations PEUT GÉRER LES VERSIONS DE PRODUCTION sur le modèle inscrit pour le mettre à disposition.

Modèle servant avec Serverless Real-Time Inference

Pourquoi utiliser la fonctionnalité Serverless Real-Time Inference ?

Limites

Disponibilité dans les régions

Attentes en matière de délai de passage de la phase de préproduction à la phase de production

Prérequis

Ressources supplémentaires

Ressources supplémentaires