Migrer vers l’inférence serverless en temps réel

Article
05/03/2024

Important

Cette documentation a été mise hors service et peut ne pas être mise à jour. Les produits, services ou technologies mentionnés dans ce contenu ne sont plus pris en charge.
Les conseils contenus dans cet article concernent la version préliminaire de la fonctionnalité de mise en service de modèles, anciennement inférence serverless en temps réel. Databricks vous recommande de migrer vos workflows de mise en service de modèles vers la fonctionnalité généralement disponible. Consultez Mise en service de modèles avec Azure Databricks.

Important

Cette fonctionnalité est disponible en préversion publique.

Cet article explique comment activer l’inférence serverless en temps réel sur votre espace de travail et passer vos modèles de l’utilisation de la mise en service de modèles MLflow héritée à l’utilisation de la mise en service de modèles avec l’inférence serverless en temps réel.

Pour obtenir des informations générales sur l’inférence serverless en temps réel, consultez Mise en service avec l’inférence serverless en temps réel.

Spécifications

Modèle inscrit dans le Registre de modèles MLflow.
Créez des autorisations en cluster dans votre espace de travail. Consultez Gérer les droits d’utilisation.
Autorisations PEUT GÉRER LES VERSIONS DE PRODUCTION sur le modèle inscrit. Consultez Listes de contrôle d’accès des modèles MLflow.

Modifications importantes

Dans l’inférence serverless en temps réel, le format de la demande au point de terminaison et la réponse du point de terminaison sont légèrement différents de la mise en service de modèles MLflow héritée. Consultez Scoring d’un point de terminaison de modèle pour plus d’informations sur le nouveau protocole de format.
Dans l’inférence serverless Real-Time, l’URL du point de terminaison inclut model-endpoint au lieu de model
L’inférence serverless Real-Time inclut une prise en charge complète de la gestion des ressources avec des workflows d’API et est prête pour la production.

Activer l’inférence serverless en temps réel pour votre espace de travail

Important

L’inférence serverless en temps réel doit être activée pour votre espace de travail. La première fois qu’elle est activée pour l’espace de travail, l’administrateur de l’espace de travail doit lire et accepter les conditions générales.

Pour activer l’inférence serverless en temps réel pour votre espace de travail :

Inscrivez-vous à la préversion.
1. Contactez votre équipe de compte Azure Databricks pour demander à rejoindre la préversion publique de l’inférence serverless en temps réel.
2. Databricks vous envoie un formulaire Google.
3. Remplissez le formulaire et envoyez-le à Databricks. Le formulaire inclut des informations sur l’espace de travail à inscrire.
4. Attendez que Databricks vous avertit que votre espace de travail est inscrit dans la préversion.
En tant qu’administrateur de l’espace de travail, accédez à la page paramètres d’administration.
Sélectionnez les Paramètres de l’espace de travail.
Sélectionnez l’Activation d’inférence MLflow Serverless en temps réel.

Désactiver la mise en service de modèles MLflow héritée sur vos modèles

Avant de pouvoir activer l’inférence serverless en temps réel pour vos modèles, vous devez désactiver la mise en service de modèles MLflow héritée sur vos modèles actuellement servis.

Les étapes suivantes montrent comment effectuer cette opération avec l’interface utilisateur.

Accédez à Models (Modèles) dans la barre latérale de votre espace de travail Machine Learning.
Sélectionnez le modèle pour lequel vous souhaitez désactiver la mise en servie de modèles MLflow héritée.
Sous l’onglet Serving (Mise en service), sélectionnez Stop (Arrêter).
Un message de confirmation s’affiche. Sélectionnez Stop Serving (Arrêter la mise en service).

Activer l’inférence serverless en temps réel sur vos modèles

Une fois que l’inférence serverless en temps réel est activée sur votre espace de travail, l’écran suivant s’affiche sous l’onglet Serving (Mise en service) de vos modèles inscrits. Pour activer l’inférence serverless en temps réel pour ce modèle, cliquez sur le bouton Enable Serverless Real-Time Inference (Activer l’inférence serverless Real-Time).

Volet de la mise en service

Important

Si vous ne voyez pas ce bouton, mais que vous voyez plutôt un bouton Activer la mise en service, vous utilisez des points de terminaison pour la mise en service de modèles MLflow hérités, et non les points de terminaison de modèles serverless. Contactez un administrateur de l’espace de travail pour activer la fonctionnalité sur cet espace de travail.

Ressources supplémentaires

Gérer des points de terminaison de modèle d’inférence serverless en temps réel

Migrer vers l’inférence serverless en temps réel

Spécifications

Modifications importantes

Activer l’inférence serverless en temps réel pour votre espace de travail

Désactiver la mise en service de modèles MLflow héritée sur vos modèles

Activer l’inférence serverless en temps réel sur vos modèles

Ressources supplémentaires

Commentaires

Commentaires

Ressources supplémentaires