Points de terminaison et déploiements en ligne pour l’inférence en temps réel

S’APPLIQUE À :Extension Azure CLI v2 (actuelle)Kit de développement logiciel (SDK) Python azure-ai-ml v2 (version actuelle)

Azure Machine Learning vous permet d’effectuer une inférence en temps réel sur des données à l’aide de modèles déployés sur des points de terminaison en ligne. L’inférence est le processus qui consiste à appliquer de nouvelles données d’entrée à un modèle Machine Learning pour générer des sorties. Bien que ces sorties soient généralement appelées « prédictions », l’inférence peut être utilisée pour générer des sorties pour d’autres tâches d’apprentissage automatique, telles que la classification et le clustering.

Points de terminaison en ligne

Les points de terminaison en ligne déploient des modèles sur un serveur web pouvant retourner des prédictions sous le protocole HTTP. Utilisez les points de terminaison en ligne pour rendre les modèles opérationnels pour l’inférence en temps réel dans les requêtes synchrones à faible latence. Nous vous recommandons de les utiliser dans les cas suivants :

  • Vous avez des exigences de faible latence
  • Votre modèle peut répondre à la requête dans un laps de temps relativement court
  • Les entrées de votre modèle correspondent à la charge utile HTTP de la requête
  • Vous devez effectuer un scale-up au niveau du nombre de requêtes

Pour définir un point de terminaison, vous devez spécifier :

  • Nom du point de terminaison : Ce nom doit être unique dans la région Azure. Pour plus d’informations sur les règles de nommage, consultez limites de point de terminaison.
  • Mode d’authentification : Vous pouvez choisir entre le mode d’authentification basé sur les clés et le mode d’authentification basé sur les jetons Azure Machine Learning pour le point de terminaison. Une clé n’expire pas, mais un jeton expire bien. Pour plus d’informations sur l’authentification, consultez S’authentifier auprès d’un point de terminaison en ligne.

Azure Machine Learning offre l’avantage pratique d’utiliser des points de terminaison en ligne managés pour déployer vos modèles ML en un tour de main. Il s’agit de la méthode recommandée pour utiliser des points de terminaison en ligne dans Azure Machine Learning. Les points de terminaison en ligne managés fonctionnent avec des ordinateurs de processeur et GPU puissants dans Azure de manière évolutive et entièrement gérée. Ces points de terminaison se chargent aussi de servir, mettre à l’échelle, sécuriser et superviser vos modèles, ce qui vous évite la surcharge liée à la configuration et à la gestion de l’infrastructure sous-jacente. Pour savoir comment effectuer un déploiement sur un point de terminaison en ligne managé, consultez Déployer un modèle ML avec un point de terminaison en ligne.

Pourquoi choisir des points de terminaison en ligne managés plutôt qu’ACI ou AKS(v1) ?

L’utilisation de points de terminaison en ligne managés est la méthode recommandée pour utiliser des points de terminaison en ligne dans Azure Machine Learning. Le tableau suivant met en évidence les attributs clés des points de terminaison en ligne managés par rapport aux solutions SDK/CLI Azure Machine Learning v1 (ACI et AKS(v1)).

Attributs Points de terminaison en ligne managés (v2) ACI ou AKS(v1)
Sécurité/isolation de réseau Contrôle entrant/sortant facile avec bascule rapide Réseau virtuel non pris en charge ou nécessite une configuration manuelle complexe
Service géré - Provisionnement/mise à l’échelle du calcul complètement managé
- Configuration réseau pour la prévention de l’exfiltration de données
- Mise à niveau du système d’exploitation hôte, déploiement contrôlé des mises à jour sur place
- La mise à l’échelle est limitée dans v1
- La configuration ou la mise à niveau du réseau doit être gérée par l’utilisateur
Concept de point de terminaison/déploiement La distinction entre point de terminaison et déploiement permet d’avoir des scénarios complexes tels que le déploiement sécurisé de modèles Aucun concept de point de terminaison
Diagnostics et surveillance - Débogage de point de terminaison local possible avec Docker et Visual Studio Code
- Analyse avancée des métriques et des journaux avec graphique/requête pour comparer les déploiements
- Détails des coûts jusqu’au niveau du déploiement
Pas de débogage local facile
Évolutivité Mise à l’échelle automatique, élastique et illimitée - ACI n’est pas évolutif
- AKS (v1) prend uniquement en charge la mise à l’échelle dans le cluster et nécessite une configuration de la scalabilité
Préparation pour l’entreprise Liaison privée, clés gérées par le client, Microsoft Entra ID, gestion des quotas, intégration de facturation, contrat de niveau de service Non pris en charge
Fonctionnalités ML avancées - Collecte de données de modèle
- Supervision des modèles
- Modèle champion-challenger, déploiement sécurisé, mise en miroir du trafic
- Extensibilité de l’IA responsable
Non pris en charge

Sinon, si vous préférez utiliser Kubernetes pour déployer vos modèles et servir des points de terminaison, et que vous êtes à l’aise avec la gestion des exigences d’infrastructure, vous pouvez utiliser des points de terminaison en ligne Kubernetes. Ces points de terminaison vous permettent de déployer des modèles et de servir des points de terminaison en ligne sur votre cluster Kubernetes entièrement configuré et managé où vous voulez, avec des processeurs CPU ou GPU.

Pourquoi choisir des points de terminaison en ligne managés plutôt qu’AKS(v2) ?

Les points de terminaison en ligne managés peuvent vous aider à simplifier votre processus de déploiement et offrent les avantages suivants par rapport aux points de terminaison en ligne Kubernetes :

  • Infrastructure managée

    • Provisionne automatiquement le calcul et héberge le modèle (vous devez simplement spécifier les paramètres de type de machine virtuelle et de mise à l’échelle)
    • Applique automatiquement les mises à jour et patchs à l’image du système d’exploitation hôte sous-jacent
    • Procède automatiquement à une récupération de nœud en cas de défaillance du système
  • Supervision et journaux

    Screenshot showing Azure Monitor graph of endpoint latency.

  • Voir les coûts

    Screenshot cost chart of an endpoint and deployment.

    Remarque

    Les points de terminaison en ligne managés sont basés sur le calcul Azure Machine Learning. Lorsque vous utilisez un point de terminaison en ligne managé, vous payez les frais de calcul et de mise en réseau. Il n’y a aucun frais supplémentaire. Pour plus d’informations sur la tarification, consultez la calculatrice de prix Azure.

    Si vous utilisez un réseau virtuel Azure Machine Learning pour sécuriser le trafic sortant qui vient du point de terminaison en ligne managé, vous êtes facturé pour la liaison privée Azure et les règles de trafic sortant FQDN utilisées par le réseau virtuel managé. Pour plus d’informations, consultez Tarification des réseaux virtuels managés.

Points de terminaison en ligne managés ou points de terminaison en ligne Kubernetes

Le tableau suivant met en évidence les principales différences entre les points de terminaison en ligne managés et les points de terminaison en ligne Kubernetes.

Points de terminaison en ligne managés Points de terminaison en ligne Kubernetes (AKS(v2))
Utilisateurs concernés Utilisateurs qui souhaitent un déploiement de modèle managé et une expérience MLOps améliorée Utilisateurs qui préfèrent Kubernetes et peuvent autogérer les exigences d’infrastructure
Approvisionnement de nœuds Approvisionnement, mise à jour, suppression du calcul managé Responsabilité de l’utilisateur
Maintenance de nœuds Mises à jour d’images managées d’un système d’exploitation hôte et renforcement de la sécurité Responsabilité de l’utilisateur
Dimensionnement du cluster (mise à l’échelle) Mise à l’échelle automatique et manuelle managée, prise en charge de l’approvisionnement de nœuds supplémentaires Mise à l’échelle automatique et manuelle, prise en charge de la mise à l’échelle du nombre de réplicas dans les limites fixes du cluster
Type de capacité de calcul Géré par le service Clusters Kubernetes managés par les clients (Kubernetes)
Identité gérée Pris en charge Prise en charge
Réseau virtuel (VNet) Pris en charge via l’isolation réseau managée Responsabilité de l’utilisateur
Surveillance et journalisation prêtes à l’emploi Azure Monitor et Log Analytics optimisés (inclut des métriques clés et des tables de journaux pour les points de terminaison et les déploiements) Responsabilité de l’utilisateur
Journalisation avec Application Insights (héritée) Prise en charge Prise en charge
Visualisation des coûts Détaillé au niveau du point de terminaison/du déploiement Au niveau du cluster
Coût appliqué à Machines virtuelles affectées aux déploiements Machines virtuelles affectées au cluster
Trafic en miroir Pris en charge Non pris en charge
Déploiement sans code Pris en charge (modèles MLflow et Triton) Pris en charge (modèles MLflow et Triton)

Déploiements en ligne

Un déploiement est un ensemble de ressources et de calculs nécessaires pour héberger le modèle qui effectue l’inférence réelle. Un seul point de terminaison peut contenir plusieurs déploiements avec différentes configurations. Cette configuration permet de dissocier l’interface présentée par le point de terminaison des détails d’implémentation présents dans le déploiement. Un point de terminaison en ligne a un mécanisme de routage qui peut diriger les requêtes vers des déploiements spécifiques dans le point de terminaison.

Le diagramme suivant montre un point de terminaison en ligne qui a deux déploiements : bleu et vert. Le déploiement bleu utilise des machines virtuelles avec une référence de processeur et exécute la version 1 d’un modèle. Le déploiement vert utilise des machines virtuelles avec une référence SKU GPU et exécute la version 2 du modèle. Le point de terminaison est configuré pour acheminer 90 % du trafic entrant vers le déploiement bleu, tandis que le déploiement vert reçoit les 10 % restants.

Diagram showing an endpoint splitting traffic to two deployments.

Le tableau suivant décrit les attributs clés d’un déploiement :

Attribut Description
Nom Le nom du déploiement.
Nom du point de terminaison Nom du point de terminaison sous lequel créer le déploiement.
Modèle Modèle à utiliser pour le déploiement. Cette valeur peut être une référence à un modèle versionné existant dans l’espace de travail ou une spécification de modèle inline.
Chemin du code Le chemin d’accès du répertoire dans l’environnement de développement local qui contient tout le code source Python pour le scoring du modèle. Vous pouvez utiliser des répertoires et des packages imbriqués.
Script de scoring Le chemin relatif du fichier de scoring dans le répertoire de code source. Ce code Python doit avoir une fonction init() et une fonction run(). La fonction init() sera appelée une fois le modèle créé ou mis à jour (vous pouvez l’utiliser pour mettre en cache le modèle dans la mémoire, par exemple). La fonction run() est appelée à chaque appel du point de terminaison pour effectuer la notation et la prédiction réelles.
Environnement L’environnement pour héberger le modèle et le code. Cette valeur peut être une référence à un environnement versionné existant dans l’espace de travail ou une spécification d’environnement inline. Remarque : Microsoft applique régulièrement des patchs aux images de base pour les vulnérabilités de sécurité connues. Vous devez redéployer votre point de terminaison pour utiliser l’image corrigée. Si vous fournissez votre propre image, vous êtes chargé de la mettre à jour. Pour plus d’informations, consultez Mise à jour corrective des images.
Type d’instance Taille de machine virtuelle à utiliser pour le déploiement. Pour obtenir la liste des tailles prises en charge, consultez la liste des références SKU des points de terminaison en ligne managés.
Nombre d’instances Nombre d’instances à utiliser pour le déploiement. Basez la valeur sur la charge de travail que vous attendez. Pour une haute disponibilité, nous vous recommandons de définir la valeur sur au moins 3. Nous réservons 20 % en plus pour effectuer des mises à niveau. Pour plus d’informations, consultez allocation de quota du nombre de machines virtuelles pour les déploiements.

Pour savoir comment déployer des points de terminaison en ligne à l’aide de l’interface CLI, du SDK, du studio et du modèle ARM, consultez Déployer un modèle ML avec un point de terminaison en ligne.

Déploiement pour les codeurs et les non-codeurs

Azure Machine Learning prend en charge le déploiement de modèles sur des points de terminaison en ligne pour les codeurs et les non-codeurs, en fournissant des options pour les déploiements no-code, les déploiements low-code et les déploiements BYOC (Bring Your Own Container).

  • Le déploiement no-code fournit une inférence prête à l’emploi pour les frameworks courants (par exemple, scikit-learn, TensorFlow, PyTorch et ONNX) via MLflow et Triton.
  • Le déploiement low-code vous permet de fournir un minimum de code avec votre modèle ML pour le déploiement.
  • Le déploiement BYOC vous permet d’apporter virtuellement tous les conteneurs pour exécuter votre point de terminaison en ligne. Vous pouvez utiliser toutes les fonctionnalités de la plateforme Azure Machine Learning, telles que la mise à l’échelle automatique, GitOps, le débogage et le déploiement sécurisé pour gérer vos pipelines MLOps.

Le tableau suivant met en évidence les principaux aspects des options de déploiement en ligne :

Sans code Faible quantité de code BYOC
Résumé Utilise l’inférence prête à l’emploi des frameworks connus, tels que scikit-learn, TensorFlow, PyTorch et ONNX, via MLflow et Triton. Pour plus d’informations, consultez Déployer des modèles MLflow sur des points de terminaison en ligne. Utilise les images organisées sécurisées et publiées des frameworks connus, avec des mises à jour toutes les deux semaines pour corriger les vulnérabilités. Vous fournissez un script de scoring et/ou des dépendances Python. Pour plus d’informations, consultez Environnements organisés Azure Machine Learning. Vous fournissez votre pile complète via la prise en charge d’Azure Machine Learning des images personnalisées. Pour plus d’informations, consultez Utiliser un conteneur personnalisé pour déployer un modèle sur un point de terminaison en ligne.
Image de base personnalisée Non, l’environnement organisé fournit cela pour faciliter le déploiement. Oui et non, vous pouvez utiliser une image organisée ou votre image personnalisée. Oui, apportez un emplacement d’image conteneur accessible, par exemple, docker.io, Azure Container Registry (ACR) ou Microsoft Container Registry (MCR), ou un dockerfile que vous pouvez créer/pousser avec ACR pour votre conteneur.
Dépendances personnalisées Non, l’environnement organisé fournit cela pour faciliter le déploiement. Oui, apportez l’environnement Azure Machine Learning dans lequel le modèle s’exécute, soit une image Docker avec des dépendances Conda, soit un dockerfile. Oui, cela est compris dans l’image conteneur.
Code personnalisé Non, le script de scoring est généré automatiquement pour faciliter le déploiement. Oui, apportez votre script de scoring. Oui, cela est compris dans l’image conteneur.

Remarque

Les exécutions AutoML créent automatiquement un script de scoring et des dépendances pour les utilisateurs, ce qui vous permet de déployer un modèle AutoML sans créer de code supplémentaire (pour un déploiement no-code) ou de modifier les scripts générés automatiquement en fonction de vos besoins métier (pour un déploiement low-code). Pour savoir comment déployer avec des modèles AutoML, consultez Déployer un modèle AutoML avec un point de terminaison en ligne.

Débogage de points de terminaison en ligne

Azure Machine Learning offre différents moyens de déboguer des points de terminaison en ligne localement et à l’aide des journaux de conteneur.

Débogage local avec le serveur HTTP d’inférence Azure Machine Learning

Vous pouvez déboguer votre script de scoring localement à l’aide du serveur HTTP d’inférence Azure Machine Learning. Le serveur HTTP est un package Python qui expose votre fonction de scoring en tant que point de terminaison HTTP, et enveloppe le code et les dépendances du serveur Flask dans un même package. Il est inclus dans les images conteneur Docker prédéfinies pour l’inférence qui sont utilisées lors du déploiement d’un modèle avec Azure Machine Learning. En utilisant le package seul, vous pouvez déployer le modèle localement pour la production, et vous pouvez aussi valider facilement votre script de scoring (entrée) dans un environnement de développement local. En cas de problème avec le script de scoring, le serveur retourne une erreur et l’emplacement où l’erreur s’est produite. Vous pouvez également utiliser Visual Studio Code pour déboguer avec le serveur HTTP d’inférence Azure Machine Learning.

Pour en savoir plus sur le débogage avec le serveur HTTP, consultez Débogage du script de scoring avec le serveur HTTP d’inférence Azure Machine Learning.

Débogage local

Pour le débogage local, vous avez besoin d’un déploiement local, c’est-à-dire d’un modèle déployé dans un environnement Docker local. Vous pouvez utiliser ce déploiement local pour le test et le débogage avant le déploiement dans le cloud. Pour déployer localement, vous devez installer et exécuter Docker Engine. Azure Machine Learning crée ensuite une image Docker locale qui reproduit l’image Azure Machine Learning. Azure Machine Learning génère et exécute les déploiements pour vous localement et met l’image en cache pour des itérations rapides.

Les étapes d’un débogage local sont généralement les suivantes :

  • Vérifier si le déploiement local a réussi
  • Appeler le point de terminaison local pour l’inférence
  • Rechercher dans les journaux la sortie de l’opération d’appel

Pour en savoir plus sur le débogage local, consultez Déployer et déboguer localement à l’aide de points de terminaison locaux.

Débogage local avec Visual Studio Code (préversion)

Important

Cette fonctionnalité est actuellement disponible en préversion publique. Cette préversion est fournie sans contrat de niveau de service et n’est pas recommandée pour les charges de travail de production. Certaines fonctionnalités peuvent être limitées ou non prises en charge.

Pour plus d’informations, consultez Conditions d’Utilisation Supplémentaires relatives aux Évaluations Microsoft Azure.

Comme pour le débogage local, vous devez d’abord installer et exécuter Docker Engine, puis déployer un modèle dans l’environnement Docker local. Une fois que vous avez un déploiement local, les points de terminaison locaux Azure Machine Learning utilisent les conteneurs de développement Docker et Visual Studio Code (conteneurs de développement) pour créer et configurer un environnement de débogage local. Avec les conteneurs de développement, vous pouvez tirer parti des fonctionnalités de Visual Studio Code, telles que le débogage interactif, au sein d’un conteneur Docker.

Pour en savoir plus sur le débogage interactif de points de terminaison en ligne dans VS Code, consultez Déboguer des points de terminaison en ligne localement dans Visual Studio Code.

Débogage avec les journaux de conteneur

Pour un déploiement, vous ne pouvez pas accéder directement à la machine virtuelle sur laquelle le modèle est déployé. Toutefois, vous pouvez obtenir les journaux de certains des conteneurs qui s’exécutent sur la machine virtuelle. Il existe deux types de conteneurs à partir lesquels vous pouvez obtenir les journaux :

  • Serveur d’inférence : Les journaux incluent le journal de console (à partir du serveur d’inférence) qui contient la sortie des fonctions d’affichage/de journalisation de votre script de scoring (code score.py).
  • Initialiseur de stockage : Les journaux contiennent des informations indiquant si le code et les données de modèle ont été correctement téléchargés dans le conteneur. Le conteneur s’exécute avant que le conteneur du serveur d’inférence ne commence à s’exécuter.

Pour en savoir plus sur le débogage avec les journaux de conteneur, consultez Obtenir les journaux de conteneur.

Routage et mise en miroir du trafic vers les déploiements en ligne

Rappelez-vous qu’un seul point de terminaison en ligne peut avoir plusieurs déploiements. À mesure que le point de terminaison reçoit le trafic entrant (ou les requêtes), il peut router des pourcentages de trafic vers chaque déploiement, comme utilisé dans la stratégie de déploiement bleu/vert natif. Il peut aussi mettre en miroir (ou copier) le trafic d’un déploiement vers un autre, également appelé mise en miroir ou mise en mémoire fantôme du trafic.

Routage du trafic pour le déploiement bleu/vert

Le déploiement bleu/vert est une stratégie de déploiement qui vous permet de déployer un nouveau déploiement (le déploiement vert) sur un petit sous-ensemble d’utilisateurs ou de requêtes avant de le déployer complètement. Le point de terminaison peut implémenter un équilibrage de charge pour allouer certains pourcentages du trafic à chaque déploiement, avec une allocation totale entre tous les déploiements qui atteint 100 %.

Conseil

Une requête peut contourner l’équilibrage de charge du trafic configuré en incluant un en-tête HTTP de azureml-model-deployment. Définissez la valeur d’en-tête sur le nom du déploiement auquel vous souhaitez que la requête soit acheminée.

L’image suivante montre les paramètres dans Azure Machine Learning studio pour l’allocation du trafic entre un déploiement bleu et vert.

Screenshot showing slider interface to set traffic allocation between deployments.

Cette allocation de trafic route le trafic, comme illustré dans l’image suivante, avec 10 % du trafic vers le déploiement vert et 90 % du trafic vers le déploiement bleu.

Diagram showing an endpoint splitting traffic to two deployments.

Mise en miroir du trafic vers les déploiements en ligne

Le point de terminaison peut également mettre en miroir (ou copier) le trafic d’un déploiement vers un autre. La mise en miroir du trafic (également appelée test fantôme) est utile lorsque vous souhaitez tester un nouveau déploiement avec le trafic de production sans affecter les résultats que les clients reçoivent des déploiements existants. Par exemple, lors de l’implémentation d’un déploiement bleu/vert où 100 % du trafic est routé vers le déploiement bleu et 10 % est mis en miroir vers le déploiement vert, les résultats du trafic mis en miroir vers le déploiement vert ne sont pas retournés aux clients, mais les métriques et les journaux sont enregistrés.

Diagram showing an endpoint mirroring traffic to a deployment.

Pour savoir comment utiliser la mise en miroir du trafic, consultez Déploiement sécurisé pour les points de terminaison en ligne.

Autres fonctionnalités des points de terminaison en ligne dans Azure Machine Learning

Authentification et chiffrement

  • Authentification : clés et jetons Azure Machine Learning
  • Identité managée : affectée par l’utilisateur et par le système
  • SSL par défaut pour l’appel de point de terminaison

Mise à l’échelle automatique

La mise à l’échelle automatique exécute automatiquement la quantité appropriée de ressources pour gérer la charge sur votre application. Les points de terminaison gérés prennent en charge la mise à l’échelle automatique via l’intégration à la fonctionnalité de mise à l’échelle automatique d’Azure Monitor. Vous pouvez configurer la mise à l’échelle basée sur les métriques (par exemple utilisation du processeur > 70 %), la mise à l’échelle basée sur la planification (par exemple les règles de mise à l’échelle pour les heures de pointe) ou une combinaison des deux.

Screenshot showing that autoscale flexibly provides between min and max instances, depending on rules.

Pour savoir comment configurer la mise à l’échelle automatique, consultez Guide pratique pour mettre à l’échelle automatiquement des points de terminaison en ligne.

Isolation de réseau gérée

Quand vous déployez un modèle ML sur un point de terminaison en ligne managé, vous pouvez sécuriser les communications avec ce point de terminaison en ligne au moyen de points de terminaison privés.

Vous pouvez configurer la sécurité pour les demandes de scoring entrantes et les communications sortantes avec l’espace de travail et d’autres services séparément. Les communications entrantes utilisent le point de terminaison privé de l’espace de travail Azure Machine Learning. Les communications sortantes utilisent des points de terminaison privés créés pour le réseau virtuel managé de l’espace de travail.

Pour plus d’informations, consultez Isolement réseau avec des points de terminaison en ligne managés.

Surveillance des déploiements et des points de terminaison en ligne

La surveillance des points de terminaison Azure Machine Learning est possible via l’intégration d’Azure Monitor. Cette intégration vous permet d’afficher les métriques dans des graphiques, de configurer des alertes, d’interroger à partir de tables de journal, d’utiliser Application Insights pour analyser les événements des conteneurs utilisateur, etc.

  • Métriques : Utilisez Azure Monitor pour suivre diverses métriques de point de terminaison, telles que la latence des requêtes, et pour explorer jusqu’au niveau du déploiement ou de l’état. Vous pouvez également suivre les métriques au niveau du déploiement, telles que l’utilisation du CPU/GPU, et descendre jusqu’au niveau de l’instance. Azure Monitor vous permet de suivre ces métriques dans des graphiques et de configurer des tableaux de bord et des alertes pour une analyse plus approfondie.

  • Journaux : Envoyez des métriques à l’espace de travail Log Analytics, où vous pouvez interroger les journaux à l’aide de la syntaxe de requête Kusto. Vous pouvez également envoyer des métriques au compte de stockage et/ou à Event Hubs pour un traitement plus approfondi. Vous pouvez aussi utiliser des tables de journal dédiées pour les événements liés aux points de terminaison en ligne, le trafic et les journaux de conteneur. Une requête Kusto permet une analyse complexe qui joint plusieurs tables.

  • Application Insights : Les environnements organisés incluent l’intégration d’Application Insights, que vous pouvez activer/désactiver lorsque vous créez un déploiement en ligne. Les métriques et journaux intégrés sont envoyés à Application Insights, dont vous pouvez utiliser les fonctionnalités intégrées, telles que Métriques en direct, Recherche de transactions, Échecs et Performances, pour une analyse plus approfondie.

Pour plus d’informations sur la surveillance, consultez Surveiller les points de terminaison en ligne.

Injection de secrets dans les déploiements en ligne (préversion)

L’injection de secrets dans le contexte d’un déploiement en ligne est un processus de récupération de secrets (tels que des clés API) à partir de magasins de secrets et leur injection dans votre conteneur utilisateur qui s’exécute dans un déploiement en ligne. Les secrets seront ensuite accessibles par le biais de variables d’environnement, ce qui leur permet d’être consommés par le serveur d’inférence qui exécute votre script de scoring ou par la pile d’inférence que vous apportez avec une approche de déploiement BYOC (apportez votre propre conteneur).

Il existe deux manières d’injecter des secrets. Vous pouvez injecter des secrets vous-même, à l’aide d’identités managées ou utiliser la fonctionnalité d’injection de secrets. Pour en savoir plus sur les façons d’injecter des secrets, consultez Injection de secrets dans les points de terminaison en ligne (préversion).

Étapes suivantes