Notes
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
L’ingénierie de fiabilité du site (SRE) se concentre sur la création de systèmes fiables et évolutifs par le biais de l’automatisation et de la gestion proactive. Azure SRE Agent apporte ces principes à vos applications hébergées Azure en fournissant un outil basé sur l’IA qui permet de soutenir les environnements cloud de production. L’agent SRE vous aide à répondre rapidement et efficacement aux incidents, ce qui permet de réduire le problème de gestion manuelle des environnements de production. L’agent utilise les capacités de raisonnement des modèles de langage volumineux (LLMs) pour identifier les logs et les métriques nécessaires à une analyse rapide de la cause première et à l’atténuation des problèmes. Azure SRE Agent vous offre une meilleure durée de fonctionnement du service et réduit les coûts opérationnels.
Les agents ont accès à chaque ressource dans les groupes de ressources associés à l’agent. Par conséquent, les agents :
Évaluer en continu l’activité des ressources et surveiller les ressources actives
Envoyer des notifications proactives sur des applications non saines ou instables
Azure SRE Agent s’intègre également aux alertes Azure Monitor et PagerDuty pour prendre en charge les solutions de notification avancées.
Remarque
La fonctionnalité agent SRE est en préversion publique. Pour vous inscrire à la liste d’attente, renseignez l’application agent SRE.
En utilisant un agent SRE, vous consentez aux conditions d’utilisation supplémentaires spécifiques au produit pour les préversions Microsoft Azure.
Fonctionnalités clés
Azure SRE Agent offre plusieurs fonctionnalités clés qui améliorent la fiabilité et les performances de vos ressources Azure :
Thread d’accueil : lorsque vous créez votre agent pour la première fois, un nouveau thread est créé, qui fournit une analyse initiale de vos services. L’analyse de l’environnement crée un instantané de toutes les ressources gérées par l’agent. En outre, l’agent génère une liste d’applications trouvées dans les groupes de ressources managés.
Fils quotidiens : chaque jour, l’agent crée un rapport sur les ressources qui résume la situation et le statut des services dans vos groupes de ressources gérés.
Outils : interrogation et prise en charge des opérations via Azure CLI et Kubectl.
Sources de données : accès aux API Azure Resource Manager et aux sources de données de métriques Azure Monitor.
Gestion des incidents : diagnostiquer les incidents en discutant directement avec l’agent ou en connectant une plateforme de gestion des incidents à l’agent. Répondez automatiquement aux alertes Azure Monitor ou aux incidents PagerDuty avec l’analyse initiale.
Surveillance proactive : surveillance continue des ressources 24 heures sur 24, 7 jours sur 7 avec des alertes en temps réel pour les problèmes potentiels.
Atténuation automatisée : Détection et atténuation automatiques des problèmes courants, réduction des temps d’arrêt et amélioration de l’intégrité des ressources. Bien que les agents tentent de travailler en votre nom, toutes les automatisations nécessitent votre approbation.
Bonnes pratiques en matière d’infrastructure : Identifiez et corrigez les ressources qui ne suivent pas les meilleures pratiques de sécurité et aidez les mises à jour.
Accélère l’analyse de la cause racine : Diagnostiquer les causes racines des problèmes d’application en analysant les métriques et les journaux et en suggérer des atténuations.
Visualisation des ressources : vues complètes de vos dépendances de ressources et état de santé.
Support d'atténuation : L’agent SRE peut réparer la configuration des applications et les services dépendants. Pour les problèmes de code, l’agent fournit des traces de pile et peut créer un problème GitHub pour aider à résoudre les problèmes. Les éléments suivants décrivent les fonctionnalités spécifiques au service de l’agent :
Azure App Service : restaurer le déploiement, effectuer un scale-up/down des ressources, redémarrer l’application.
Azure Container Apps : restaurer le déploiement, ajuster les ressources à la hausse/à la baisse et redémarrer l’application.
Azure Kubernetes Service : Redémarrez les pods/déploiements, restaurez les déploiements vers les révisions précédentes, augmentez/diminuez les ressources et corrigez les définitions de ressources.
Rapports
Un agent SRE fonctionne pour surveiller et gérer de manière proactive vos services Azure. Chaque jour, votre agent crée des rapports de ressources quotidiens qui fournissent des informations sur l’intégrité et l’état de vos applications.
Les rapports incluent :
Résumé de l’incident : Génère des informations sur les incidents déclenchés par l’agent SRE le jour précédent. Les catégories sont les suivantes : actives, atténuées ou résolues.
Performances et intégrité du groupe d’applications : Métriques clés pour chaque groupe d’applications afin d’évaluer la stabilité et les performances du système. Les métriques incluent la disponibilité, l’utilisation du processeur et l’utilisation de la mémoire.
Résumé de l’action : Résumés des détails importants et des insights pertinents pour l’intégrité et la maintenance de vos ressources Azure.
Scénarios
Scénario | Cause potentielle | Réduction des effets de l'agent |
---|---|---|
Application en panne | ▪ Problèmes de code d’application : des bogues ou des erreurs dans le code de l’application peuvent entraîner des blocages ou une absence de réponse. ▪ Déploiement incorrect : des configurations incorrectes ou des déploiements ayant échoué peuvent entraîner la panne de l’application. ▪ Problèmes élevés de processeur/mémoire/thread : l’épuisement des ressources en raison d’une utilisation élevée du processeur, de la mémoire ou du thread peut affecter les performances de l’application. |
L’agent SRE peut détecter ces problèmes et fournir des insights ou des correctifs actionnables. Par exemple, il peut identifier une diminution de la disponibilité de l’application web qui coïncide avec un échange d’emplacement récent et suggère de revenir en arrière en échangeant les emplacements comme première étape des mesures d’atténuation. |
Échecs d’extraction d’images conteneur | ▪ Disponibilité de l’image : l’image demandée n’est peut-être pas disponible ou est manquante. ▪ Connectivité réseau : les problèmes réseau peuvent perturber la connexion à l’application conteneur. ▪ Problèmes de connectivité du Registre : les problèmes de connexion au registre de conteneurs peuvent empêcher les extractions d’images. |
L’agent SRE peut détecter les échecs de récupération d’images de conteneur et fournir des diagnostics détaillés. Il peut recommander des solutions telles que la restauration vers la dernière révision saine connue et la mise à jour de la référence d’image. |
Un agent peut fournir des informations détaillées sur différents aspects de vos applications et ressources. Les exemples suivants illustrent les types de questions que vous pouvez poser à votre agent :
- Qu’est-ce que tu peux m’aider ?
- Pourquoi mon application ne fonctionne-t-elle pas ?
- Quels sont les services auxquels ma ressource est connectée ?
- Pouvez-vous fournir les meilleures pratiques pour ma ressource ?
- Quelle est l’utilisation du processeur et de la mémoire de mon application ?
En outre, voici quelques invites que vous pouvez utiliser pour vous aider à interagir avec votre agent :
- Quelles applications dapr sont activées ?
- Répertorier les répliques pour mon application de conteneur
- Quelles applications ont la journalisation des diagnostics activée ?
- Donnez-moi une carte thermique individuelle pour chaque compte de stockage.
- Quelle révision de mon application conteneur est actuellement active ?
- Quelles sont les meilleures pratiques que mon application doit suivre ?
- Quelle est la configuration d’entrée pour mon application conteneur ?
- Existe-t-il des emplacements de mise en scène configurés pour cette application web ?
- Quelles images conteneur sont utilisées par chacune de mes applications conteneur ?
- Répertoriez tous les groupes de ressources que vous gérez dans tous les abonnements.
- Dessinez la carte thermique des latences de stockage au cours des 14 derniers jours pour les comptes de stockage.
- Affichez-moi une visualisation des temps de réponse pour Container Apps pour la semaine dernière.
- Répertorier [Container Apps/Web Apps/etc.] que vous gérez sur tous les abonnements.
- Visualisez la répartition des Container Apps, Web Apps et des clusters AKS gérés sur tous les abonnements sous la forme d'un graphique circulaire.
Services pris en charge
Bien qu’Azure SRE Agent puisse vous aider à gérer et à signaler tous les services Azure, l’agent propose des outils spécialisés pour gérer les services suivants :
- Gestion des API Azure
- Azure App Service
- Cache Azure pour Redis
- Azure Container Apps (Applications de Conteneur Azure)
- Base de données Azure Cosmos DB
- Base de données Azure pour PostgreSQL
- Les fonctions Azure
- Azure Kubernetes Service
- Azure SQL
- Azure Storage
- Machines virtuelles Azure
Pour obtenir la dernière liste des services avec des outils d’agent personnalisés, vous pouvez envoyer l’invite suivante à l’agent :
Which Azure services do you have specialized tooling available for?
Identification des groupes de ressources
Lorsque vous créez un agent, le sélecteur de groupes de ressources indique les groupes qui ont des instances de services avec des outils spécialisés. Dans le sélecteur de groupes de ressources, vous verrez une coche ( ) en regard du nom du groupe indiquant que le groupe inclut des services avec une prise en charge spécialisée.
Accès en préversion
L’accès à un agent SRE n’est disponible qu’en préversion. Pour vous inscrire pour avoir accès, renseignez le formulaire de candidature agent SRE.