Partager via


Mémoire et connaissances dans l’agent Azure SRE

Votre agent devient plus efficace au fil du temps en mémorisant ce qui a fonctionné dans les incidents passés et en référençant votre documentation.

Diagramme montrant searchMemory interrogeant trois sources : les incidents passés, les souvenirs utilisateur et les documents pour fournir des réponses ancrées avec des citations.

Fonctionnement de la mémoire

Lorsque vous posez une question, votre agent recherche simultanément toutes les sources de connaissances.

Origine Ce qu’il trouve Idéal pour
Incidents passés Étapes qui ont résolu des problèmes similaires « Comment avons-nous résolu cela avant ? »
Mémoires utilisateur Faits que vous enregistrez explicitement « Rappelez-vous que mon environnement utilise... »
Base de connaissances Vos runbooks et documents téléchargés « Suivez notre procédure standard »

L’agent retourne une réponse fondée avec des citations cliquables qui montrent exactement où les informations proviennent.

Apprentissage automatique

Votre agent apprend de chaque conversation. Aucune formation manuelle n’est requise.

Diagramme montrant l’agent qui extrait automatiquement les apprentissages après chaque session : symptômes, étapes de résolution, cause racine et pièges à éviter.

Une fois chaque thread terminé, l’agent capture les informations suivantes.

Quoi Description
Symptômes observés Messages d’erreur, comportements, modèles
Étapes qui ont fonctionné Chemin de résolution qui a réussi
Cause racine Ce qui a provoqué le problème
Pièges à éviter Ce qui ne fonctionnait pas, les impasses.

Ce processus se produit automatiquement. Trente minutes après le silence d’un thread, l’agent évalue la conversation et indexe les apprentissages.

Priorité de la même ressource

Lors de l’examen d’un problème de ressource, l’agent hiérarchise les sessions passées sur la même ressource.

"App Service app-prod-01 is returning 503 errors"

Votre agent vérifie d’abord s’il a rencontré des problèmes sur app-prod-01 auparavant. Si oui, ces apprentissages apparaissent d’abord parce qu’ils ont la plus grande pertinence.

Persistance proactive des connaissances

Au-delà de l’apprentissage des threads terminés, votre agent enregistre activement ce qu’il découvre pendant les conversations. Lorsque votre agent rencontre quelque chose d’important (une configuration délicate, une dépendance non évidente ou un piège lors du débogage), il enregistre l’information dans des fichiers de connaissances persistants qui se conservent à travers les sessions.

Fonctionnement

Votre agent conserve un répertoire de connaissances à l’adresse memories/synthesizedKnowledge/. L’agent charge automatiquement un fichier spécial, overview.md, dans l’invite système au début de chaque conversation. Cette approche permet à votre agent d’accéder immédiatement au contexte le plus important de votre environnement.

Composant Qu’est-ce que cela fait ?
overview.md Résumé et index du service. Toujours chargé dans le contexte (budget d’environ 2 000 caractères).
Fichiers de rubriques Notes détaillées sur des sujets spécifiques (par exemple, aks-networking-gotchas.md).
Liens de la vue d’ensemble overview.md liens vers des fichiers de rubriques afin que votre agent sache quelles connaissances détaillées existent.

Ce que votre agent sauvegarde

Votre agent enregistre de manière proactive les insights pendant les conversations.

Catégorie Exemples
Contraintes de problème « Ce service ne peut pas évoluer au-delà de 10 réplicas en raison des limites de quota »
Stratégies qui ont fonctionné « Le redémarrage du pod avec --grace-period=0 a résolu le déploiement bloqué »
Stratégies ayant échoué « L’augmentation de la limite de mémoire n’a pas aidé. Le problème était la réduction de la vitesse du processeur.
Dépendances non évidentes « app-frontend dépend d'un proxy sidecar qui doit être lancé en premier »
Détails de configuration « La production utilise des certificats TLS personnalisés stockés dans Key Vault »

Organisation des connaissances

Votre agent organise la sémantique des connaissances par rubrique, et non par ordre chronologique. Chaque fichier est une référence autonome.

Fichier Ce qu’il capture
overview.md Résumé du service, liens clés, index des fichiers de rubriques (environ 2 000 caractères)
team.md Membres de l’équipe, rôles, expertise (environ 500 caractères)
architecture.md Composants, connexions, environnements (environ 1 500 caractères)
logs.md Sources de journal, tables, champs clés, requêtes utiles (~1 500 caractères)
deployment.md Détails du pipeline, recherche de version, procédures de restauration (environ 1 000 caractères)
auth.md Mécanismes d’authentification, flux d’identité (~800 caractères)
debugging.md Problèmes courants, guides de résolution des problèmes, liens de runbook (~1 000 caractères)
queries/*.md Requêtes extraites organisées par rubrique (environ 1 000 caractères chacun)

Lors de la mise à jour des connaissances existantes, votre agent lit le fichier actuel, fusionne de nouvelles informations et supprime tout ce qui devient obsolète ou incorrect.

Conseil / Astuce

Vous pouvez demander à votre agent d’enregistrer aussi du savoir

Au-delà de la persistance automatique, vous pouvez demander explicitement à votre agent d’enregistrer des informations dans ses fichiers de connaissances :

Save this to your knowledge: our Redis cache uses Premium tier with 6GB,
and failover takes about 90 seconds.

Votre agent crée ou met à jour le fichier de connaissances approprié et le lie à partir de overview.md.

Cette approche est différente des #remember commandes (décrites dans la section suivante), qui enregistrent des faits discrets dans un magasin de mémoire distinct. Les fichiers de connaissances sont des références structurées et persistantes que votre agent consulte au début de chaque conversation. Les souvenirs utilisateur sont des faits individuels pouvant faire l’objet d’une recherche via #retrieve.

Mémoires utilisateur

Au-delà de ce que votre agent apprend et conserve automatiquement, vous pouvez enregistrer explicitement des faits discrets pour que votre agent se souvienne. Les mémoires utilisateur sont idéales pour les détails spécifiques à l’environnement qui peuvent ne pas apparaître dans les incidents, mais qui sont importants pour le contexte.

Le tableau suivant décrit les bons candidats aux souvenirs utilisateur.

Catégorie Exemples
Faits relatifs à l’environnement « La production utilise trois clusters AKS dans la région USA Ouest 2 »
Préférences d’équipe « Nous préférons l’interface CLI sur le portail pour les déploiements »
Détails de l’architecture « app-service-01 dépend de sql-prod »
Chemins d’escalade « PagerDuty, puis canal Teams, puis téléphone »

Commandes mémoire

Gérez les souvenirs des utilisateurs à l’aide de ces commandes de conversation.

Commande Qu’est-ce que cela fait ? Exemple
#remember Enregistrer un fait pour une référence future #remember our Redis cache uses Premium tier
#retrieve Rechercher vos souvenirs enregistrés #retrieve what's our caching setup?
#forget Supprimer une mémoire enregistrée #forget the outdated Redis info

L’exemple suivant montre un flux de travail de mémoire classique.

Enregistrez le contexte important :

#remember Production uses 3 AKS clusters in West US 2
#remember Our escalation path: PagerDuty, then Teams channel, then phone
#remember Database failover takes approximately 15 minutes

Récupérer ultérieurement :

#retrieve how long does database failover take?

L’agent répond en fonction de la mémoire enregistrée : « Le basculement de la base de données prend environ 15 minutes ».

Base de connaissances

Chargez votre documentation et connectez des sources externes pour donner à votre agent une bibliothèque de référence plus large.

Diagramme montrant les connaissances provenant de documents chargés et de connecteurs MCP, toutes pouvant faire l’objet d’une recherche.

Chargement de documents

Accédez à la base de connaissances Builder > pour charger votre documentation.

Type de document Bon pour
Runbooks Procédures d’incident pas à pas
Guides d’architecture Présentation de votre environnement
Playbooks à la demande Procédures d’escalade et de réponse
Documentation sur l’API Connaissances spécifiques au service
Procédures d’équipe Documents de flux de travail et de processus

Formats pris en charge : Markdown (.md), Texte brut (.txt). La taille maximale du fichier est de 16 Mo.

Connectez des sources externes

Accédez directement aux connaissances à partir de systèmes externes à l’aide de connecteurs.

Connecteur Ce qu’il fournit
Azure DevOps Consulter vos pages wiki ADO
GitHub Référentiels de recherche, wikis, problèmes
Microsoft Learn Documentation Microsoft officielle
MCP personnalisé Toute source de connaissances que vous configurez

Configurez les connecteurs dans Paramètres > Connecteurs. Pour plus d’informations, consultez Connecteurs.

Utiliser les connaissances dans les conversations

Votre agent recherche automatiquement des informations lorsque cela est pertinent pour la question.

How should I handle a database failover?

Si vous chargez un runbook, l’agent fournit une réponse fondée :

En fonction de votre runbook de base de données(lien de citation), voici les étapes de basculement :

  1. Vérifiez l’intégrité du réplica secondaire...

Sélectionnez les liens de citation pour afficher le document source complet.

Aperçus de session

Après chaque fil (une conversation synchrone ou une tâche déclenchée automatiquement), votre agent génère un aperçu de session. Les insights de session sont la façon dont votre agent devient plus intelligent au fil du temps.

Ce qui est capturé

Chaque aperçu de session extrait des apprentissages structurés qui deviennent une mémoire pouvant faire l’objet d’une recherche.

Composant Ce qu’il capture Exemple
Symptômes observés Modèles d’erreur, comportements « Erreurs HTTP 503, mémoire à 95%»
Étapes de résolution Ce qui a fonctionné « Amélioration de la gamme SKU App Service »
Cause racine Pourquoi il s’est passé « Fuite de mémoire dans le déploiement v2.3 »
Pièges à éviter Ce qui ne fonctionnait pas « Le redémarrage n’a pas aidé »

Quand des analyses sont générées

Le tableau suivant décrit quand les analyses de session sont générées.

Type de thread Quand Auto ou manuel
Synchroniser la conversation 30 minutes après le dernier message Automatique
Tâches asynchrones 30 minutes après l’achèvement Automatique
commentaires des utilisateurs Lorsque vous évaluez une réponse Vous le déclenchez

Afficher les aperçus de session

Accédez à Moniteur > Aperçus de session pour voir :

  • Chronologie des actions de l’agent
  • Scores d’évaluation
  • Apprentissages clés extraits
  • Liens de thread source : chaque carte d'information renvoie aux threads qui l’ont générée, afin que vous puissiez suivre n’importe quel aperçu jusqu'à sa conversation d’origine.

Pour obtenir des métriques et une gestion détaillées, consultez Surveiller l’utilisation de l’agent.

Bonnes pratiques

Suivez ces recommandations pour tirer le meilleur parti des capacités de mémoire et de connaissances de votre agent.

Choisissez les éléments à charger et à connecter

Upload Se connecter via le connecteur
Runbooks d’incident Pages wiki en direct (ADO, GitHub)
Diagrammes d’architecture Référentiels de code source
Procédures d’escalade Données de surveillance en temps réel
Documentation sur l’API statique Documentation fréquemment mise à jour

Maintenir les connaissances actuelles

Les documents obsolètes provoquent des réponses incorrectes. Passez en revue votre base de connaissances trimestrielle. Pour voir quels documents votre agent dispose actuellement, demandez :

What knowledge documents do you have?

Supprimez les documents obsolètes dans la base de connaissances Builder>.

Nommer clairement les documents

Utilisez des noms de fichiers descriptifs pour aider votre agent et votre équipe à trouver rapidement la documentation appropriée.

N’utilisez pas Utiliser à la place
doc1.txt production-database-failover.md
runbook.md aks-cluster-scaling-runbook.md
notes.txt escalation-procedures-2026.txt

Étape suivante

  • Connecteurs : connectez des sources de connaissances externes à votre agent.
  • Sous-agents : créez des agents spécialisés avec des fonctionnalités prioritaires.