Udostępnij za pośrednictwem


Pamięć i wiedza w agencie Azure SRE

Agent staje się bardziej skuteczny w miarę upływu czasu, pamiętając, co działało w poprzednich incydentach i odwołuje się do dokumentacji.

Diagram przedstawiający zapytanie SearchMemory dotyczące trzech źródeł: wcześniejsze zdarzenia, wspomnienia użytkowników i dokumenty w celu zapewnienia uziemionych odpowiedzi z cytatami.

Jak działa pamięć

Podczas zadawania pytania agent wyszukuje wszystkie źródła wiedzy jednocześnie.

Źródło Co znajdzie Najlepsze dla
Poprzednie incydenty Kroki, które rozwiązały podobne problemy "Jak rozwiązaliśmy ten problem wcześniej?"
Wspomnienia użytkowników Fakty, które jawnie zapisujesz "Pamiętaj, że moje środowisko używa..."
Baza wiedzy Przesłane runbooki i dokumenty "Postępuj zgodnie z naszą standardową procedurą"

Agent zwraca uzasadnioną na odpowiedź z klikalnymi cytatami, które pokazują dokładnie, skąd pochodzą informacje.

Uczenie automatyczne

Agent uczy się z każdej konwersacji. Nie jest wymagane szkolenie ręczne.

Diagram przedstawiający agenta automatycznie wyodrębniającego wnioski po każdej sesji: objawy, kroki rozwiązywania, główną przyczynę i pułapki, aby uniknąć.

Po zakończeniu każdego wątku agent przechwytuje następujące informacje.

What Opis
Obserwowane objawy Komunikaty o błędach, zachowania, wzorce
Kroki, które zadziałały Ścieżka rozwiązania, która zakończyła się pomyślnie
Główna przyczyna Co spowodowało problem
Pułapki, których należy unikać Co nie zadziałało, martwe końce

Ten proces odbywa się automatycznie. Trzydzieści minut po tym, jak wątek ucichnie, agent ocenia konwersację i indeksuje wnioski.

Priorytet tego samego zasobu

Podczas badania problemu z zasobem agent ustala priorytety poprzednich sesji na dokładnie tym samym zasobie.

"App Service app-prod-01 is returning 503 errors"

Twój agent najpierw sprawdza, czy wcześniej widział problemy na app-prod-01. Jeśli tak, te wnioski pojawiają się jako pierwsze, ponieważ mają najwyższe znaczenie.

Proaktywna trwałość wiedzy

Poza nauką z ukończonych wątków agent aktywnie zapisuje to, co odnajduje podczas konwersacji. Gdy agent napotka coś ważnego (trudną konfigurację, nieoczywistą zależność lub pułapkę przy debugowaniu), rejestruje tę informację w trwałych plikach wiedzy, które są zachowywane pomiędzy sesjami.

Jak to działa

Agent przechowuje katalog wiedzy pod adresem memories/synthesizedKnowledge/. Agent automatycznie ładuje do monitu systemowego specjalny plikoverview.md na początku każdej rozmowy. Takie podejście zapewnia agentowi natychmiastowy dostęp do najważniejszego kontekstu środowiska.

Składnik Do czego służy
overview.md Podsumowanie i indeks usługi. Zawsze ładowane w kontekście (budżet około 2000 znaków).
Pliki tematów Szczegółowe uwagi dotyczące konkretnych tematów (na przykład aks-networking-gotchas.md).
Linki z przeglądu overview.md linki do plików tematów, dzięki czemu agent wie, jaka szczegółowa wiedza istnieje.

Co zapisuje agent

Agent aktywnie rejestruje szczegółowe informacje podczas konwersacji.

Kategoria Examples
Ograniczenia problemu Ta usługa nie może skalować się powyżej 10 replik ze względu na ograniczenia przydziału.
Strategie, które działały Ponowne uruchomienie zasobnika przy użyciu --grace-period=0 rozwiązało problem z zablokowanym wdrożeniem.
Strategie, które zakończyły się niepowodzeniem "Zwiększenie limitu pamięci nie pomogło. Problem dotyczył ograniczenia procesora.
Nieoczywiste zależności "app-frontend zależy od sidecar proxy, który musi się najpierw uruchomić"
Szczegóły konfiguracji "Produkcja używa niestandardowych certyfikatów TLS przechowywanych w usłudze Key Vault"

Organizacja wiedzy

Agent organizuje wiedzę semantycznie według tematu, a nie chronologicznie. Każdy plik jest samodzielną referencją.

Plik Co przechwytuje
overview.md Podsumowanie usługi, linki klucza, indeks plików tematu (~2000 znaków)
team.md Członkowie zespołu, role, wiedza (~500 znaków)
architecture.md Składniki, połączenia, środowiska (~1500 znaków)
logs.md Źródła dzienników, tabele, pola klucza, przydatne zapytania (ok. 1500 znaków)
deployment.md Szczegóły pierwszeetapu, wyszukiwanie wersji, procedury wycofywania (~1 000 znaków)
auth.md Mechanizmy uwierzytelniania, procesy tożsamościowe (~800 znaków)
debugging.md Typowe problemy, przewodniki rozwiązywania problemów, linki do Runbooków (ok. 1000 znaków)
queries/*.md Wyodrębnione zapytania zorganizowane według tematu (każdy z nich wynosi ok. 1000 znaków)

Podczas aktualizowania istniejącej wiedzy agent odczytuje bieżący plik, scala nowe informacje i usuwa wszystkie elementy, które stają się nieaktualne lub nieprawidłowe.

Wskazówka

Możesz poprosić agenta o zapisanie wiedzy

Poza automatyczną trwałością możesz jawnie poprosić agenta o zapisanie informacji w swoich bazach wiedzy.

Save this to your knowledge: our Redis cache uses Premium tier with 6GB,
and failover takes about 90 seconds.

Agent tworzy lub aktualizuje odpowiedni plik wiedzy i łączy go z pliku overview.md.

Takie podejście różni się od #remember poleceń (opisanych w następnej sekcji), które zapisują dyskretne fakty w oddzielnym magazynie pamięci. Pliki wiedzy to ustrukturyzowane, trwałe odniesienia, które agent wykorzystuje na początku każdej rozmowy. Wspomnienia użytkownika to pojedyncze fakty, które można przeszukiwać za pośrednictwem elementu #retrieve.

Wspomnienia użytkowników

Poza tym, co agent uczy się i utrzymuje automatycznie, możesz jawnie zapisać dyskretne fakty, które agent ma zapamiętać. Wspomnienia użytkowników są idealne dla szczegółów specyficznych dla środowiska, które mogą nie występować w zdarzeniach, ale są ważne w kontekście.

W poniższej tabeli opisano dobrych kandydatów do pamięci użytkownika.

Kategoria Examples
Fakty dotyczące środowiska Produkcja używa trzech klastrów usługi AKS w regionie Zachodnio USA 2
Preferencje zespołu Preferujemy interfejs wiersza poleceń zamiast portalu dla wdrożeń
Szczegóły architektury "app-service-01 zależy od sql-prod"
Ścieżki eskalacji "PagerDuty, a następnie kanał usługi Teams, a następnie telefon"

Polecenia pamięci

Zarządzanie pamięciami użytkowników przy użyciu tych poleceń czatu.

Polecenie Do czego służy Przykład
#remember Zapisz informację do przyszłego wykorzystania #remember our Redis cache uses Premium tier
#retrieve Wyszukiwanie zapisanych wspomnień #retrieve what's our caching setup?
#forget Usuwanie zapisanej pamięci #forget the outdated Redis info

W poniższym przykładzie przedstawiono typowy przepływ pracy pamięci.

Zapisz ważny kontekst:

#remember Production uses 3 AKS clusters in West US 2
#remember Our escalation path: PagerDuty, then Teams channel, then phone
#remember Database failover takes approximately 15 minutes

Pobierz później:

#retrieve how long does database failover take?

Agent odpowiada na podstawie zapisanej pamięci: "Przejście bazy danych w tryb failover trwa około 15 minut".

Baza wiedzy

Przekaż dokumentację i połącz źródła zewnętrzne, aby udostępnić agentowi szerszą bibliotekę referencyjną.

Diagram przedstawiający wiedzę pochodzącą z przekazanych dokumentów i łączników MCP, które można wyszukiwać razem.

Przekaż dokumenty

Przejdź do bazy wiedzy Builder >, aby przesłać dokumentację.

Rodzaj dokumentu Dobre dla
Runbooki Procedury incydentów krok po kroku
Przewodniki dotyczące architektury Informacje o środowisku
Podręczniki dla dyżurujących Procedury eskalacji i reagowania
Dokumentacja interfejsu API Wiedza specyficzna dla usługi
Procedury zespołu Dokumentacja przepływu pracy i przetwarzania

Obsługiwane formaty: Markdown (.md), zwykły tekst (.txt). Maksymalny rozmiar pliku to 16 MB.

Łączenie źródeł zewnętrznych

Uzyskiwanie dostępu do wiedzy bezpośrednio z systemów zewnętrznych przy użyciu łączników.

Connector Co zapewnia
Azure DevOps Wykonywanie zapytań względem stron typu wiki ADO
GitHub Repozytoria wyszukiwania, witryny typu wiki, problemy
Microsoft Learn Oficjalna dokumentacja firmy Microsoft
Niestandardowa umowa MCP Dowolne skonfigurowane źródło wiedzy

Konfigurowanie łączników w łącznikach ustawień>. Aby uzyskać więcej informacji, zobacz Łączniki.

Używanie wiedzy w konwersacjach

Agent automatycznie wyszukuje wiedzę, gdy jest to istotne dla pytania.

How should I handle a database failover?

Jeśli prześlesz runbook, agent odpowie dobrze uzasadnioną odpowiedzią.

Na podstawie elementu Runbook bazy danych(link cytatu)poniżej przedstawiono kroki pracy w trybie failover:

  1. Sprawdź kondycję repliki pomocniczej...

Wybierz linki do cytatów, aby wyświetlić pełny dokument źródłowy.

Szczegółowe informacje o sesji

Po każdym wątku (synchronicznej konwersacji czatu lub asynchronicznego zadania autotriggered) agent generuje szczegółowe informacje o sesji. Informacje o sesji to sposób, w jaki agent staje się coraz bardziej inteligentny z czasem.

Co jest przechwytywane

Każda analiza sesji wyodrębnia ustrukturyzowane informacje, które stają się pamięcią z możliwością przeszukiwania.

Składnik Co przechwytuje Przykład
Obserwowane objawy Wzorce błędów, zachowania "Błędy HTTP 503, pamięć przy 95%"
Kroki umożliwiające rozwiązanie problemów Co działało "Skalowana w górę jednostka SKU usługi App Service"
Główna przyczyna Dlaczego tak się stało "Wyciek pamięci we wdrożeniu w wersji 2.3"
Pułapki, których należy unikać Co nie zadziałało "Ponowne uruchamianie nie pomogło"

Kiedy generowane są wnioski

W poniższej tabeli opisano, kiedy są generowane szczegółowe informacje o sesji.

Typ wątku Kiedy Automatyczne lub ręczne
Synchronizacja czatu 30 minut po ostatniej wiadomości Automatycznie
Zadania asynchroniczne 30 minut po zakończeniu Automatycznie
opinii użytkowników Gdy oceniasz odpowiedź Wyzwalasz go

Wyświetlanie szczegółowych informacji o sesji

Przejdź do pozycji Monitorowanie > szczegółowych informacji o sesji , aby zobaczyć:

  • Oś czasu akcji agenta
  • Wyniki oceny
  • Wyodrębnione kluczowe wnioski
  • Linki wątku źródłowego: każda karta szczegółowych informacji łączy się z wątkami, które je wygenerowały, dzięki czemu można śledzić wszelkie szczegółowe informacje do oryginalnej konwersacji

Aby uzyskać szczegółowe metryki i zarządzanie, zobacz Monitorowanie użycia agenta.

Najlepsze rozwiązania

Postępuj zgodnie z tymi zaleceniami, aby uzyskać największą wartość z możliwości pamięci i wiedzy agenta.

Wybierz, co przesyłać lub połączyć

Prześlij Nawiązywanie połączenia za pośrednictwem łącznika
Runbooki incydentów Strony typu wiki na żywo (ADO, GitHub)
Diagramy architektury Repozytoria kodu źródłowego
Procedury eskalacji Dane monitorowania w czasie rzeczywistym
Dokumentacja statycznego interfejsu API Często aktualizowane dokumenty

Utrzymuj aktualną wiedzę

Nieaktualne dokumenty powodują nieprawidłowe odpowiedzi. Przejrzyj swoją bazę wiedzy kwartalnie. Aby zobaczyć, jakie dokumenty ma obecnie agent, zapytaj:

What knowledge documents do you have?

Usuń nieaktualne dokumenty w bazie wiedzy konstruktora>.

Jasno nadaj dokumentom nazwę

Użyj opisowych nazw plików, aby pomóc agentowi i zespołowi szybko znaleźć odpowiednią dokumentację.

Nie używaj Użyj zamiast tego
doc1.txt production-database-failover.md
runbook.md aks-cluster-scaling-runbook.md
notes.txt escalation-procedures-2026.txt

Następne kroki

  • Łączniki: łączenie zewnętrznych źródeł wiedzy z agentem.
  • Subagents: Tworzenie wyspecjalizowanych agentów z ukierunkowanymi możliwościami.