Udostępnij za pośrednictwem


Omówienie agenta usługi Azure SRE (wersja zapoznawcza)

Inżynieria niezawodności lokacji (SRE) koncentruje się na tworzeniu niezawodnych, skalowalnych systemów za pomocą automatyzacji i proaktywnego zarządzania. Agent usługi Azure SRE wprowadza te zasady do aplikacji hostowanych na platformie Azure, udostępniając narzędzie oparte na sztucznej inteligencji, które pomaga utrzymać produkcyjne środowiska w chmurze. Agent SRE pomaga szybko i skutecznie reagować na zdarzenia, co eliminuje trud ręcznego zarządzania środowiskami produkcyjnymi. Agent korzysta z możliwości rozumowania dużych modeli językowych (LLMs) do identyfikowania dzienników i mierników niezbędnych do szybkiej analizy głównej przyczyny i łagodzenia problemów. Agent Azure SRE zapewnia lepszą dostępność usługi i mniejsze koszty operacyjne.

Agenci mają dostęp do każdego zasobu w grupach zasobów skojarzonych z agentem. W związku z tym agenci:

  • Ciągła ocena aktywności zasobów i monitorowanie aktywnych zasobów

  • Wysyłanie proaktywnych powiadomień o złej kondycji lub niestabilnych aplikacjach

Agent usługi Azure SRE integruje się również z alertami usługi Azure Monitor i rozwiązaniem PagerDuty w celu obsługi zaawansowanych rozwiązań do powiadomień.

Uwaga / Notatka

Funkcja agenta SRE jest dostępna w publicznej wersji zapoznawczej. Aby zarejestrować się na liście oczekiwania, wypełnij aplikację agenta SRE.

Korzystając z agenta SRE, wyrażasz zgodę na uzupełniające warunki użytkowania specyficzne dla produktu dla wersji zapoznawczych platformy Microsoft Azure.

Kluczowe funkcje

Agent usługi Azure SRE oferuje kilka kluczowych funkcji, które zwiększają niezawodność i wydajność zasobów platformy Azure:

  • Wątek powitalny: po pierwszym utworzeniu agenta zostanie utworzony nowy wątek, który zapewnia wstępną analizę usług. Analiza środowiska tworzy migawkę wszystkich zasobów zarządzanych przez agenta. Ponadto agent generuje listę aplikacji znalezionych w zarządzanych grupach zasobów.

  • Codzienne wątki: każdego dnia agent tworzy raport zasobów, który podsumowuje stan i stan usług w zarządzanych grupach zasobów.

  • Narzędzia: obsługa zapytań i operacji za pośrednictwem interfejsu wiersza polecenia platformy Azure i narzędzia Kubectl.

  • Źródła danych: dostęp do interfejsów API usługi Azure Resource Manager i źródeł danych metryk usługi Azure Monitor.

  • Zarządzanie zdarzeniami: diagnozowanie zdarzeń przez bezpośrednie rozmowy z agentem lub przez połączenie platformy zarządzania zdarzeniami z agentem. Automatyczne reagowanie na alerty usługi Azure Monitor lub zdarzenia PagerDuty przy użyciu początkowej analizy.

  • Proaktywne monitorowanie: ciągłe monitorowanie zasobów 24x7 z alertami w czasie rzeczywistym w przypadku potencjalnych problemów.

  • Zautomatyzowane środki zaradcze: Automatyczne wykrywanie i ograniczanie typowych problemów, zmniejszanie przestojów i poprawianie kondycji zasobów. Podczas gdy agenci próbują pracować w Twoim imieniu, cała automatyzacja wymaga zatwierdzenia.

  • Najlepsze praktyki dotyczące infrastruktury: Zidentyfikuj i popraw zasoby, które nie przestrzegają najlepszych praktyk dotyczących bezpieczeństwa oraz wspierają aktualizacje.

  • Przyspiesza analizę głównej przyczyny: Zdiagnozuj główne przyczyny problemów z aplikacją, analizując metryki i dzienniki i sugerując środki zaradcze.

  • Wizualizacja zasobów: kompleksowe widoki zależności zasobów i stan zdrowia.

    Zrzut ekranu przedstawiający wykres wiedzy agenta SRE.

  • Obsługa ograniczania ryzyka: Agent SRE może naprawić konfigurację aplikacji i usługi zależne. W przypadku problemów z kodem agent udostępnia ślady stosu i może utworzyć zgłoszenie na GitHubie, aby pomóc w ich rozwiązaniu. Następujące elementy opisują funkcje specyficzne dla usługi agenta:

    • Azure App Service: wycofywanie wdrożenia, skalowanie zasobów w górę/w dół, ponowne uruchamianie aplikacji.

    • Azure Container Apps: wycofywanie wdrożenia, skalowanie zasobów w górę/w dół i ponowne uruchamianie aplikacji.

    • Azure Kubernetes Service: ponowne uruchamianie zasobników/wdrożeń, wycofywanie wdrożeń do poprzednich poprawek, skalowanie zasobów w górę/w dół i stosowanie poprawek definicji zasobów.

Raporty

Agent SRE działa, aby aktywnie monitorować i obsługiwać usługi platformy Azure. Każdego dnia agent tworzy codzienne raporty zasobów, które zapewniają wgląd w kondycję i stan aplikacji.

Raporty obejmują:

  • Podsumowanie zdarzenia: Generuje informacje o zdarzeniach zgłoszonych przez agenta SRE w poprzednim dniu. Kategorie obejmują: aktywne, złagodzone lub rozwiązane.

  • Wydajność i kondycja grupy aplikacji: Kluczowe metryki dla każdej grupy aplikacji w celu oceny stabilności i wydajności systemu. Metryki obejmują: dostępność, użycie procesora CPU i użycie pamięci.

  • Podsumowanie akcji: Podsumowanie ważnych szczegółów i szczegółowych informacji dotyczących kondycji i konserwacji zasobów platformy Azure.

Scenariusze

Scenariusz Możliwa przyczyna Środki zaradcze agenta
Aplikacja nie działa Problemy z kodem aplikacji: Usterki lub błędy w kodzie aplikacji mogą prowadzić do awarii lub braku odpowiedzi.

Nieprawidłowe wdrożenie: nieprawidłowe konfiguracje lub nieudane wdrożenia mogą spowodować, że aplikacja nie działa.

Problemy z wysokim użyciem procesora CPU/pamięci/wątku: wyczerpanie zasobów z powodu wysokiego użycia procesora CPU, pamięci lub wątku może mieć wpływ na wydajność aplikacji.
Agent SRE może wykrywać te problemy i udostępniać praktyczne informacje lub poprawki. Na przykład może zidentyfikować spadek dostępności aplikacji internetowej, który zbiega się z niedawną zamianą slotów, i zaleca przywrócenie pierwotnego układu slotów jako pierwszy krok łagodzenia skutków.
Błędy ściągania obrazu kontenera Dostępność obrazu: żądany obraz może być niedostępny lub może brakować go.

Łączność sieciowa: problemy z siecią mogą zakłócać połączenie z aplikacją kontenera.

Problemy z łącznością rejestru: problemy z nawiązywaniem połączenia z rejestrem kontenerów mogą uniemożliwić ściąganie obrazu.
Agent SRE może wykrywać błędy ściągania obrazu kontenera i zapewniać szczegółową diagnostykę. Może zalecić rozwiązania, takie jak przywracanie do ostatniej znanej poprawnej wersji i aktualizowanie referencji do obrazu.

Agent może podać szczegółowe informacje o różnych aspektach aplikacji i zasobów. W poniższych przykładach przedstawiono typy pytań, które można zadać agentowi:

  • Co możesz mi pomóc?
  • Dlaczego moja aplikacja nie działa?
  • Z jakimi usługami jest połączony mój zasób?
  • Czy możesz udostępnić najlepsze rozwiązania dotyczące mojego zasobu?
  • Jakie jest wykorzystanie procesora CPU i pamięci w mojej aplikacji?

Poniżej przedstawiono kilka monitów, których możesz użyć, aby ułatwić interakcję z agentem:

  • Które aplikacje mają włączoną funkcję Dapr?
  • Wyświetl listę replik mojej aplikacji kontenerowej
  • Które aplikacje mają włączone rejestrowanie diagnostyczne?
  • Proszę o indywidualną mapę cieplną dla każdego konta magazynowego.
  • Która wersja mojej aplikacji kontenera jest obecnie aktywna?
  • Jakie są najlepsze rozwiązania, które należy zastosować w mojej aplikacji?
  • Jaka jest konfiguracja ingressu dla mojej aplikacji kontenerowej?
  • Czy istnieją miejsca przejściowe skonfigurowane dla tej aplikacji internetowej?
  • Jakie obrazy kontenerów są używane przez każdą z moich aplikacji kontenera?
  • Wyświetl listę wszystkich grup zasobów, którymi zarządzasz we wszystkich subskrypcjach.
  • Narysuj mapę cieplną opóźnień pamięci masowej w ciągu ostatnich 14 dni dla kont pamięci masowej.
  • Pokaż mi wizualizację czasów odpowiedzi dla usługi Container Apps w zeszłym tygodniu.
  • Lista [Container Apps/Web Apps/etc.] zarządzasz nimi we wszystkich subskrypcjach.
  • Wizualizacja podziału aplikacji kontenerowych, aplikacji internetowych oraz klastrów AKS zarządzanych we wszystkich subskrypcjach jako wykres kołowy.

Obsługiwane usługi

Agent usługi Azure SRE może ułatwić zarządzanie wszystkimi usługami platformy Azure i raportowanie ich, ale agent oferuje wyspecjalizowane narzędzia do zarządzania następującymi usługami:

  • Azure API Management
  • Azure App Service
  • Azure Cache for Redis
  • Azure Container Apps
  • Azure Cosmos DB
  • Azure Database for PostgreSQL
  • Azure Functions
  • Azure Kubernetes Service
  • Azure SQL
  • Azure Storage
  • Azure Virtual Machines

Aby uzyskać najnowszą listę usług z narzędziami agenta niestandardowego, możesz przesłać następujący monit do agenta:

Which Azure services do you have specialized tooling available for?

Identyfikowanie grup zasobów

Podczas tworzenia agenta selektor grupy zasobów wskazuje grupy, które mają wystąpienia usług z wyspecjalizowanymi narzędziami. W selektorze grupy zasobów zostanie wyświetlona znacznik wyboru ( ) obok nazwy grupy wskazującej, że grupa zawiera usługi z wyspecjalizowaną pomocą techniczną.

Dostęp do wersji zapoznawczej

Dostęp do agenta SRE jest dostępny tylko w wersji zapoznawczej. Aby zarejestrować się w celu uzyskania dostępu, wypełnij aplikację agenta SRE.