Rozwijanie operacji z obserwacją

Ukończone
Uzyskiwanie wglądu w system, uzyskiwanie szczegółowych informacji i podejmowanie decyzji opartych na danych.

Utwórz kulturę, która stale poprawia jakość, monitorując obciążenie i biorąc pod uwagę wszystkie filary platformy Azure Well-Architected Framework. Umożliwia zespołowi i uczestnikom projektu podejmowanie zarówno krótkoterminowych, jak i długoterminowych decyzji w wielu aspektach, zapewniając niezbędne dane, statystyki i trendy. Uzyskaj informacje na podstawie ulepszeń danych i dysków.

Operacje utworzone na potrzeby obserwacji są kluczem do proaktywnej konserwacji aplikacji, jakości i bezpieczeństwa, planowania pojemności i zarządzania produktami.

Kluczowym aspektem monitorowania aplikacji jest użycie modelowania kondycji, aby ułatwić przewidywanie problemów, zanim staną się one zdarzeniami i wpływają na środowisko klienta. Efektywne monitorowanie zmniejsza cykle reaktywne poświęcane na zarządzanie zdarzeniami.

Przykładowy scenariusz

Firma Contoso opracowała aplikację do użytku wewnętrznego o nazwie Contoso Real Estate. Ta aplikacja internetowa umożliwia nowym pracownikom lub istniejącym pracownikom, którzy przenoszą się do wyszukiwania i rezerwowania krótkoterminowych mieszkań, aby pomóc w ich relokacji. Dział kadr firmy Contoso korzysta również z aplikacji, aby pomóc w relokacji.

Aplikacja jest w środowisku produkcyjnym i jest wdrażana całkowicie na platformie Azure. Jest ona oparta na mikrousługach przy użyciu usługi Azure Container Apps, a także korzysta z usług Azure Functions, Azure Database for PostrgreSQL, Azure Blob Storage i Azure Monitor.

Obserwowanie obciążenia za pomocą telemetrii

Emituj dane telemetryczne z kodu aplikacji, który koreluje kluczowe punkty przepływu wykonywania i zapewnia pełny widok na różnych poziomach szczegółowości.

Określanie priorytetów akcji na podstawie poziomu ważności i zrozumienie kontekstu, biorąc pod uwagę jego szczegółowość. Te informacje mają kluczowe znaczenie dla celów rozwiązywania problemów.

Wyzwanie firmy Contoso

  • Użytkownicy zgłaszają, że po ostatniej aktualizacji aplikacji Contoso Real Estate od czasu do czasu widzą pustą stronę lub ogólny komunikat o błędzie na stronie wyszukiwania aplikacji internetowej. Błędy wydają się losowe, a funkcja wyszukiwania zwykle działa, jeśli użytkownicy po prostu odświeżą stronę lub ponownie prześlij wyszukiwanie.
  • Przeglądając dzienniki w mikrousłudze wyszukiwania, zespół zauważa wzrost liczby błędów z powodu przekroczenia limitu czasu nawiązywania połączenia z usługą Azure Database for PostgreSQL, ale obecnie nie ma możliwości sprawdzenia, czy błąd widoczny w dziennikach mikrousług wyszukiwania odpowiada stronom błędów, które widzą użytkownicy.

Stosowanie podejścia i wyników

  • Zespół deweloperów zdecydował się rozszerzyć informacje, które logują zarówno z aplikacji internetowej, jak i podstawowych mikrousług, aby dokładniej poznać ten problem. W scenariuszu wyszukiwania pamiętaj, aby przechwycić terminy wyszukiwania wraz z innymi dostępnymi atrybutami transakcji, takimi jak czas, adres IP klienta i nazwa użytkownika skojarzona z wyszukiwaniem. Te dodatkowe dane powinny dać im wystarczającą ilość informacji, aby móc skorelować transakcje między warstwami.
  • Ta zmiana pozwoliła zespołowi potwierdzić, że przekroczenia limitu czasu zapytań bazy danych, które nie były prawidłowo obsługiwane w najnowszej aktualizacji aplikacji, były główną przyczyną błędów napotykanych przez użytkowników. Po znalezieniu głównej przyczyny zespół musiał zaimplementować poprawkę.
  • Zespół projektuje teraz nowe podejście, korzystając z biblioteki OpenTelemetry, w celu zaimplementowania bardziej kompleksowego rozwiązania do śledzenia rozproszonego obejmującego wszystkie warstwy rozwiązań.

Wizualizowanie danych monitorowania na pulpitach nawigacyjnych

Agregowanie i wizualizowanie danych na pulpitach nawigacyjnych w celu prezentowania danych monitorowania, które są zaspokajane przez odbiorców i mają na uwadze kontekst biznesowy. Używaj sytuacyjnych pulpitów nawigacyjnych do tworzenia danych, aby zwiększyć świadomość wśród uczestników projektu. Korzystaj z operacyjnych pulpitów nawigacyjnych i skoroszytów z funkcjami przechodzenia do szczegółów dla działań operatorów, takich jak reagowanie na zdarzenia. Często odświeżaj pulpity nawigacyjne i udostępniaj szczegółowe dane.

Za pomocą wizualizacji można analizować trendy, śledzić cele biznesowe i zarządzać zdarzeniami.

Pulpity nawigacyjne dostosowane do zainteresowania klienta tworzą interpretację i przyspieszają czas wykrywania i działania.

Wyzwanie firmy Contoso

  • Zespół ds. obciążeń agreguje dane telemetryczne ze wszystkich warstw rozwiązań do jednego obszaru roboczego usługi Log Analytics, do którego mogą uzyskiwać dostęp zespoły ds. operacji i programowania oraz inne osoby biorące udział w projekcie. Jednak interakcja z danymi jest trudna i złożona, co jest frustrujące dla członków zespołu, którzy muszą odróżnić szum w tle od danych z możliwością działania.

Stosowanie podejścia i wyników

  • Zespół podejmuje wysiłki na rzecz agregowania i wizualizowania danych przy użyciu pulpitów nawigacyjnych. Każdy pulpit nawigacyjny będzie dostosowany do określonych odbiorców:
    • Pulpity nawigacyjne uczestników rozwiązania będą bardziej zorientowane na działalność biznesową, przedstawiając wyższy poziom ogólnej kondycji rozwiązania wraz ze wskaźnikami biznesowymi, takimi jak liczba obsługiwanych użytkowników, wyszukiwań i rezerwacji.
    • Operacyjne pulpity nawigacyjne i skoroszyty będą miały bardziej szczegółowe i szczegółowe dane dla zespołu ds. operacji. Te pulpity nawigacyjne będą miały funkcje przechodzenia do szczegółów, które umożliwiają użytkownikom eksplorowanie danych na różnych poziomach szczegółowości. Użytkownicy będą mogli używać tych pulpitów nawigacyjnych i skoroszytów do rozwiązywania problemów i innych zadań reagowania na zdarzenia.
  • Pulpity nawigacyjne umożliwią użytkownikom analizowanie trendów, śledzenie celów biznesowych i efektywniejsze zarządzanie zdarzeniami. Dane przedstawione na każdym pulpicie nawigacyjnym będą bardziej istotne dla zamierzonej grupy odbiorców i będą napędzane ich zainteresowaniami i potrzebami.

Projektowanie niezawodnej strategii zgłaszania alertów

Umożliwia podejmowanie działań alertów przez powiadamianie ról odpowiedzialności za pomocą ustandaryzowanych opisów i poziomów ważności. Podaj informacje, które są sortowane z różnych źródeł i śledzą odchylenia od celów biznesowych.

Wyzwalaj alerty tylko w przypadku zdarzeń wymagających akcji i dążenia do proaktywnych i prowokujących do myślenia alertów, które inicjują akcje, zanim stan obniżonej wydajności stanie się awarią. Dobry system alertów identyfikuje akcje i ważność oraz zapewnia wystarczającą ilość danych, aby zwiększyć przejrzystość i cel. Operatorzy mogą rozpocząć korygowanie bez opóźnień.

Wyzwanie firmy Contoso

  • Usługa Azure Monitor służy do wysyłania alertów do zespołu operacji, gdy coś pójdzie nie tak. Jednak zespół otrzymuje obecnie zbyt wiele alertów, które są nieistotne, niejasne lub nadmiarowe. Powoduje to zmęczenie alertami i wpływa na produktywność zespołu i powoduje niezauważenie niektórych ważnych alertów.
  • Wystąpiły również pewne sytuacje awarii, które mogły zostać uniemożliwione lub zminimalizowane, jeśli alert został wysłany w oczekiwaniu na awarię. Gdyby zespół miał lepsze alerty o pogorszeniu przed wystąpieniem awarii, można było uniknąć tych sytuacji. Na przykład wystąpiły sytuacje, w których spowolnienie w czasie przetwarzania zapytań bazy danych spowodowało awarie. Podczas rozwiązywania problemów z awariami zespół zauważa, że wydajność przetwarzania zapytań spada powoli w czasie, coraz gorzej, dopóki nie spowoduje awarii w pełni.

Stosowanie podejścia i wyników

  • Zespół operacyjny uruchamia inicjatywę w celu wyczyszczenia wszystkich alertów o niskim priorytetach powodujących zmęczenie alertami. Tylko alerty krytyczne i z możliwością działania mogą pozostać aktywne. Ponadto zespół przegląda (i ulepsza w razie potrzeby) alerty, które pozostaną aktywne, aby upewnić się, że zawierają wystarczająco dużo kontekstu, aby umożliwić im podjęcie niezbędnych działań naprawczych.
  • Mogą również zdefiniować nowe proaktywne i możliwe do działania alerty, które umożliwią im podejmowanie działań przed awarią. Na przykład wygenerują nowy alert, aby powiadomić o tym, jak tylko pojawi się spójne spowolnienie wydajności zapytań bazy danych.
  • W następnym kroku zespół analizuje automatyzowanie odpowiedzi na typowe alerty, takie jak sytuacja z wydajnością zapytań bazy danych.

Sprawdź swoją wiedzę

1.

Jak firma Contoso mogła zidentyfikować główną przyczynę problemu z pustymi stronami i ogólnymi błędami, które napotkali niektórzy użytkownicy?

2.

Który z poniższych elementów jest dobrym sposobem projektowania pulpitów nawigacyjnych monitorowania?

3.

Prawda czy fałsz: alerty powinny być głównie informacyjne.