Monitorowanie problemów operacyjnych w obszarze roboczym usługi Azure Monitor Log Analytics

Aby zachować wydajność i dostępność obszaru roboczego usługi Log Analytics w usłudze Azure Monitor, musisz mieć możliwość proaktywnego wykrywania wszelkich pojawiających się problemów. W tym artykule opisano sposób monitorowania kondycji obszaru roboczego usługi Log Analytics przy użyciu danych w tabeli Operacje . Ta tabela jest zawarta w każdym obszarze roboczym usługi Log Analytics. Zawiera komunikaty o błędach i ostrzeżenia występujące w obszarze roboczym. Zalecamy utworzenie alertów dotyczących problemów z poziomem ostrzeżenia i błędu.

Wymagane uprawnienia

Musisz mieć Microsoft.OperationalInsights/workspaces/query/*/read uprawnienia do obszarów roboczych usługi Log Analytics, które wykonujesz, zgodnie z wbudowaną rolą czytelnika usługi Log Analytics.

_LogOperation, funkcja

Dzienniki usługi Azure Monitor wysyłają informacje o wszelkich problemach do tabeli Operacje w obszarze roboczym, w którym wystąpił problem. Funkcja _LogOperation systemowa jest oparta na tabeli Operation (Operacja ) i zawiera uproszczony zestaw informacji na potrzeby analizy i alertów.

Kolumny

Funkcja _LogOperation zwraca kolumny w poniższej tabeli.

Kolumna opis
TimeGenerated Godzina wystąpienia zdarzenia o godzinie UTC.
Kategoria Grupa kategorii operacji. Może służyć do filtrowania typów operacji i pomaga tworzyć bardziej precyzyjne inspekcje i alerty systemu. Aby uzyskać listę kategorii, zobacz poniższą sekcję.
Operacja Opis typu operacji. Operacja może wskazywać, że osiągnięto jeden z limitów usługi Log Analytics, problem związany z procesem zaplecza lub jakikolwiek inny komunikat usługi.
Poziom Poziom ważności problemu:
- Informacje: Żadna szczególna uwaga nie jest potrzebna.
- Ostrzeżenie: Proces nie został ukończony zgodnie z oczekiwaniami i potrzebna jest uwaga.
- Błąd: Proces zakończył się niepowodzeniem i potrzebna jest uwaga.
Szczegóły Szczegółowy opis operacji zawiera określony komunikat o błędzie.
_ResourceId Identyfikator zasobu platformy Azure związany z operacją.
Komputer Nazwa komputera, jeśli operacja jest powiązana z agentem usługi Azure Monitor.
CorrelationId Służy do grupowania kolejnych powiązanych operacji.

Kategorie

W poniższej _LogOperation tabeli opisano kategorie funkcji.

Kategoria opis
Pozyskiwanie danych Operacje będące częścią procesu pozyskiwania danych.
Agent Wskazuje problem z instalacją agenta.
Zbieranie danych Operacje związane z procesami zbierania danych.
Określanie wartości docelowej rozwiązania Operacja typu ConfigurationScope została przetworzona.
Rozwiązanie do oceny Proces oceny został wykonany.

Pozyskiwanie danych

Operacje pozyskiwania to problemy, które wystąpiły podczas pozyskiwania danych i zawierają powiadomienie o osiągnięciu limitów obszaru roboczego usługi Log Analytics. Warunki błędów w tej kategorii mogą sugerować utratę danych, dlatego ważne jest, aby monitorować. Aby uzyskać informacje o limitach usług dla obszarów roboczych usługi Log Analytics, zobacz Limity usługi Azure Monitor.

Ważne

Jeśli rozwiązujesz problemy z zbieraniem danych w scenariuszu, który używa reguły zbierania danych (DCR), takiej jak agent usługi Azure Monitor lub interfejs API pozyskiwania dzienników, zobacz Monitorowanie i rozwiązywanie problemów z zbieraniem danych DCR w usłudze Azure Monitor , aby uzyskać dodatkowe informacje dotyczące rozwiązywania problemów.

Operacja: Zbieranie danych zatrzymane

"Zbieranie danych zatrzymano z powodu dziennego limitu bezpłatnych danych. Stan pozyskiwania = OverQuota"

W ciągu ostatnich siedmiu dni zbieranie dzienników osiągnęło dzienny limit. Limit jest ustawiony, ponieważ obszar roboczy jest ustawiony na warstwę Bezpłatna lub dla tego obszaru roboczego skonfigurowano dzienny limit kolekcji. Po osiągnięciu ustalonego limitu zbieranie danych zostanie automatycznie zatrzymane przez cały dzień i zostanie wznowione tylko w ciągu następnego dnia zbierania danych.

Zalecane akcje:

  • Sprawdź tabelę pod kątem _LogOperation zatrzymanych kolekcji i wznowionych zdarzeń kolekcji:
    _LogOperation | where TimeGenerated >= ago(7d) | where Category == "Ingestion" | where Detail has "Data collection"
  • Utwórz alert dotyczący zdarzenia operacji "Zatrzymano zbieranie danych". Ten alert powiadamia Cię o osiągnięciu limitu kolekcji.
  • Dane zebrane po osiągnięciu dziennego limitu kolekcji zostaną utracone. Użyj okienka Szczegółowe informacje o obszarze roboczym, aby przejrzeć stawki użycia z każdego źródła. Możesz też zdecydować się na zarządzanie maksymalnym dziennym ilością danych lub zmianę warstwy cenowej na taką, która odpowiada wzorzec stawek kolekcji.
  • Częstotliwość zbierania danych jest obliczana na dzień i resetuje się na początku następnego dnia. Możesz również monitorować zdarzenie wznawiania kolekcji, tworząc alert dotyczący zdarzenia "Wznawianie zbierania danych".

Operacja: szybkość pozyskiwania

"Szybkość pozyskiwania danych przekroczyła próg w obszarze roboczym: {0:0,00} MB na minutę, a dane zostały porzucone"."

Zalecane akcje:

  • Sprawdź tabelę pod kątem _LogOperation zdarzenia współczynnika pozyskiwania:

    _LogOperation | where TimeGenerated >= ago(7d) | where Category == "Ingestion" | where Operation has "Ingestion rate" zdarzenie jest wysyłane do tabeli Operacja w obszarze roboczym co sześć godzin, podczas gdy próg będzie nadal przekraczany.
  • Utwórz alert dotyczący zdarzenia operacji "Zatrzymano zbieranie danych". Ten alert powiadamia Cię o osiągnięciu limitu.
  • Dane zebrane, gdy wskaźnik pozyskiwania osiągnął 100 procent, zostanie usunięty i utracony. Użyj okienka Szczegółowe informacje o obszarze roboczym, aby przejrzeć wzorce użycia i spróbować je zmniejszyć.
    Aby uzyskać więcej informacji, zobacz:

Operacja: Maksymalna liczba kolumn tabeli

"Dane nazwy> tabeli typów< zostały porzucone, ponieważ liczba< nowych pól> przekracza limit bieżących< pól limitu> pól niestandardowych dla typu danych".

Zalecana akcja: w przypadku tabel niestandardowych można przejść do analizowania danych w zapytaniach.

Operacja: Walidacja zawartości pola

"Nazwa pola wartości <> następującego typu nazwa> tabeli typów <została przycięta do maksymalnego dozwolonego rozmiaru, <limitu> rozmiaru pola bajtów. Dostosuj odpowiednio dane wejściowe.

Pole większe niż rozmiar limitu zostało przetworzone przez dzienniki platformy Azure. Pole zostało przycięte do dozwolonego limitu pól. Nie zalecamy wysyłania pól większych niż dozwolony limit, ponieważ powoduje utratę danych.

Zalecane akcje:

Sprawdź źródło danych, którego dotyczy problem:

  • Jeśli dane są wysyłane za pośrednictwem interfejsu API modułu zbierającego dane HTTP, musisz zmienić kod\skrypt, aby podzielić dane przed ich pozyskiwaniem.
  • W przypadku dzienników niestandardowych zebranych przez agenta usługi Log Analytics zmień ustawienia rejestrowania aplikacji lub narzędzia.
  • W przypadku dowolnego innego typu danych zgłoś zgłoszenie do pomocy technicznej. Aby uzyskać więcej informacji, zobacz Limity usługi Azure Monitor.

Zbieranie danych

Poniższa sekcja zawiera informacje dotyczące zbierania danych.

Operacja: zbieranie dzienników aktywności platformy Azure

"Utracono dostęp do subskrypcji. Upewnij się, że subskrypcja identyfikatora> subskrypcji znajduje się w dzierżawie identyfikatora><dzierżawy firmy Microsoft Entra.< Jeśli subskrypcja zostanie przeniesiona do innej dzierżawy, nie ma to wpływu na usługi, ale propagowanie informacji dla dzierżawy może potrwać do godziny".

W niektórych sytuacjach, takich jak przeniesienie subskrypcji do innej dzierżawy, dzienniki aktywności platformy Azure mogą przestać przepływać do obszaru roboczego. W takich sytuacjach należy ponownie połączyć subskrypcję zgodnie z procesem opisanym w tym artykule.

Zalecane akcje:

  • Jeśli subskrypcja wymieniona w komunikacie ostrzegawczym już nie istnieje, przejdź do okienka Starsze łącznika dziennika aktywności w obszarze Klasyczny. Wybierz odpowiednią subskrypcję, a następnie wybierz przycisk Rozłącz .
  • Jeśli nie masz już dostępu do subskrypcji wymienionej w komunikacie ostrzegawczym:
    • Wykonaj poprzedni krok, aby odłączyć subskrypcję.
    • Aby kontynuować zbieranie dzienników z tej subskrypcji, skontaktuj się z właścicielem subskrypcji, aby naprawić uprawnienia i ponownie włączyć zbieranie dzienników aktywności.
  • Utwórz ustawienie diagnostyczne, aby wysłać dziennik aktywności do obszaru roboczego usługi Log Analytics.

Agent

Poniższa sekcja zawiera informacje dotyczące agentów.

Operacja: Agent systemu Linux

"Dwie kolejne aplikacje konfiguracyjne z Ustawienia pakietu OMS zakończyły się niepowodzeniem".

Ustawienia konfiguracji w portalu uległy zmianie.

Zalecana akcja: ten problem jest zgłaszany w przypadku wystąpienia problemu z agentem w celu pobrania nowych ustawień konfiguracji. Aby rozwiązać ten problem, zainstaluj ponownie agenta. Sprawdź tabelę _LogOperation zdarzenia agenta:

_LogOperation | where TimeGenerated >= ago(6h) | where Category == "Agent" | where Operation == "Linux Agent" | distinct _ResourceId

Lista zawiera identyfikatory zasobów, w których agent ma nieprawidłową konfigurację. Aby rozwiązać ten problem, zainstaluj ponownie wymienionych agentów.

Zasady alertów

Alerty przeszukiwania dzienników w usłudze Azure Monitor umożliwiają proaktywne powiadamianie o wykryciu problemu w obszarze roboczym usługi Log Analytics. Użyj strategii, która umożliwia reagowanie w odpowiednim czasie na problemy przy jednoczesnym zminimalizowaniu kosztów. Opłata za subskrypcję będzie naliczana za każdą regułę alertu zgodnie z cennikiem usługi Azure Monitor.

Zalecaną strategią jest rozpoczęcie od dwóch reguł alertów na podstawie poziomu problemu. Użyj krótkiej częstotliwości, takiej jak co 5 minut w przypadku błędów i dłuższej częstotliwości, takiej jak 24 godziny dla ostrzeżeń. Ponieważ błędy wskazują potencjalną utratę danych, chcesz szybko reagować na nie, aby zminimalizować wszelkie straty. Ostrzeżenia zazwyczaj wskazują problem, który nie wymaga natychmiastowej uwagi, więc można je przeglądać codziennie.

Użyj procesu tworzenia , wyświetlania i zarządzania alertami wyszukiwania dzienników przy użyciu usługi Azure Monitor , aby utworzyć reguły alertów przeszukiwania dzienników. W poniższych sekcjach opisano szczegóły każdej reguły.

Query Wartość progu Okres Częstotliwość
_LogOperation | where Level == "Error" 0 5 5
_LogOperation | where Level == "Warning" 0 1,440 1,440

Te reguły alertów odpowiadają na wszystkie operacje z błędem lub ostrzeżeniem. Gdy zapoznasz się z operacjami, które generują alerty, możesz chcieć odpowiedzieć inaczej dla określonych operacji. Na przykład możesz chcieć wysyłać powiadomienia do różnych osób w przypadku określonych operacji.

Aby utworzyć regułę alertu dla określonej operacji, użyj zapytania zawierającego kolumny Kategoria i Operacja .

Poniższy przykład tworzy alert ostrzegawczy, gdy szybkość pozyskiwania osiągnęła 80 procent limitu:

  • Cel: wybierz obszar roboczy usługi Log Analytics
  • Kryteria:
    • Nazwa sygnału: wyszukiwanie w dzienniku niestandardowym
    • Zapytanie wyszukiwania: _LogOperation | where Category == "Ingestion" | where Operation == "Ingestion rate" | where Level == "Warning"
    • Na podstawie: liczba wyników
    • Warunek: Większe niż
    • Próg: 0
    • Okres: 5 (minuty)
    • Częstotliwość: 5 (minuty)
  • Nazwa reguły alertu: osiągnięto dzienny limit danych
  • Ważność: Ostrzeżenie (ważność 1)

Poniższy przykład tworzy alert ostrzegawczy po osiągnięciu dziennego limitu zbierania danych:

  • Cel: wybierz obszar roboczy usługi Log Analytics
  • Kryteria:
    • Nazwa sygnału: wyszukiwanie w dzienniku niestandardowym
    • Zapytanie wyszukiwania: _LogOperation | where Category == "Ingestion" | where Operation == "Data collection Status" | where Level == "Warning"
    • Na podstawie: liczba wyników
    • Warunek: Większe niż
    • Próg: 0
    • Okres: 5 (minuty)
    • Częstotliwość: 5 (minuty)
  • Nazwa reguły alertu: osiągnięto dzienny limit danych
  • Ważność: Ostrzeżenie (ważność 1)

Następne kroki