Felsöka grå agenttillstånd i System Center Operations Manager
Den här artikeln beskriver hur du felsöker problem där en agent, en hanteringsserver eller en gateway är otillgänglig eller nedtonad i System Center Operations Manager (OpsMgr).
Ursprunglig produktversion: Microsoft System Center 2012 Operations Manager
Ursprungligt KB-nummer: 2288515
En agent, en hanteringsserver eller en gateway kan ha något av följande tillstånd, vilket indikeras av färgen på agentnamnet och ikonen i fönstret Övervakning .
Tillstånd | Utseende | Beskrivning |
---|---|---|
Friska | Grön bockmarkering | Agenten eller hanteringsservern körs normalt. |
Nödvändig | Röd bockmarkering | Det finns ett problem på agenten eller hanteringsservern. |
Okänd | Namn på grå agent, grå bockmarkering | Hälsotjänstövervakaren på hanteringsservern som bevakar hälsotjänsten på den övervakade datorn får inte pulsslag från agenten längre. Hälsotjänstens bevakare hade tagit emot pulsslag tidigare och tillståndet rapporterades som felfritt. Det innebär också att hanteringsservrarna inte längre får någon information från agenten. Det här problemet kan inträffa om datorn som kör agenten inte körs eller om det finns anslutningsproblem. |
Okänd | Grön cirkel, ingen bockmarkering | Statusen för det identifierade objektet är okänd. Det finns ingen övervakare tillgänglig för det här identifierade objektet. |
Orsaker till ett grått tillstånd
En agent, en hanteringsserver eller en gateway kan bli otillgänglig av någon av följande orsaker:
- Pulsslagsfel
- Ogiltig konfiguration
- Fel i systemarbetsflöden
- Prestandaproblem för Operations Manager-databas eller informationslager
- Prestandaproblem med hanteringsservern eller gatewayservern
- Problem med nätverk eller autentisering
- Hälsotjänsten körs inte
Problemomfång
Innan du börjar felsöka problemet med den nedtonade agenten bör du först förstå Operations Manager-topologin och sedan definiera omfånget för problemet. Följande frågor kan hjälpa dig att definiera problemets omfattning:
- Hur många agenter påverkas?
- Har agenterna problem i samma nätverkssegment?
- Rapporterar agenterna till samma hanteringsserver?
- Hur ofta anger och förblir agenterna i ett grått tillstånd?
- Hur återställer du vanligtvis från den här situationen (till exempel starta om agenthälsotjänsten, rensa cachen, förlita dig på automatisk återställning)?
- Genereras pulsslagsfelaviseringar för dessa agenter?
- Uppstår det här problemet under en viss tid på dagen?
- Kvarstår det här problemet om du redundansväxlar dessa agenter till en annan hanteringsserver eller gateway?
- När började det här problemet?
- Har några ändringar gjorts i agenterna, hanteringsservrarna eller gatewayen eller hanteringsgruppen?
- Är de berörda agenterna Windows-klustrade system?
- Är mappen Hälsotillstånd undantagen från antivirusgenomsökning?
Felsökningsstrategi
Din felsökningsstrategi styrs av vilken komponent som är inaktiv, var komponenten ligger inom topologin och hur omfattande problemet är. Överväg följande villkor:
- Om agenterna som rapporterar till en viss hanteringsserver eller gateway inte är tillgängliga bör felsökningen börja på hanteringsserver- eller gatewaynivå.
- Om gatewayerna som rapporterar till en viss hanteringsserver inte är tillgängliga bör felsökningen börja på hanteringsservernivå.
- För agentlösa system, för nätverksenheter och för Unix- och Linux-servrar bör felsökningen starta på agenten, hanteringsservern eller gatewayen som övervakar dessa objekt.
- Felsökningen börjar vanligtvis på nivån direkt ovanför den otillgängliga komponenten.
Scenario 1
Endast ett fåtal agenter påverkas av problemet. Dessa agenter rapporterar till olika hanteringsservrar. Agenter förblir otillgängliga regelbundet. Även om du kan rensa agentcachen för att lösa problemet tillfälligt, uppstår problemet igen efter några dagar.
Lösning för scenario 1
Lös problemet i det här scenariot genom att följa dessa steg:
- Använd lämplig snabbkorrigering på de berörda operativsystemen.
- Undanta agentcachen från antivirusgenomsökning. Mer information finns i Rekommendationer för antivirusundantag som är relaterade till Operations Manager.
- Stoppa hälsotjänsten.
- Rensa agentcachen.
- Starta hälsotjänsten.
Scenario 2
Endast ett fåtal agenter påverkas av problemet. Dessa agenter rapporterar till olika hanteringsservrar. Agenter förblir inaktiva hela tiden. Även om du kan rensa agentcachen löser detta inte problemet.
Lösning för scenario 2
Lös problemet i det här scenariot genom att följa dessa steg:
Avgör om hälsotjänsten är aktiverad och körs för närvarande på hanteringsservern eller gatewayen. Om hälsotjänsten har slutat svara genererar du en ADPlus-dump i låsningsläge för tjänsten för att fastställa orsaken till problemet. Mer information finns i Så här använder du ADPlus.vbs för att felsöka "låser sig" och "kraschar"
Granska Operations Manager-händelseloggen på agenten för att hitta någon av följande händelser:
Händelse-ID: 1102
Händelsekälla: HealthService
Händelsebeskrivning:
Regeln/övervakaren %4 som körs för instansen %3 med ID:"%2" kan inte initieras och läses inte in. Hanteringsgrupp %1Händelse-ID: 1103
Händelsekälla: HealthService
Händelsebeskrivning:
Sammanfattning: %2 regler/övervakare misslyckades och inaktiverades. %3 av dem nådde den felgräns som förhindrar automatisk inläsning. Hanteringsgruppen %1. Det här är en sammanfattningshändelse, se andra händelser med beskrivningar av borttagna regler/övervakare.Händelse-ID: 1104
Händelsekälla: HealthService
Händelsebeskrivning:
Det går inte att matcha RunAs-profilen i arbetsflödet %4, som körs för instansen %3 med ID:%2. Arbetsflödet läses inte in. Hanteringsgrupp %1Händelse-ID: 1105
Händelsekälla: HealthService
Händelsebeskrivning:
Typmatchningsfel för RunAs-profil i arbetsflödet %4, som körs för instansen %3 med ID:%2. Arbetsflödet läses inte in. Hanteringsgrupp %1Händelse-ID: 1106
Händelsekälla: HealthService
Händelsebeskrivning:
Det går inte att komma åt RunAs-profilen för oformaterad text i arbetsflödet %4, som körs för instansen %3 med ID:%2. Arbetsflödet läses inte in. Hanteringsgrupp %1Händelse-ID: 1107
Händelsekälla: HealthService
Händelsebeskrivning:
Kontot för RunAs-profilen i arbetsflödet %4, som körs för instansen %3 med ID:%2, har inte definierats. Arbetsflödet läses inte in. Associera ett konto med profilen. Hanteringsgrupp %1Händelse-ID: 1108
Händelsekälla: HealthService
Händelsebeskrivning:
Det går inte att matcha ett konto som anges i Kör som-profilen %7. Mer specifikt används kontot i åsidosättningen av säker referens %6. %n%n Det här villkoret kan ha inträffat eftersom kontot inte har konfigurerats för att distribueras till den här datorn. För att lösa problemet måste du öppna den Kör som-profil som anges nedan, leta upp kontoposten enligt dess SSID och antingen välja att distribuera kontot till den här datorn om det är lämpligt eller ändra inställningen i profilen så att målobjektet inte använder det angivna kontot. %n%nHanteringsgrupp: %1 %nKör som profil: %7 %nNamn förSecureReferenceOverride: %6 %nSecureReferenceOverride ID: %4 %nObject namn: %3 %nObjekt-ID: %2 %nKonto-SSID: %5Händelse-ID: 4000
Händelsekälla: HealthService
Händelsebeskrivning:
En övervakningsvärd svarar inte eller har kraschat. Statuskoden för värdfelet var %1.Händelse-ID: 21016
Händelsekälla: OpsMgr Connector
Händelsebeskrivning:
OpsMgr kunde inte konfigurera en kommunikationskanal till %1 och det finns inga redundansvärdar. Kommunikationen återupptas när %1 är tillgänglig och kommunikation från den här datorn tillåts.Händelse-ID: 21006
Händelsekälla: OpsMgr Connector
Händelsebeskrivning:
OpsMgr-anslutningen kunde inte ansluta till %1:%2. Felkoden är %3(%4). Kontrollera att det finns en nätverksanslutning, att servern körs och att den har registrerat sin lyssningsport och att det inte finns några brandväggar som blockerar trafiken till målet.Händelse-ID: 20070
Händelsekälla: OpsMgr Connector
Händelsebeskrivning:
OpsMgr Connector är ansluten till %1, men anslutningen stängdes omedelbart efter att autentiseringen inträffade. Den troligaste orsaken till det här felet är att agenten inte har behörighet att kommunicera med servern eller att servern inte har fått någon konfiguration. Kontrollera händelseloggen på servern om det finns 2 000 händelser, vilket anger att agenter som inte har godkänts försöker ansluta.Händelse-ID: 20051
Händelsekälla: OpsMgr Connector
Händelsebeskrivning:
Det gick inte att läsa in det angivna certifikatet eftersom certifikatet för närvarande inte är giltigt. Kontrollera att systemtiden är korrekt och utfärda certifikatet igen om det behövs%n Certifikatets giltiga starttid: %1%n Certifikatets giltiga sluttid: %2Händelsekälla: ESE
Händelsekategori: Transaction Manager
Händelse-ID: 623
Beskrivning: HealthService (<PID>) Versionsarkivet för instansinstansen>< ("<namn>") har nått sin maximala storlek på <värdet> Mb. Det är troligt att en tidskrävande transaktion förhindrar rensning av versionsarkivet och gör att den byggs upp i storlek. Uppdateringar avvisas tills den långvariga transaktionen har checkats in helt eller återställts. Möjlig tidskrävande transaktion:
SessionId: <värde>
Sessionskontext: <värde>
Session-context ThreadId: <value>.
Rensning: <värde>Om du hittar följande specifika händelser följer du dessa riktlinjer:
Händelser 1102 och 1103: Dessa händelser indikerar att vissa av arbetsflödena inte kunde läsas in. Om det här är de viktigaste systemarbetsflödena kan dessa händelser orsaka problemet. I det här fallet fokuserar du på att lösa dessa händelser.
Händelser 1104, 1105, 1106, 1107 och 1108: Dessa händelser kan orsaka händelser 1102 och 1103. Detta skulle vanligtvis inträffa på grund av felkonfigurerade Kör som-konton. Kör som-konton är till exempel konfigurerade för att användas med fel klass eller är inte konfigurerade för att distribueras till agenten.
Händelse 4000: Den här händelsen anger att Monitoringhost.exe processen kraschade. Om det här problemet orsakas av ett DLL-matchningsfel eller av saknade registernycklar kan du kanske lösa problemet genom att installera om agenten. Om problemet kvarstår kan du försöka lösa det med hjälp av följande metoder:
- Kör en Process Monitor-avbildning tills processen kraschar. Mer information finns i Process Monitor v3.53.
- Generera en ADPlus-dump i kraschläge. Mer information finns i Så här använder du ADPlus.vbs för att felsöka "låser sig" och "kraschar"
Händelse-ID 21006: Den här händelsen anger att det finns kommunikationsproblem mellan agenten och hanteringsservern. Om agenten använder ett certifikat för ömsesidig autentisering kontrollerar du att certifikatet inte har upphört att gälla och att agenten använder rätt certifikat. Om Kerberos används kontrollerar du att agenten kan kommunicera med Active Directory. Om autentiseringen fungerar korrekt kan det innebära att paketen från agenten inte når hanteringsservern eller gatewayen. Försök att upprätta ett telnet till port 5723 från agenten till hanteringsservern. Kör dessutom en samtidig nätverksspårning mellan agenten och hanteringsservern medan du återskapar kommunikationsfelen. Detta kan hjälpa dig att avgöra om paketen når hanteringsservern och om någon enhet mellan de två komponenterna försöker optimera trafiken eller släpper några paket. Mer information finns i Samla in data med hjälp av Nätverksövervakaren.
Händelse-ID 623: Den här händelsen inträffar vanligtvis i en stor Operations Manager-miljö där en hanteringsserver eller en agentdator hanterar många arbetsflöden. Mer information finns i En eller flera hanteringsservrar och deras hanterade enheter är nedtonade i Operations Manager-konsolen.
Scenario 3
Alla agenter som rapporterar till en viss hanteringsserver eller gateway är inte tillgängliga.
Lösning för scenario 3
Lös problemet i det här scenariot genom att följa dessa steg:
Försök att avgöra vilken typ av arbetsbelastningar som hanteringsservern eller gatewayen övervakar. Sådana arbetsbelastningar kan omfatta nätverksenheter, plattformsoberoende agenter, syntetiska transaktioner, Windows-agenter och agentlösa datorer.
Avgör om hälsotjänsten körs på hanteringsservern eller gatewayen.
Avgör om hanteringsservern körs i underhållsläge. Ta bort servern från underhållsläget om det behövs.
Granska Operations Manager-händelseloggen på agenten för att se om det finns någon av de händelser som anges i scenario 2. Om det finns händelse-ID 21006 följer du samma riktlinjer som anges i Lösning för scenario 2. Dessutom indikerar den här händelsen att hanteringsservern eller gatewayen inte kan kommunicera med den överordnade servern. För en gateway kan den överordnade servern vara vilken hanteringsserver som helst. (Se steg 3 i Lösningen för scenario 2.)
Granska Operations Manager-händelseloggen för följande händelser. Dessa händelser indikerar vanligtvis att det finns prestandaproblem på hanteringsservern eller Microsoft SQL Server som är värd för
OperationsManager
databasen ellerOperationsManagerDW
:Händelse-ID: 2115
Händelsekälla: HealthService
Händelsebeskrivning:
En bindningsdatakälla i hanteringsgruppen %1 har publicerat objekt i arbetsflödet, men har inte fått något svar på %5 sekunder. Detta indikerar ett prestanda- eller funktionsproblem med arbetsflödet.%n Arbetsflödes-ID: %2%n Instans: %3%n Instans-ID: %4%nHändelse-ID: 5300
Händelsekälla: HealthService
Händelsebeskrivning:
Den lokala hälsotjänsten är inte felfri. Ändringsflödet för entitetstillstånd har stoppats med väntande bekräftelse. %n%nHanteringsgrupp: %2 %nHanteringsgrupp-ID: %1Händelse-ID: 4506
Händelsekälla: HealthService
Händelsebeskrivning: Operations Manager
Data togs bort på grund av för mycket utestående data i regeln %2 som kördes för instansen %3 med ID:%4 i hanteringsgruppen %1.Händelse-ID: 31551
Händelsekälla: Hälsotjänstmoduler
Händelsebeskrivning:
Det gick inte att lagra data i Data Warehouse. Åtgärden görs på nytt.%rUndantag %5: %6 %n%nEn eller flera arbetsflöden påverkades av detta. %n%nArbetsflödesnamn: %2 %nInstancenamn: %3 %nInstance-ID: %4 %nHanteringsgrupp: %1Händelse-ID: 31552
Händelsekälla: Hälsotjänstmoduler
Händelsebeskrivning:
Det gick inte att lagra data i Data Warehouse.%rUndantag %5: %6 %n%nEn eller flera arbetsflöden påverkades av detta. %n%nArbetsflödesnamn: %2 %nInstancenamn: %3 %nInstance-ID: %4 %nHanteringsgrupp: %1Händelse-ID: 31553
Händelsekälla: Hälsotjänstmoduler
Händelsebeskrivning:
Data skrevs till Data Warehouse mellanlagringsområde men bearbetningen misslyckades för någon av de efterföljande åtgärderna.%rUndantag %5: %6 %n%nEn eller flera arbetsflöden påverkades av detta. %n%nArbetsflödesnamn: %2 %nInstancenamn: %3 %nInstance-ID: %4 %nHanteringsgrupp: %1Händelse-ID: 31557
Händelsekälla: Hälsotjänstmoduler
Händelsebeskrivning:
Det gick inte att hämta information om synkroniseringsprocessens tillstånd från Data Warehouse databas. Åtgärden görs på nytt.%rUndantag %5: %6 %n%nEn eller flera arbetsflöden påverkades av detta. %n%nArbetsflödesnamn: %2 %nInstancenamn: %3 %nInstance-ID: %4 %nHanteringsgrupp: %1Händelse-ID 3155X kan också loggas på grund av felaktiga Kör som-kontokonfigurationer eller saknade behörigheter för Kör som-kontona.
Obs!
Information om hur du felsöker hanteringsserverns eller gatewayens prestanda och SQL Server prestanda finns i avsnittet Lösning för scenario 4.
Scenarier 4
Alla agenter som rapporterar till en specifik hanteringsserver växlar tillfälligt mellan felfria och grå tillstånd. Eller så växlar alla agenter i miljön tillfälligt mellan felfria och grå tillstånd.
Lösning för scenario 4
Lös problemet genom att först fastställa orsaken till problemet. Vanliga orsaker till att den tillfälliga servern inte är tillgänglig är följande:
- Den överordnade servern för agenterna är tillfälligt offline.
- Agenter översvämmar hanteringsservern med driftdata, till exempel aviseringar, tillstånd, identifieringar och så vidare. Detta kan leda till ökad användning av systemresurser i Operations Manager-databasen och på Operations Manager-servrarna.
- Nätverksfel orsakade ett tillfälligt kommunikationsfel mellan den överordnade servern och agenterna.
- Ändringar i hanteringspaketet (MP) har gjorts. I Operations Manager-konsolen kräver dessa ändringar en Operations Manager-konfiguration och en MP-omdistribution till agenterna. Om ändringen påverkar en större agentbas kan detta orsaka ökad användning av systemresurser på Operations Manager-databasen och Operations Manager-servrarna.
Nyckeln till felsökning i dessa scenarier är att förstå varaktigheten för serverns otillgänglighet och den tid på dagen då den inträffade. Detta hjälper dig att snabbt begränsa problemets omfattning.
Felsöka hanteringsserver- och gatewayprestanda
Hanteringsserver
Under en konfigurationsuppdateringssprängning (som orsakas av MP-import och -identifiering) är de typiska flaskhalsarna först processorn och den andra operations manager-installationsdiskens I/O. Hanteringsservern ansvarar för att vidarebefordra konfigurationsfiler till målagenterna.
För datainsamling i drift orsakas flaskhalsar vanligtvis av processorn. Diskens I/O kan också ha maximal kapacitet, men det är inte lika troligt. Hanteringsservern ansvarar för att dekomprimera och dekryptera inkommande driftdata och infoga dem i driftdatabasen. Den skickar även bekräftelser (ACL: er) tillbaka till agenterna eller gatewayerna när de har fått driftdata och använder diskköer för att tillfälligt lagra dessa utgående ACL:er.
Gateway
Gatewayen är både CPU-bunden och I/O-bunden. När gatewayen vidarebefordrar en stor mängd data kan både CPU- och I/O-åtgärderna visa hög användning. Merparten av CPU-användningen orsakas av dekomprimering, komprimering, kryptering och dekryptering av inkommande data, och även av överföring av dessa data. Alla data som tas emot av gatewayen och från agenterna lagras i en beständig kö på disken, som ska läsas och vidarebefordras till hanteringsservern av gatewayens hälsotjänst. Detta kan orsaka hög diskanvändning. Den här användningen kan vara betydande när gatewayen tillfälligt kopplas från och måste sedan hantera ackumulerade agentdata som agenterna genererade och försökte skicka när gatewayen fortfarande var offline.
Om du vill felsöka problemet i den här situationen samlar du in följande information för varje berörd hanteringsserver eller gateway:
Exakt Windows-version, version och versionsnummer
Antal processorer
Mängden RAM-minne
Enhet som innehåller mappen Hälsotillstånd för tjänsten
Om antivirusprogrammet är konfigurerat för att undanta hälsotjänstarkivet
Obs!
Mer information finns i Rekommendationer för antivirusundantag som är relaterade till Operations Manager.
RAID-nivå (
0
,1
,0+1
5
eller1+0
) för enheten som används av hälsotillståndet för tjänstenAntal diskar som används för RAID
Om batteribaserad skrivcache är aktiverad på matrisstyrenheten
Felsöka SQL Server prestanda
Driftdatabas (OperationsManager)
OperationsManager
För databasen är diskmatrisen den troligaste flaskhalsen. Om diskmatrisen inte har maximal I/O-kapacitet är processorn den näst mest sannolika flaskhalsen. Databasen kommer att uppleva tillfälliga långsammare och driftsdatastormar (höga förekomster av händelser, aviseringar och prestandadata eller tillståndsändringar som kvarstår under relativt lång tid). En kort burst orsakar vanligtvis inte någon betydande fördröjning under en längre tid.
Under infogning av driftdata används databasdiskarna främst för skrivningar. CPU-användning orsakas av SQL Server omsättning. Detta kan inträffa när du har stora och komplexa frågor, tung datainfogning och rensning av stora tabeller (som standard sker vid midnatt). Vanligtvis förbrukar inte rensningen av även stora händelser och prestandadatatabeller överdriven processor- eller diskresurser. Rensningen av aviserings- och tillståndsändringstabellerna kan dock vara CPU-intensiv för stora tabeller.
Databasen är också CPU-bunden när den hanterar konfigurationsdistributionstoppar, som orsakas av MP-importer eller av en stor instansutrymmesändring. I dessa fall frågar konfigurationstjänsten databasen efter ny agentkonfiguration. Detta gör vanligtvis att CPU-toppar inträffar i databasen innan tjänsten skickar konfigurationsuppdateringarna till agenterna.
Informationslager (OperationsManagerDW)
OperationsManagerDW
För databasen är diskmatrisen den troligaste flaskhalsen. Detta inträffar vanligtvis på grund av stora infogningar av driftdata. I dessa fall är diskarna mest upptagna med att utföra skrivningar. Vanligtvis utför diskarna några läsningar, förutom för att hantera manuellt genererade rapportvyer eftersom dessa kör frågor på informationslagret.
CPU-användning orsakas av SQL Server omsättning. Cpu-toppar kan inträffa under tung partitioneringsaktivitet (när tabeller blir stora och sedan partitioneras), genereringen av komplexa rapporter och stora mängder aviseringar i databasen, med vilka informationslagret ständigt måste synkroniseras.
Allmän felsökning
Om du vill felsöka problemet i den här situationen samlar du in följande information för varje berörd hanteringsserver eller gateway:
Exakt Windows-version, version och versionsnummer
Antal processorer
Mängden RAM-minne
Mängden minne som allokeras till SQL Server
Om SQL Server är 32-bitars och är AWE-aktiverat
Du hittar det mesta av den här informationen i SQL Server Management Studio eller i SQL Server Enterprise Manager. Det gör du genom att öppna fönstret Egenskaper på servern och sedan välja flikarna Allmänt och Minne . Fliken Allmänt innehåller SQL Server version, Windows-version, plattform, mängden RAM-minne och antalet processorer. Fliken Minne innehåller det minne som har allokerats till SQL Server. I Microsoft SQL Server 2008 innehåller fliken Minne även alternativet AWE.
Om operativsystemet är 32-bitars och RAM-minnet är 4 GB eller större kontrollerar du om växlarna
/pae
eller/3gb
finns i Boot.ini. Filen. Dessa alternativ kan konfigureras felaktigt om servern ursprungligen installerades med 4 GB eller mindre RAM-minne och om RAM-minnet senare uppgraderades.För 32-bitarsservrar som har 4 GB RAM-minne ökar växeln
/3gb
i Boot.ini mängden minne som SQL Server kan hantera (från 2 GB till 3 GB). För 32-bitarsservrar som har mer än 4 GB RAM-minne kan växeln/3gb
i Boot.ini faktiskt begränsa mängden minne som SQL Server kan hantera. För dessa system lägger du till växeln i/pae
Boot.ini och aktiverar sedan AWE i SQL Server.Kontrollera maxgraden för parallellitet (MAXDOP) i ett system med flera processorer. I SQL Server 2008 finns det här alternativet på fliken Avancerat i dialogrutan Egenskaper för servern.
Standardvärdet är 0, vilket innebär att alla tillgängliga processorer används. En inställning på 0 är bra för servrar som har åtta eller färre processorer. För servrar som har fler än åtta processorer kan den tid det tar SQL Server att samordna användningen av alla processorer vara kontraproduktiv. För servrar som har fler än åtta processorer bör du därför i allmänhet ange Maximal grad av parallellitet till värdet 8. Det gör du genom att köra följande kommando i SQL Query Analyzer:
sp_configure 'show advanced options', 1 GO RECONFIGURE WITH OVERRIDE GO sp_configure 'max degree of parallelism', 8 GO RECONFIGURE WITH OVERRIDE GO
Enhetsbeteckningar som innehåller informationslager, Operations Manager DB- och Tempdb-filer
Om antivirusprogrammet är konfigurerat för att undanta SQL-data och loggfiler (genomsökning av SQL Server databasfiler med antivirusprogram kan försämra prestanda.)
Mängden ledigt utrymme på enheter som innehåller informationslager, Operations Manager DB- och Tempdb-filer
Lagringstyp (SAN eller lokal)
RAID-nivå (0, 1, 5, 0+1 eller 1+0) för enheter som används av SQL Server
Om SAN-lagring används: antal spindlar på varje LUN som används av SQL Server
Om det konverterade Exchange 2007-hanteringspaketet används eller någonsin har använts: antal rader i
LocalizedText
tabellen i Operations Manager-databasen och iEventPublisher
tabellen i informationslagerdatabasenKör följande kommandon för att fastställa radbeloppen:
USE OperationsManager SELECT COUNT(*) FROM LocalizedText USE OperationsManagerDW SELECT COUNT(*) FROM EventPublisher
Räknare för att identifiera minnesbelastning
Namn på prestandaräknare | Beskrivning |
---|---|
MSSQL$<instance>: Buffer Manager: Förväntad sidlivslängd | Hur länge sidor finns kvar i buffertpoolen. Om det här värdet är under 300 sekunder kan det tyda på att servern kan använda mer minne. Det kan också bero på indexfragmentering. |
MSSQL$<instance>: Buffer Manager: Lazy writes/sec | Lazy Writer frigör utrymme i bufferten genom att flytta sidor till disk. I allmänhet bör värdet inte konsekvent överstiga 20 skrivningar per sekund. Helst skulle det vara nära noll. |
Minne: Tillgängliga Mbyte | Värden under 100 MB kan indikera minnesbelastning. Minnestryck finns tydligt när den här mängden är mindre än 10 MB. |
Process: Privata byte: _Total | Det här är mängden minne (fysisk och sida) som används av alla processer tillsammans. |
Process: Arbetsuppsättning: _Total | Det här är mängden fysiskt minne som används av alla processer tillsammans. Om värdet för den här räknaren ligger betydligt under värdet för Process: Private Bytes: _Total anger det att processerna växlingen är för hög. En skillnad på mer än 10 % är förmodligen betydande. |
Räknare för att identifiera disktryck
Samla in dessa fysiska diskräknare för alla enheter som innehåller SQL-data eller loggfiler:
% inaktivitetstid: Hur mycket inaktivitetstid som rapporteras för disken. Allt under 50 procent kan tyda på en flaskhals på disken.
Genomsnittlig diskkölängd: Det här värdet får inte överstiga dubbelt så många spindlar på ett LUN. Om ett LUN till exempel har 25 spindlar är värdet 50 acceptabelt. Men om ett LUN har 10 spindlar är värdet 25 för högt. Du kan använda följande formler baserat på RAID-nivån och antalet diskar i RAID-konfigurationen:
RAID 0: Alla diskar arbetar i en RAID 0-uppsättning
Genomsnittlig diskkölängd<= # (diskar i matrisen) *2
RAID 1: hälften av diskarna fungerar; Därför kan endast hälften av dem räknas mot diskkö
Genomsnittlig diskkölängd<= # (diskar i matrisen/2) *2
RAID 10: hälften av diskarna "utför arbete"; Därför kan endast hälften av dem räknas mot diskkö
Genomsnittlig diskkölängd<= # (diskar i matrisen/2) *2
RAID 5: Alla diskar arbetar i en RAID 5-uppsättning
Genomsnittlig diskkölängd<= # Diskar i matrisen *2
Genomsnittlig disk sek/överföring: Antalet sekunder det tar att slutföra en disk-I/O
Genomsnittlig disksekunder/läsning: Den genomsnittliga tiden i sekunder för att läsa data från disken
Genomsnittlig disksek/skrivning: Den genomsnittliga tiden i sekunder för att skriva data till disken
De tre sista räknarna i den här listan bör konsekvent ha värden på cirka 0,020 (20 ms) eller lägre och får aldrig överstiga 0,050 (50 ms). Följande är de tröskelvärden som beskrivs i felsökningsguiden för SQL Server prestanda:
- Mindre än 10 ms: mycket bra
- Mellan 10 och 20 ms: okej
- Mellan 20–50 ms: långsam, behöver åtgärdas
- Större än 50 ms: allvarlig I/O-flaskhals
Diskbyte/s: Antalet byte som överförs till eller från disken per sekund
Disköverföringar per sekund: Antalet in- och utdataåtgärder per sekund (IOPS)
När % inaktivitetstid är låg (10 procent eller mindre) innebär det att disken används fullt ut. I det här fallet ger de två sista räknarna i den här listan (diskbyte/sek och disköverföringar/sek) en bra indikation på enhetens maximala dataflöde i byte respektive IOPS. Dataflödet för en SAN-enhet är mycket varierande, beroende på antalet spindlar, enheternas hastighet och kanalens hastighet. Det bästa valet är att kontakta SAN-leverantören för att ta reda på hur många byte och IOPS enheten ska ha stöd för. Om % inaktivitetstid är låg och värdena för dessa två räknare inte uppfyller det förväntade dataflödet för enheten kan du kontakta SAN-leverantören för att felsöka.
SQL Server felsökningsguide för prestanda ger djupare inblick i felsökning SQL Server prestanda.
Prestandaräknare för Operations Manager
I följande avsnitt beskrivs de prestandaräknare som du kan använda för att övervaka och felsöka Operations Manager-prestanda.
Gateway-serverroll
Övergripande prestandaräknare
Dessa räknare anger gatewayens övergripande prestanda:
Namn på prestandaräknare |
---|
Processor(_Total)\% processortid |
Minne\% bekräftade byte som används |
Nätverksgränssnitt(*)\Antal byte per sekund |
LogicalDisk(*)\% inaktivitetstid |
LogicalDisk(*)\Genomsnittlig diskkölängd |
Operations Manager-processens allmänna prestandaräknare
Dessa räknare anger den övergripande prestandan för Operations Manager-processer på gatewayen:
Namn på prestandaräknare | Beskrivning |
---|---|
Process(HealthService)\% processortid | |
Process(HealthService)\Privata byte | Beroende på hur många agenter den här gatewayen hanterar kan det här antalet variera och kan vara flera hundra megabyte |
Process(HealthService)\Thread Count | |
Process(HealthService)\Virtuella byte | |
Process(HealthService)\Working Set | |
Process(MonitoringHost*)\% processortid | |
Process(MonitoringHost*)\Privata byte | |
Process(MonitoringHost*)\Antal trådar | |
Process(MonitoringHost*)\Virtuella byte | |
Process(MonitoringHost*)\Working Set |
Operations Manager-specifika prestandaräknare
Dessa räknare är Operations Manager-specifika räknare som anger prestanda för specifika aspekter av Operations Manager på gatewayen:
Namn på prestandaräknare | Beskrivning |
---|---|
Hälsotjänst\Antal arbetsflöden | |
Hälsotjänsthanteringsgrupper(*)\Aktiva filuppladdningar | Antalet filöverföringar som den här gatewayen hanterar. Detta representerar antalet hanteringspaketfiler som laddas upp till agenter. Om det här värdet ligger kvar på en hög nivå under en längre tid och det inte importeras mycket hanteringspaket vid en viss tidpunkt kan dessa villkor generera ett problem som påverkar filöverföringen. |
Hälsotjänsthanteringsgrupper(*)\Skicka kö % används | Storleken på den beständiga kön. Om det här värdet förblir högre än 10 under en längre tid och det inte tas bort, indikerar detta att kön säkerhetskopieras. Det här villkoret orsakas av ett överbelastat Operations Manager-system eftersom hanteringsservern eller databasen är för upptagen eller offline. |
OpsMgr Connector\Mottagna byte | Antalet nätverksbyte som tas emot av gatewayen, det vill sa antalet inkommande byte före dekomprimering. |
OpsMgr Connector\Bytes Transmitted | Antalet nätverksbyte som skickas av gatewayen , det vill sägs antalet utgående byte efter komprimering. |
OpsMgr Connector\Mottagna databyte | Antalet databyte som tas emot av gatewayen, det vill sa mängden inkommande data efter dekomprimering. |
OpsMgr Connector\Data Bytes Transmitted | Antalet databyte som skickas av gatewayen, det vill sa mängden utgående data före komprimering. |
OpsMgr Connector\Öppna Connections | Antalet anslutningar som är öppna på gatewayen. Det här antalet ska vara samma som antalet agenter eller hanteringsservrar som är direkt anslutna till gatewayen. |
Hanteringsserverroll
Övergripande prestandaräknare
Dessa räknare anger hanteringsserverns övergripande prestanda:
Namn på prestandaräknare |
---|
Processor(_Total)\% processortid |
Minne\% bekräftade byte som används |
Nätverksgränssnitt(*)\Antal byte per sekund |
LogicalDisk(*)\% inaktivitetstid |
LogicalDisk(*)\Genomsnittlig diskkölängd |
Operations Manager-processens allmänna prestandaräknare
Dessa räknare anger den övergripande prestandan för Operations Manager-processer på hanteringsservern:
Namn på prestandaräknare | Beskrivning |
---|---|
Process(HealthService)\% processortid | |
Process(HealthService)\Privata byte | Beroende på hur många agenter den här hanteringsservern hanterar kan det här antalet variera och det kan vara flera hundra megabyte. |
Process(HealthService)\Thread Count | |
Process(HealthService)\Virtuella byte | |
Process(HealthService)\Working Set | |
Process(MonitoringHost*)\% processortid | |
Process(MonitoringHost*)\Privata byte | |
Process(MonitoringHost*)\Antal trådar | |
Process(MonitoringHost*)\Virtuella byte | |
Process(MonitoringHost*)\Working Set |
Operations Manager-specifika prestandaräknare
Dessa räknare är Operations Manager-specifika räknare som anger prestanda för specifika aspekter av Operations Manager på hanteringsservern:
Namn på prestandaräknare | Beskrivning |
---|---|
Hälsotjänst\Antal arbetsflöden | Antalet arbetsflöden som körs på den här hanteringsservern. |
Hälsotjänsthanteringsgrupper(*)\Aktiva filuppladdningar | Antalet filöverföringar som hanteringsservern hanterar. Detta representerar antalet hanteringspaketfiler som laddas upp till agenter. Om det här värdet ligger kvar på en hög nivå under en längre tid och det inte importeras mycket hanteringspaket vid en viss tidpunkt kan dessa villkor generera ett problem som påverkar filöverföringen. |
Hälsotjänsthanteringsgrupper(*)\Skicka kö % används | Storleken på den beständiga kön. Om det här värdet förblir högre än 10 under en längre tid och det inte tas bort, indikerar detta att kön säkerhetskopieras. Det här villkoret orsakas av ett överbelastat Operations Manager-system eftersom Operations Manager-systemet (till exempel rothanteringsservern) är för upptaget eller offline. |
Hälsotjänsthanteringsgrupper(*)\Borttagningsfrekvens för objekt för bindningsdatakälla | Antalet dataobjekt som tas bort av hanteringsservern för skrivåtgärder för databas- eller informationslagerdatainsamling. När det här räknarvärdet inte 0 är överbelastas hanteringsservern eller databasen eftersom den inte kan hantera det inkommande dataobjektet tillräckligt snabbt eller på grund av att ett dataobjekts burst inträffar. De borttagna dataobjekten kommer att bli återstända av agenter. När överlagringen eller burst-situationen är klar infogas dessa dataobjekt i databasen eller i informationslagret. |
Hälsotjänsthanteringsgrupper(*)\Inkommande frekvens för bindning av datakällaobjekt | Antalet dataobjekt som tas emot av hanteringsservern för skrivåtgärder för databas- eller informationslagerdatainsamling. |
Hanteringsgrupper för hälsotjänst(*)\Postfrekvens för bindning av datakällaobjekt | Antalet dataobjekt som hanteringsservern skrev till databasen eller informationslagret för skrivåtgärder för datainsamling. |
OpsMgr Connector\Mottagna byte | Antalet nätverksbyte som tas emot av hanteringsservern , det vill sa storleken på inkommande byte före dekomprimering. |
OpsMgr Connector\Bytes Transmitted | Antalet nätverksbyte som skickas av hanteringsservern , det vill sa storleken på utgående byte efter komprimering. |
OpsMgr Connector\Mottagna databyte | Antalet databyte som tas emot av hanteringsservern, det vill sa storleken på inkommande data efter dekomprimering. |
OpsMgr Connector\Data Bytes Transmitted | Antalet databyte som skickas av hanteringsservern, dvs. storleken på utgående data före komprimering. |
OpsMgr Connector\Öppna Connections | Antalet anslutningar som är öppna på hanteringsservern. Det bör vara samma som antalet agenter eller rothanteringsservern som är direkt anslutna till den. |
OpsMgr-databasen Write Action Modules(*)\Avg. Batch Size | Antalet dataobjekt eller batchar som tas emot av databasskrivningsåtgärdsmoduler. Om det här talet är 5 000 inträffar en dataobjektsexplosion. |
OpsMgr DB Write Action Modules(*)\Avg. Processing Time | Antalet sekunder som modulerna för att skriva en databas tar för att infoga en batch i databasen. Om det här antalet ofta är större än 60 uppstår ett problem med databasinfogningsprestanda. |
OpsMgr DW Writer Module(*)\Avg. Batch Processing Time, ms | Antalet millisekunder för informationslagrets skrivåtgärd för att infoga en batch med dataobjekt i ett informationslager. |
OpsMgr DW Writer Module(*)\Genomsnittlig batchstorlek | Det genomsnittliga antalet dataobjekt eller batchar som tas emot av informationslagrets skrivåtgärdsmoduler. |
OpsMgr DW Writer Module(*)\Batches/s | Antalet batchar som tas emot av informationslagrets skrivåtgärdsmoduler per sekund. |
OpsMgr DW Writer Module(*)\Dataobjekt/s | Antalet dataobjekt som tas emot av informationslagrets skrivåtgärdsmoduler per sekund. |
OpsMgr DW Writer Module(*)\Dropped Data Item Count | Antalet dataobjekt som släppts av modulerna för skrivåtgärder i informationslagret. |
OpsMgr DW Writer Module(*)\Total Error Count | Antalet fel som inträffade i en modul för skrivåtgärder för informationslager. |