Delen via


Problemen met grijze agentstatussen oplossen in System Center Operations Manager

In dit artikel wordt beschreven hoe u problemen kunt oplossen waarbij een agent, een beheerserver of een gateway niet beschikbaar is of grijs wordt weergegeven in System Center Operations Manager (OpsMgr).

Oorspronkelijke productversie: Microsoft System Center 2012 Operations Manager
Origineel KB-nummer: 2288515

Een agent, een beheerserver of een gateway kan een van de volgende statussen hebben, zoals wordt aangegeven door de kleur van de agentnaam en het pictogram in het deelvenster Bewaking .

Status Uiterlijk Beschrijving
Gezonde Groen vinkje De agent of beheerserver wordt normaal uitgevoerd.
Essentieel Rood vinkje Er is een probleem met de agent of beheerserver.
Unknown Grijze agentnaam, grijs vinkje De health service-watcher op de beheerserver die de statusservice op de bewaakte computer in de gaten houdt, ontvangt geen heartbeats meer van de agent. De health service watcher had eerder heartbeats ontvangen en de status werd gerapporteerd als in orde. Dit betekent ook dat de beheerservers geen informatie meer ontvangen van de agent.

Dit probleem kan optreden als de computer waarop de agent wordt uitgevoerd niet wordt uitgevoerd of als er verbindingsproblemen zijn.
Unknown Groene cirkel, geen vinkje De status van het gedetecteerde item is onbekend. Er is geen monitor beschikbaar voor dit specifieke gedetecteerde item.

Oorzaken van een grijze status

Een agent, een beheerserver of een gateway kan om een van de volgende redenen niet meer beschikbaar zijn:

  • Heartbeatfout
  • Ongeldige configuratie
  • Fout met systeemwerkstromen
  • Prestatieproblemen met Operations Manager-database of datawarehouse
  • Prestatieproblemen met beheerserver of gatewayserver
  • Netwerk- of verificatieproblemen
  • Health Service wordt niet uitgevoerd

Bereik van probleem

Voordat u begint met het oplossen van het probleem met grijs weergegeven agent, moet u eerst de Operations Manager-topologie begrijpen en vervolgens het bereik van het probleem definiëren. De volgende vragen kunnen u helpen bij het definiëren van het bereik van het probleem:

  • Hoeveel agents worden beïnvloed?
  • Ondervinden de agents het probleem in hetzelfde netwerksegment?
  • Rapporteren de agents aan dezelfde beheerserver?
  • Hoe vaak komen de agents in een grijze status en blijven ze in een grijze status?
  • Hoe herstelt u doorgaans van deze situatie (start bijvoorbeeld de statusservice van de agent opnieuw, wis de cache, vertrouw op automatisch herstel)?
  • Worden de waarschuwingen voor heartbeatfouten gegenereerd voor deze agents?
  • Treedt dit probleem op tijdens een bepaald tijdstip van de dag?
  • Blijft dit probleem zich voordoen als u een failover uitvoert van deze agents naar een andere beheerserver of gateway?
  • Wanneer is dit probleem begonnen?
  • Zijn er wijzigingen aangebracht in de agents, de beheerservers of de gateway of beheergroep?
  • Zijn de betrokken agents geclusterde Windows-systemen?
  • Is de healthservicestatusmap uitgesloten van het scannen van antivirusprogramma's?

Strategie voor probleemoplossing

Uw strategie voor probleemoplossing wordt bepaald door welk onderdeel inactief is, waar dat onderdeel binnen de topologie valt en hoe wijdverbreid het probleem is. Houd rekening met de volgende voorwaarden:

  • Als de agents die rapporteren aan een bepaalde beheerserver of gateway niet beschikbaar zijn, moet het oplossen van problemen beginnen op het niveau van de beheerserver of gateway.
  • Als de gateways die rapporteren aan een bepaalde beheerserver niet beschikbaar zijn, moet het oplossen van problemen beginnen op het niveau van de beheerserver.
  • Voor systemen zonder agent, voor netwerkapparaten en voor Unix- en Linux-servers moet het oplossen van problemen beginnen bij de agent, beheerserver of gateway die deze objecten bewaakt.
  • Het oplossen van problemen begint meestal op het niveau direct boven het niet-beschikbare onderdeel.

Scenario 1

Slechts enkele agents worden beïnvloed door het probleem. Deze agents rapporteren aan verschillende beheerservers. Agents blijven regelmatig niet beschikbaar. Hoewel u de agentcache kunt wissen om het probleem tijdelijk op te lossen, treedt het probleem na een paar dagen opnieuw op.

Oplossing voor scenario 1

Voer de volgende stappen uit om het probleem in dit scenario op te lossen:

  1. Pas de juiste hotfix toe op de betrokken besturingssystemen.
  2. Sluit de agentcache uit van antivirusscans. Zie Aanbevelingen voor antivirusuitsluitingen die betrekking hebben op Operations Manager voor meer informatie.
  3. Stop de gezondheidsservice.
  4. Wis de agentcache.
  5. Start de healthservice.

Scenario 2

Slechts enkele agents worden beïnvloed door het probleem. Deze agents rapporteren aan verschillende beheerservers. Agents blijven voortdurend inactief. Hoewel u de agentcache kunt wissen, is het probleem hiermee niet opgelost.

Oplossing voor scenario 2

Voer de volgende stappen uit om het probleem in dit scenario op te lossen:

  1. Bepaal of de health-service is ingeschakeld en momenteel wordt uitgevoerd op de beheerserver of gateway. Als de statusservice niet meer reageert, genereert u een ADPlus-dump in een vastgelopen servicemodus om de oorzaak van het probleem te bepalen. Zie How to use ADPlus.vbs to troubleshoot 'hangs' and 'crashes' (Problemen met vastlopen en vastlopen) voor meer informatie

  2. Bekijk het Operations Manager-gebeurtenislogboek op de agent om een van de volgende gebeurtenissen te vinden:

    Gebeurtenis-id: 1102
    Gebeurtenisbron: HealthService
    Beschrijving van gebeurtenis:
    Regel/controle %4 die bijvoorbeeld %3 met id:%2 wordt uitgevoerd, kan niet worden geïnitialiseerd en wordt niet geladen. Beheergroep %1

    Gebeurtenis-id: 1103
    Gebeurtenisbron: HealthService
    Beschrijving van gebeurtenis:
    Samenvatting: %2 regel(en)/monitor(s) is mislukt en is uitgeladen, %3 van hen heeft de foutlimiet bereikt die automatisch opnieuw laden voorkomt. Beheergroep %1. Dit is alleen samenvattingsgebeurtenis, zie andere gebeurtenissen met beschrijvingen van uitgepakte regel(en)/monitor(s).

    Gebeurtenis-id: 1104
    Gebeurtenisbron: HealthService
    Beschrijving van gebeurtenis:
    RunAs-profiel in werkstroom %4, waarbij bijvoorbeeld %3 met id:%2 wordt uitgevoerd, kan niet worden opgelost. Werkstroom wordt niet geladen. Beheergroep %1

    Gebeurtenis-id: 1105
    Gebeurtenisbron: HealthService
    Beschrijving van gebeurtenis:
    Type komt niet overeen voor RunAs-profiel in werkstroom %4, waarbij bijvoorbeeld %3 wordt uitgevoerd met id:%2. Werkstroom wordt niet geladen. Beheergroep %1

    Gebeurtenis-id: 1106
    Gebeurtenisbron: HealthService
    Beschrijving van gebeurtenis:
    Kan geen toegang krijgen tot het RunAs-profiel in de werkstroom %4, waarbij bijvoorbeeld %3 wordt uitgevoerd met id:%2. Werkstroom wordt niet geladen. Beheergroep %1

    Gebeurtenis-id: 1107
    Gebeurtenisbron: HealthService
    Beschrijving van gebeurtenis:
    Account voor RunAs-profiel in werkstroom %4, waarbij bijvoorbeeld %3 met id:%2 wordt uitgevoerd, is niet gedefinieerd. Werkstroom wordt niet geladen. Koppel een account aan het profiel. Beheergroep %1

    Gebeurtenis-id: 1108
    Gebeurtenisbron: HealthService
    Beschrijving van gebeurtenis:
    Een account dat is opgegeven in het Uitvoeren als-profiel %7, kan niet worden omgezet. Het account wordt met name gebruikt in de Secure Reference Override %6. %n%n Deze voorwaarde kan zijn opgetreden omdat het account niet is geconfigureerd om te worden gedistribueerd naar deze computer. Om dit probleem op te lossen, moet u het uitvoeren als-profiel openen dat hieronder is opgegeven, de accountvermelding zoeken zoals opgegeven door de SSID en ervoor kiezen om het account zo nodig naar deze computer te distribueren of de instelling in het profiel te wijzigen, zodat het doelobject het opgegeven account niet gebruikt. %n%nBeheergroep: %1 %nUitvoeren als profiel: %7 %nSecureReferenceOverride-naam: %6 %nSecureReferenceOverride-id: %4 %nObjectnaam: %3 %nObject-id: %2 %nAccount-SSID: %5

    Gebeurtenis-id: 4000
    Gebeurtenisbron: HealthService
    Beschrijving van gebeurtenis:
    Een bewakingshost reageert niet of is gecrasht. De statuscode voor de hostfout is %1.

    Gebeurtenis-id: 21016
    Gebeurtenisbron: OpsMgr-connector
    Beschrijving van gebeurtenis:
    OpsMgr kan geen communicatiekanaal instellen op %1 en er zijn geen failoverhosts. De communicatie wordt hervat wanneer %1 beschikbaar is en communicatie vanaf deze computer is toegestaan.

    Gebeurtenis-id: 21006
    Gebeurtenisbron: OpsMgr-connector
    Beschrijving van gebeurtenis:
    De OpsMgr-connector kan geen verbinding maken met %1:%2. De foutcode is %3(%4). Controleer of er netwerkverbinding is, of de server actief is en de luisterpoort is geregistreerd en of er geen firewalls zijn die verkeer naar de bestemming blokkeren.

    Gebeurtenis-id: 20070
    Gebeurtenisbron: OpsMgr-connector
    Beschrijving van gebeurtenis:
    De OpsMgr-connector is verbonden met %1, maar de verbinding is onmiddellijk na verificatie gesloten. De meest waarschijnlijke oorzaak van deze fout is dat de agent niet is gemachtigd om te communiceren met de server of dat de server geen configuratie heeft ontvangen. Controleer het gebeurtenislogboek op de server op de aanwezigheid van 20000-gebeurtenissen, wat aangeeft dat agents die niet zijn goedgekeurd, verbinding proberen te maken.

    Gebeurtenis-id: 20051
    Gebeurtenisbron: OpsMgr-connector
    Beschrijving van gebeurtenis:
    Het opgegeven certificaat kan niet worden geladen omdat het certificaat momenteel niet geldig is. Controleer of de systeemtijd juist is en geef het certificaat indien nodig opnieuw uit%n Certificaat Geldige begintijd: %1%n Certificaat geldige eindtijd : %2

    Gebeurtenisbron: ESE
    Gebeurteniscategorie: Transaction Manager
    Gebeurtenis-id: 623
    Beschrijving: HealthService (<PID>) Het versiearchief voor exemplaarexemplaren><("<naam>") heeft de maximale waarde> mb < bereikt. Het is waarschijnlijk dat een langlopende transactie het opschonen van het versiearchief verhindert en ervoor zorgt dat deze zich in omvang opschonen. Updates wordt geweigerd totdat de langlopende transactie volledig is doorgevoerd of teruggedraaid. Mogelijke langlopende transactie:
    SessionId: <waarde>
    Sessiecontext: <waarde>
    ThreadId voor sessiecontext: <waarde>.
    Opschonen: <waarde>

  3. Als u de volgende specifieke gebeurtenissen zoekt, volgt u deze richtlijnen:

    • Gebeurtenissen 1102 en 1103: deze gebeurtenissen geven aan dat sommige werkstromen niet zijn geladen. Als dit de belangrijkste systeemwerkstromen zijn, kunnen deze gebeurtenissen het probleem veroorzaken. In dit geval richt u zich op het oplossen van deze gebeurtenissen.

    • Gebeurtenissen 1104, 1105, 1106, 1107 en 1108: deze gebeurtenissen kunnen ertoe leiden dat gebeurtenissen 1102 en 1103 plaatsvinden. Dit gebeurt meestal vanwege onjuist geconfigureerde Uitvoeren als-accounts. De Uitvoeren als-accounts zijn bijvoorbeeld geconfigureerd om te worden gebruikt met de verkeerde klasse of zijn niet geconfigureerd om te worden gedistribueerd naar de agent.

    • Gebeurtenis 4000: Deze gebeurtenis geeft aan dat het Monitoringhost.exe proces is vastgelopen. Als dit probleem wordt veroorzaakt door een DLL-bestand dat niet overeenkomt of door ontbrekende registersleutels, kunt u het probleem mogelijk oplossen door de agent opnieuw te installeren. Als het probleem zich blijft voordoen, probeert u het op te lossen met behulp van de volgende methoden:

    • Gebeurtenis-id 21006: deze gebeurtenis geeft aan dat er communicatieproblemen zijn tussen de agent en de beheerserver. Als de agent een certificaat gebruikt voor wederzijdse verificatie, controleert u of het certificaat niet is verlopen en of de agent het juiste certificaat gebruikt. Als Kerberos wordt gebruikt, controleert u of de agent kan communiceren met Active Directory. Als verificatie correct werkt, kan dit betekenen dat de pakketten van de agent de beheerserver of gateway niet bereiken. Probeer een telnet tot stand te brengen naar poort 5723 van de agent naar de beheerserver. Voer daarnaast een gelijktijdige netwerktracering uit tussen de agent en de beheerserver terwijl u de communicatiefouten reproduceert. Dit kan u helpen om te bepalen of de pakketten de beheerserver bereiken en of een apparaat tussen de twee onderdelen het verkeer probeert te optimaliseren of sommige pakketten verwijdert. Zie Gegevens verzamelen met netwerkmonitor voor meer informatie.

    • Gebeurtenis-id 623: Deze gebeurtenis vindt meestal plaats in een grote Operations Manager-omgeving waarin een beheerserver of een agentcomputer veel werkstromen beheert. Zie Een of meer beheerservers en hun beheerde apparaten zijn grijs weergegeven in de Operations Manager-console voor meer informatie.

Scenario 3

Alle agents die rapporteren aan een bepaalde beheerserver of gateway zijn niet beschikbaar.

Oplossing voor scenario 3

Voer de volgende stappen uit om het probleem in dit scenario op te lossen:

  1. Probeer te bepalen welk soort workloads de beheerserver of gateway bewaakt. Dergelijke workloads kunnen netwerkapparaten, platformoverschrijdende agents, synthetische transacties, Windows-agents en computers zonder agent omvatten.

  2. Bepaal of de statusservice wordt uitgevoerd op de beheerserver of gateway.

  3. Bepaal of de beheerserver wordt uitgevoerd in de onderhoudsmodus. Als dit nodig is, verwijdert u de server uit de onderhoudsmodus.

  4. Bekijk het Operations Manager-gebeurtenislogboek op de agent op een van de gebeurtenissen die worden vermeld in Scenario 2. Als er gebeurtenis-id 21006 is, volgt u dezelfde richtlijnen die worden vermeld in Oplossing voor scenario 2. Bovendien geeft deze gebeurtenis in dit geval aan dat de beheerserver of gateway niet kan communiceren met de bovenliggende server. Voor een gateway kan de bovenliggende server elke beheerserver zijn. (Raadpleeg stap 3 in de Oplossing voor scenario 2.)

  5. Bekijk het Operations Manager-gebeurtenislogboek voor de volgende gebeurtenissen. Deze gebeurtenissen geven doorgaans aan dat er prestatieproblemen zijn op de beheerserver of Microsoft SQL Server die als host fungeert voor de OperationsManager database ofOperationsManagerDW:

    Gebeurtenis-id: 2115
    Gebeurtenisbron: HealthService
    Beschrijving van gebeurtenis:
    Een bindingsgegevensbron in beheergroep %1 heeft items naar de werkstroom gepost, maar heeft binnen %5 seconden geen antwoord ontvangen. Dit geeft een prestatie- of functioneel probleem met de werkstroom aan.%n Werkstroom-id: %2%n Exemplaar: %3%n Exemplaar-id: %4%n

    Gebeurtenis-id: 5300
    Gebeurtenisbron: HealthService
    Beschrijving van gebeurtenis:
    De lokale gezondheidsdienst is niet in orde. Wijzigingsstroom voor entiteitsstatus is vastgelopen met bevestiging in behandeling. %n%nBeheergroep: %2 %nBeheergroep-id: %1

    Gebeurtenis-id: 4506
    Gebeurtenisbron: HealthService
    Beschrijving van gebeurtenis: Operations Manager
    Gegevens zijn verwijderd vanwege te veel openstaande gegevens in regel %2 die bijvoorbeeld %3 wordt uitgevoerd met id:"%4" in beheergroep "%1".

    Gebeurtenis-id: 31551
    Gebeurtenisbron: Health Service-modules
    Beschrijving van gebeurtenis:
    Kan gegevens niet opslaan in de Data Warehouse. De bewerking wordt opnieuw uitgevoerd.%rException %5: %6 %n%n Een of meer werkstromen zijn hierdoor beïnvloed. %n%nWerkstroomnaam: %2 %nInstancenaam: %3 %nInstance-id: %4 %nBeheergroep: %1

    Gebeurtenis-id: 31552
    Gebeurtenisbron: Health Service-modules
    Beschrijving van gebeurtenis:
    Kan gegevens niet opslaan in de Data Warehouse.%rUitzondering %5: %6 %n%nEen of meer werkstromen zijn hierdoor beïnvloed. %n%nWerkstroomnaam: %2 %nInstancenaam: %3 %nInstance-id: %4 %nBeheergroep: %1

    Gebeurtenis-id: 31553
    Gebeurtenisbron: Health Service-modules
    Beschrijving van gebeurtenis:
    Gegevens zijn naar het Data Warehouse faseringsgebied geschreven, maar de verwerking is mislukt op een van de volgende bewerkingen.%rUitzondering %5: %6 %n%nDe of meer werkstromen zijn hierdoor beïnvloed. %n%nWerkstroomnaam: %2 %nInstancenaam: %3 %nInstance-id: %4 %nBeheergroep: %1

    Gebeurtenis-id: 31557
    Gebeurtenisbron: Health Service-modules
    Beschrijving van gebeurtenis:
    Kan de statusgegevens van het synchronisatieproces niet ophalen uit Data Warehouse database. De bewerking wordt opnieuw uitgevoerd.%rException %5: %6 %n%n Een of meer werkstromen zijn hierdoor beïnvloed. %n%nWerkstroomnaam: %2 %nInstancenaam: %3 %nInstance-id: %4 %nBeheergroep: %1

  6. Gebeurtenis-id 3155X kan ook worden geregistreerd vanwege onjuiste Run As-accountconfiguraties of ontbrekende machtigingen voor de Uitvoeren als-accounts.

Opmerking

Zie de sectie Oplossing voor scenario 4 voor het oplossen van problemen met de prestaties van de beheerserver of gateway en het SQL Server prestaties.

Scenario's 4

Alle agents die rapporteren aan een specifieke beheerserver wisselen af en toe af tussen de statussen in orde en grijs. Of alle agents in de omgeving wisselen af en toe tussen gezonde en grijze statussen.

Oplossing voor scenario 4

Bepaal eerst de oorzaak van het probleem om het probleem op te lossen. Veelvoorkomende oorzaken van tijdelijke niet-beschikbaarheid van de server zijn onder andere:

  • De bovenliggende server van de agents is tijdelijk offline.
  • Agents overspoelen de beheerserver met operationele gegevens, zoals waarschuwingen, statussen, ontdekkingen, enzovoort. Dit kan leiden tot een toenemend gebruik van systeembronnen op de Operations Manager-database en op de Operations Manager-servers.
  • Netwerkstoringen hebben een tijdelijke communicatiefout veroorzaakt tussen de bovenliggende server en de agents.
  • Er zijn wijzigingen in het management pack (MP) opgetreden. In de Operations Manager-console vereisen deze wijzigingen een Operations Manager-configuratie en een MP-herdistributie naar de agents. Als de wijziging van invloed is op een grotere agentbasis, kan dit leiden tot een verhoogd gebruik van systeemresources op de Operations Manager-database en Operations Manager-servers.

De sleutel voor het oplossen van problemen in deze scenario's is om inzicht te hebben in de duur van de niet-beschikbaarheid van de server en het tijdstip van de dag waarop deze zich heeft voorgedaan. Dit helpt u om het bereik van het probleem snel te beperken.

Problemen met de prestaties van de beheerserver en gateway oplossen

Beheerserver

Tijdens een burst van een configuratie-update (die wordt veroorzaakt door MP-import en -detectie), zijn de typische knelpunten ten eerste de CPU en ten tweede de I/O van de Operations Manager-installatieschijf. De beheerserver is verantwoordelijk voor het doorsturen van configuratiebestanden naar de doelagents.

Voor het verzamelen van operationele gegevens worden knelpunten meestal veroorzaakt door de CPU. De schijf-I/O kan ook de maximale capaciteit hebben, maar dat is niet zo waarschijnlijk. De beheerserver is verantwoordelijk voor het decomprimeren en ontsleutelen van binnenkomende operationele gegevens en het invoegen ervan in de operationele database. Er worden ook bevestigingsbevestigingen (ACL's) naar de agents of gateways verzonden nadat deze operationele gegevens zijn ontvangen en wordt schijfwacht rijbewerking gebruikt om deze uitgaande ACL's tijdelijk op te slaan.

Gateway

De gateway is zowel CPU- als I/O-gebonden. Wanneer de gateway een grote hoeveelheid gegevens doorgeeft, kunnen zowel de CPU- als I/O-bewerkingen een hoog gebruik vertonen. Het meeste CPU-gebruik wordt veroorzaakt door de decompressie, compressie, versleuteling en ontsleuteling van de binnenkomende gegevens, en ook door de overdracht van die gegevens. Alle gegevens die door de gateway en van de agents worden ontvangen, worden opgeslagen in een permanente wachtrij op schijf, die moet worden gelezen en doorgestuurd naar de beheerserver door de gateway Health-service. Dit kan leiden tot intensief schijfgebruik. Dit gebruik kan aanzienlijk zijn wanneer de gateway tijdelijk offline wordt genomen en vervolgens verzamelde agentgegevens moet verwerken die de agents hebben gegenereerd en geprobeerd te verzenden toen de gateway nog offline was.

Als u het probleem in deze situatie wilt oplossen, verzamelt u de volgende informatie voor elke betrokken beheerserver of gateway:

  • Exact Windows-versie, -editie en -buildnummer

  • Aantal processors

  • Hoeveelheid RAM-geheugen

  • Station met de map Health Service-status

  • Of de antivirussoftware is geconfigureerd om het Health Service-archief uit te sluiten

  • RAID-niveau (0, 1, 0+15of 1+0) voor het station dat wordt gebruikt door de Health Service-status

  • Aantal schijven dat wordt gebruikt voor de RAID

  • Of schrijfcache met batterij-ondersteuning is ingeschakeld op de matrixcontroller

Problemen met SQL Server prestaties oplossen

Operationele database (OperationsManager)

Voor de OperationsManager database is het meest waarschijnlijke knelpunt de schijfmatrix. Als de schijfmatrix zich niet op de maximale I/O-capaciteit bevindt, is het volgende waarschijnlijke knelpunt de CPU. De database ondervindt af en toe vertragingen en operationele gegevensstormen (hoge incidenties van gebeurtenissen, waarschuwingen en prestatiegegevens of statuswijzigingen die relatief lang aanhouden). Een korte burst veroorzaakt doorgaans geen aanzienlijke vertraging gedurende een langere periode.

Tijdens het invoegen van operationele gegevens worden de databaseschijven voornamelijk gebruikt voor schrijfbewerkingen. CPU-gebruik wordt veroorzaakt door SQL Server verloop. Dit kan gebeuren wanneer u grote en complexe query's hebt, zware gegevensinvoeging en het opschonen van grote tabellen (die standaard om middernacht plaatsvindt). Het opschonen van zelfs grote gebeurtenissen en prestatiegegevenstabellen verbruikt doorgaans geen overmatige CPU- of schijfresources. Het opschonen van de waarschuwings- en statuswijzigingstabellen kan echter CPU-intensief zijn voor grote tabellen.

De database is ook CPU-gebonden wanneer deze bursts voor herdistributie van configuraties verwerkt, die worden veroorzaakt door MP-import of door een grote wijziging in de instantieruimte. In deze gevallen voert de Config-service een query uit op de database voor de nieuwe agentconfiguratie. Dit zorgt er meestal voor dat ER CPU-pieken optreden in de database voordat de service de configuratie-updates naar de agents verzendt.

Datawarehouse (OperationsManagerDW)

Voor de OperationsManagerDW database is het meest waarschijnlijke knelpunt de schijfmatrix. Dit gebeurt meestal vanwege grote operationele gegevensinvoegingen. In deze gevallen zijn de schijven voornamelijk bezig met het uitvoeren van schrijfbewerkingen. Meestal voeren de schijven weinig leesbewerkingen uit, behalve om handmatig gegenereerde rapportweergaven te verwerken, omdat deze query's uitvoeren in het datawarehouse.

CPU-gebruik wordt veroorzaakt door SQL Server verloop. CPU-pieken kunnen optreden tijdens zware partitioneringsactiviteiten (wanneer tabellen groot worden en vervolgens worden gepartitioneerd), het genereren van complexe rapporten en grote hoeveelheden waarschuwingen in de database, waarmee het datawarehouse voortdurend moet worden gesynchroniseerd.

Algemene probleemoplossing

Als u het probleem in deze situatie wilt oplossen, verzamelt u de volgende informatie voor elke betrokken beheerserver of gateway:

  • Exact Windows-versie, -editie en -buildnummer

  • Aantal processors

  • Hoeveelheid RAM-geheugen

  • Hoeveelheid geheugen die is toegewezen aan SQL Server

  • Of SQL Server 32-bits is en AWE is ingeschakeld

    U vindt de meeste informatie in SQL Server Management Studio of in SQL Server Enterprise Manager. Open hiervoor het venster Eigenschappen van de server en selecteer vervolgens de tabbladen Algemeen en Geheugen . Het tabblad Algemeen bevat de SQL Server versie, de Windows-versie, het platform, de hoeveelheid RAM en het aantal processors. Het tabblad Geheugen bevat het geheugen dat is toegewezen aan SQL Server. In Microsoft SQL Server 2008 bevat het tabblad Geheugen ook de optie AWE.

    Als het besturingssysteem 32-bits is en het RAM-geheugen 4 GB of groter is, controleert u of de /pae schakelopties of /3gb aanwezig zijn in de Boot.ini. Bestand. Deze opties kunnen onjuist worden geconfigureerd als de server oorspronkelijk was geïnstalleerd met 4 GB of minder RAM-geheugen en als het RAM-geheugen later is bijgewerkt.

    Voor 32-bits servers met 4 GB RAM-geheugen verhoogt de /3gb schakeloptie in Boot.ini de hoeveelheid geheugen die SQL Server kan gebruiken (van 2 GB tot 3 GB). Voor 32-bits servers die meer dan 4 GB RAM-geheugen hebben, kan de /3gb switch in Boot.ini de hoeveelheid geheugen beperken die SQL Server kan aanpakken. Voor deze systemen voegt u de /pae switch toe aan Boot.ini en schakelt u vervolgens AWE in SQL Server in.

    Controleer op een systeem met meerdere processors de instelling Max Degree of Parallelism (MAXDOP). In SQL Server 2008 bevindt deze optie zich op het tabblad Geavanceerd in het dialoogvenster Eigenschappen voor de server.

    De standaardwaarde is 0, wat betekent dat alle beschikbare processors worden gebruikt. Een instelling van 0 is prima voor servers met acht of minder processors. Voor servers met meer dan acht processors kan de tijd die SQL Server nodig is om het gebruik van alle processors te coördineren, contraproductief zijn. Daarom moet u voor servers met meer dan acht processors over het algemeen Max Degree of Parallelism instellen op een waarde van 8. Voer hiervoor de volgende opdracht uit in SQL Query Analyzer:

    sp_configure 'show advanced options', 1
    GO
    RECONFIGURE WITH OVERRIDE
    GO
    sp_configure 'max degree of parallelism', 8
    GO
    RECONFIGURE WITH OVERRIDE
    GO
    
  • Stationsletters die datawarehouse-, Operations Manager DB- en Tempdb-bestanden bevatten

  • Of de antivirussoftware is geconfigureerd om SQL-gegevens en logboekbestanden uit te sluiten (het scannen van SQL Server databasebestanden met antivirussoftware kan de prestaties verslechteren.)

  • Hoeveelheid vrije ruimte op stations die datawarehouse-, Operations Manager DB- en Tempdb-bestanden bevatten

  • Opslagtype (SAN of lokaal)

  • RAID-niveau (0, 1, 5, 0+1 of 1+0) voor stations die worden gebruikt door SQL Server

  • Als SAN-opslag wordt gebruikt: het aantal spindels op elke LUN die wordt gebruikt door SQL Server

  • Als het geconverteerde Exchange 2007-management pack wordt gebruikt of ooit is gebruikt: aantal rijen in de LocalizedText tabel in de Operations Manager-database en in de EventPublisher tabel in de datawarehouse-database

    Voer de volgende opdrachten uit om de rijbedragen te bepalen:

    USE OperationsManager SELECT COUNT(*) FROM LocalizedText
    USE OperationsManagerDW SELECT COUNT(*) FROM EventPublisher
    

Tellers om geheugenbelasting te identificeren

Naam van prestatiemeteritems Beschrijving
MSSQL$<instance>: BufferBeheer: Levensverwachting van pagina Hoe lang pagina's in de buffergroep blijven bestaan. Als deze waarde lager is dan 300 seconden, kan dit erop wijzen dat de server meer geheugen kan gebruiken. Dit kan ook het gevolg zijn van indexfragmentatie.
MSSQL$<instance>: Buffer Manager: Luie schrijfbewerkingen per seconde Lazy writer zorgt ervoor dat er ruimte vrij komt in de buffer door pagina's naar de schijf te verplaatsen. Over het algemeen mag de waarde niet consistent groter zijn dan 20 schrijfbewerkingen per seconde. Idealiter zou het bijna nul zijn.
Geheugen: beschikbare Mbytes Waarden lager dan 100 MB kunnen duiden op geheugendruk. Geheugendruk is duidelijk aanwezig wanneer deze hoeveelheid kleiner is dan 10 MB.
Proces: privébytes: _Total Dit is de hoeveelheid geheugen (fysiek en pagina) die door alle processen gecombineerd wordt gebruikt.
Proces: Werkset: _Total Dit is de hoeveelheid fysiek geheugen die door alle processen gecombineerd wordt gebruikt. Als de waarde voor dit teller aanzienlijk lager is dan de waarde voor Process: Private Bytes: _Total, geeft dit aan dat processen te zwaar worden pagineren. Een verschil van meer dan 10% is waarschijnlijk aanzienlijk.

Tellers om schijfdruk te identificeren

Leg deze fysieke schijftellers vast voor alle stations die SQL-gegevens of logboekbestanden bevatten:

  • Percentage niet-actieve tijd: hoeveel schijf-inactieve tijd wordt gerapporteerd. Alles onder de 50 procent kan duiden op een schijfknelpunt.

  • Gemiddelde schijfwachtrijlengte: deze waarde mag niet groter zijn dan tweemaal het aantal spindels op een LUN. Als een LUN bijvoorbeeld 25 spindels heeft, is een waarde van 50 acceptabel. Als een LUN echter 10 spindels heeft, is de waarde 25 te hoog. U kunt de volgende formules gebruiken op basis van het RAID-niveau en het aantal schijven in de RAID-configuratie:

    • RAID 0: alle schijven werken in een RAID 0-set

    • Gemiddelde lengte <van schijfwachtrij= # (Schijven in de matrix) *2

    • RAID 1: de helft van de schijven doet werk; daarom kan slechts de helft ervan worden geteld voor de schijfwachtrij

    • Gemiddelde lengte <van schijfwachtrij= # (Schijven in de matrix/2) *2

    • RAID 10: de helft van de schijven doet 'werk'; daarom kan slechts de helft ervan worden geteld voor de schijfwachtrij

    • Gemiddelde lengte <van schijfwachtrij= # (Schijven in de matrix/2) *2

    • RAID 5: alle schijven werken in een RAID 5-set

    • Gemiddelde lengte <van schijfwachtrij= # Schijven in de matrix *2

    • Gem. Schijf sec/overdracht: het aantal seconden dat nodig is om één schijf-I/O te voltooien

    • Gem. Schijf sec/lezen: de gemiddelde tijd, in seconden, om gegevens van de schijf te lezen

    • Gem. Schijf sec/schrijven: de gemiddelde tijd, in seconden, om gegevens naar de schijf te schrijven

      De laatste drie tellers in deze lijst moeten consistent waarden hebben van ongeveer .020 (20 ms) of lager en mogen nooit groter zijn dan .050 (50 ms). Hier volgen de drempelwaarden die worden beschreven in de probleemoplossingsgids voor SQL Server prestaties:

      • Minder dan 10 ms: zeer goed
      • Tussen 10 - 20 ms: oké
      • Tussen 20 - 50 ms: traag, heeft aandacht nodig
      • Groter dan 50 ms: ernstig I/O-knelpunt
    • Schijfbytes per seconde: het aantal bytes dat per seconde van of naar de schijf wordt overgebracht

    • Schijfoverdrachten per seconde: het aantal invoer- en uitvoerbewerkingen per seconde (IOPS)

    Wanneer het percentage niet-actieve tijd laag is (10 procent of minder), betekent dit dat de schijf volledig wordt gebruikt. In dit geval geven de laatste twee tellers in deze lijst (Schijfbytes per seconde en Schijfoverdrachten per seconde) een goede indicatie van de maximale doorvoer van het station in respectievelijk bytes en IOPS. De doorvoer van een SAN-station is zeer variabel, afhankelijk van het aantal spindels, de snelheid van de stations en de snelheid van het kanaal. De beste gok is om contact op te nemen met de SAN-leverancier om erachter te komen hoeveel bytes en IOPS het station moet ondersteunen. Als het percentage niet-actieve tijd laag is en de waarden voor deze twee tellers niet voldoen aan de verwachte doorvoer van het station, neemt u contact op met de SAN-leverancier om problemen op te lossen.

SQL Server handleiding voor het oplossen van problemen met prestaties biedt meer inzicht in het oplossen van problemen SQL Server prestaties.

Operations Manager-prestatiemeteritems

In de volgende secties worden de prestatiemeteritems beschreven die u kunt gebruiken om de prestaties van Operations Manager te bewaken en problemen op te lossen.

Gatewayserverfunctie

Algemene prestatiemeteritems

Deze tellers geven de algehele prestaties van de gateway aan:

Naam van prestatiemeteritems
Processor(_Total)\% processortijd
Geheugen\% vastgelegde bytes in gebruik
Netwerkinterface(*)\Totaal aantal bytes per seconde
LogicalDisk(*)\% inactieve tijd
LogicalDisk(*)\Gem. Wachtrijlengte schijf
Algemene prestatiemeteritems voor Operations Manager-processen

Deze tellers geven de algehele prestaties van Operations Manager-processen op de gateway aan:

Naam van prestatiemeteritems Beschrijving
Process(HealthService)\% processortijd
Process(HealthService)\Private Bytes Afhankelijk van het aantal agents dat deze gateway beheert, kan dit aantal variëren en kan dit enkele honderden megabytes zijn
Process(HealthService)\Thread Count
Process(HealthService)\Virtuele bytes
Process(HealthService)\Working Set
Proces(MonitoringHost*)\% processortijd
Process(MonitoringHost*)\Private Bytes
Process(MonitoringHost*)\Thread Count
Process(MonitoringHost*)\Virtuele bytes
Process(MonitoringHost*)\Working Set
Specifieke prestatiemeteritems voor Operations Manager

Deze tellers zijn operations manager-specifieke tellers die de prestaties van specifieke aspecten van Operations Manager op de gateway aangeven:

Naam van prestatiemeteritems Beschrijving
Health Service\Aantal werkstromen
Health Service-beheergroepen(*)\Actieve bestandsuploads Het aantal bestandsoverdrachten dat deze gateway verwerkt. Dit geeft het aantal management pack-bestanden aan dat wordt geüpload naar agents. Als deze waarde lange tijd op een hoog niveau blijft en er op een bepaald moment niet veel management pack wordt geïmporteerd, kunnen deze voorwaarden een probleem genereren dat van invloed is op bestandsoverdracht.
Health Service-beheergroepen(*)\Verzendwachtrijspercentage gebruikt De grootte van de permanente wachtrij. Als deze waarde lange tijd hoger dan 10 blijft en deze niet afvalt, geeft dit aan dat er een back-up van de wachtrij is gemaakt. Deze situatie wordt veroorzaakt door een overbelast Operations Manager-systeem omdat de beheerserver of database te druk is of offline is.
OpsMgr Connector\Bytes ontvangen Het aantal netwerkbytes dat door de gateway is ontvangen, het aantal binnenkomende bytes vóór decompressie.
OpsMgr-connector\Verzonden bytes Het aantal netwerkbytes dat door de gateway is verzonden, het aantal uitgaande bytes na compressie.
OpsMgr Connector\Gegevensbytes ontvangen Het aantal gegevensbytes dat door de gateway wordt ontvangen: de hoeveelheid binnenkomende gegevens na decompressie.
OpsMgr Connector\Verzonden gegevensbytes Het aantal gegevensbytes dat door de gateway is verzonden, de hoeveelheid uitgaande gegevens vóór de compressie.
OpsMgr Connector\Open Connections Het aantal verbindingen dat is geopend op de gateway. Dit aantal moet gelijk zijn aan het aantal agents of beheerservers dat rechtstreeks is verbonden met de gateway.

Beheerserverfunctie

Algemene prestatiemeteritems

Deze tellers geven de algehele prestaties van de beheerserver aan:

Naam van prestatiemeteritems
Processor(_Total)\% processortijd
Geheugen\% vastgelegde bytes in gebruik
Netwerkinterface(*)\Totaal aantal bytes per seconde
LogicalDisk(*)\% inactieve tijd
LogicalDisk(*)\Gem. Wachtrijlengte schijf
Algemene prestatiemeteritems voor Operations Manager-processen

Deze tellers geven de algehele prestaties van Operations Manager-processen op de beheerserver aan:

Naam van prestatiemeteritems Beschrijving
Process(HealthService)\% processortijd
Process(HealthService)\Private Bytes Afhankelijk van het aantal agents dat deze beheerserver beheert, kan dit aantal variëren en kan het enkele honderden megabytes zijn.
Process(HealthService)\Thread Count
Process(HealthService)\Virtuele bytes
Process(HealthService)\Working Set
Proces(MonitoringHost*)\% processortijd
Process(MonitoringHost*)\Private Bytes
Process(MonitoringHost*)\Thread Count
Process(MonitoringHost*)\Virtuele bytes
Process(MonitoringHost*)\Working Set
Specifieke prestatiemeteritems voor Operations Manager

Deze tellers zijn operations manager-specifieke tellers die de prestaties van specifieke aspecten van Operations Manager op de beheerserver aangeven:

Naam van prestatiemeteritems Beschrijving
Health Service\Aantal werkstromen Het aantal werkstromen dat wordt uitgevoerd op deze beheerserver.
Health Service-beheergroepen(*)\Actieve bestandsuploads Het aantal bestandsoverdrachten dat deze beheerserver verwerkt. Dit geeft het aantal management pack-bestanden aan dat wordt geüpload naar agents. Als deze waarde lange tijd op een hoog niveau blijft en er op een bepaald moment niet veel management pack wordt geïmporteerd, kunnen deze voorwaarden een probleem genereren dat van invloed is op bestandsoverdracht.
Health Service-beheergroepen(*)\Verzendwachtrijspercentage gebruikt De grootte van de permanente wachtrij. Als deze waarde lange tijd hoger dan 10 blijft en deze niet afvalt, geeft dit aan dat er een back-up van de wachtrij is gemaakt. Deze voorwaarde wordt veroorzaakt door een overbelast Operations Manager-systeem omdat het Operations Manager-systeem (bijvoorbeeld de hoofdbeheerserver) te bezet is of offline is.
Health Service Management Groups(*)\Binding Data Source Item Drop Rate Het aantal gegevensitems dat door de beheerserver wordt verwijderd voor schrijfacties voor database- of datawarehouse-gegevensverzameling. Als deze tellerwaarde niet 0is, is de beheerserver of database overbelast omdat het binnenkomende gegevensitem niet snel genoeg kan worden verwerkt of omdat er een burst van het gegevensitem optreedt. De verwijderde gegevensitems worden opnieuw verzonden door agents. Nadat de overbelasting of burst-situatie is voltooid, worden deze gegevensitems ingevoegd in de database of in het datawarehouse.
Health Service-beheergroepen(*)\Binnenkomende snelheid van gegevensbronitem binden Het aantal gegevensitems dat door de beheerserver is ontvangen voor schrijfacties voor database- of datawarehouse-gegevensverzameling.
Health Service Management Groups(*)\Binding Data Source Item Post Rate Het aantal gegevensitems dat de beheerserver naar de database of het datawarehouse heeft geschreven voor schrijfacties voor gegevensverzameling.
OpsMgr Connector\Bytes ontvangen Het aantal netwerkbytes dat door de beheerserver is ontvangen, dat wil gezegd, de grootte van binnenkomende bytes vóór decompressie.
OpsMgr-connector\Verzonden bytes Het aantal netwerkbytes dat door de beheerserver wordt verzonden, dat wil gezegd, de grootte van uitgaande bytes na compressie.
OpsMgr Connector\Gegevensbytes ontvangen Het aantal gegevensbytes dat door de beheerserver is ontvangen, dat wil gezegd, de grootte van binnenkomende gegevens na decompressie.
OpsMgr Connector\Verzonden gegevensbytes Het aantal gegevensbytes dat door de beheerserver is verzonden, dat wil gezegd, de grootte van uitgaande gegevens vóór de compressie.
OpsMgr Connector\Open Connections Het aantal verbindingen dat is geopend op de beheerserver. Dit moet hetzelfde zijn als het aantal agents of hoofdbeheerserver dat er rechtstreeks mee is verbonden.
OpsMgr-database Actiemodules(*)\Gem. Batchgrootte Het aantal gegevensitems of batches dat wordt ontvangen door actiemodules voor het schrijven van databases. Als dit getal 5000 is, treedt er een burst van gegevensitems op.
OpsMgr DB Schrijfactiemodules(*)\Gem. Verwerkingstijd Het aantal seconden dat een database schrijfactiemodules nodig heeft om een batch in de database in te voegen. Als dit getal vaak groter is dan 60, treedt er een prestatieprobleem op met het invoegen van databases.
OpsMgr DW Writer Module(*)\Gem. Batch Processing Time, ms Het aantal milliseconden voor schrijfactie voor datawarehouse om een batch met gegevensitems in te voegen in een datawarehouse.
OpsMgr DW Writer Module(*)\Gem. Batchgrootte Het gemiddelde aantal gegevensitems of batches dat is ontvangen door schrijfactiemodules voor datawarehouses.
OpsMgr DW Writer Module(*)\Batches/sec Het aantal batches dat door de schrijfactiemodules van het datawarehouse per seconde wordt ontvangen.
OpsMgr DW Writer Module(*)\Gegevensitems per seconde Het aantal gegevensitems dat door de schrijfactiemodules van het datawarehouse per seconde wordt ontvangen.
OpsMgr DW Writer-module(*)\Aantal verwijderde gegevensitems Het aantal gegevensitems dat is verwijderd door schrijfactiemodules voor datawarehouses.
OpsMgr DW Writer Module(*)\Totaal aantal fouten Het aantal fouten dat is opgetreden in een schrijfactiemodule van een datawarehouse.