Risolvere i problemi relativi agli stati dell'agente grigio in System Center Operations Manager
Questo articolo descrive come risolvere i problemi in cui un agente, un server di gestione o un gateway non è disponibile o è disattivato in System Center Operations Manager (OpsMgr).
Versione originale del prodotto: Microsoft System Center 2012 Operations Manager
Numero KB originale: 2288515
Un agente, un server di gestione o un gateway può avere uno degli stati seguenti, come indicato dal colore del nome e dell'icona dell'agente nel riquadro Monitoraggio .
Stato | Aspetto | Descrizione |
---|---|---|
Sano | Segno di spunta verde | L'agente o il server di gestione è in esecuzione normalmente. |
Critico | Segno di spunta rosso | Si è verificato un problema nell'agente o nel server di gestione. |
Unknown | Nome agente grigio, segno di spunta grigio | Il watcher del servizio di integrità nel server di gestione che controlla il servizio di integrità nel computer monitorato non riceve più heartbeat dall'agente. Il watcher del servizio di integrità aveva ricevuto heartbeat in precedenza e lo stato è stato segnalato come integro. Ciò significa anche che i server di gestione non ricevono più informazioni dall'agente. Questo problema può verificarsi se il computer che esegue l'agente non è in esecuzione o se si verificano problemi di connettività. |
Unknown | Cerchio verde, nessun segno di spunta | Lo stato dell'elemento individuato è sconosciuto. Non è disponibile alcun monitoraggio per questo elemento specifico individuato. |
Cause di uno stato grigio
Un agente, un server di gestione o un gateway potrebbe non essere disponibile per uno dei motivi seguenti:
- Errore di heartbeat
- Configurazione non valida
- Errore dei flussi di lavoro di sistema
- Problemi di prestazioni del database o del data warehouse di Operations Manager
- Problemi di prestazioni del server di gestione o del server gateway
- Problemi di rete o di autenticazione
- Il servizio integrità non è in esecuzione
Ambito del problema
Prima di iniziare a risolvere il problema dell'agente inattiva, è necessario innanzitutto comprendere la topologia di Operations Manager e quindi definire l'ambito del problema. Le domande seguenti possono essere utili per definire l'ambito del problema:
- Quanti agenti sono interessati?
- Gli agenti riscontrano il problema nello stesso segmento di rete?
- Gli agenti segnalano allo stesso server di gestione?
- Con quale frequenza gli agenti entrano e rimangono in uno stato grigio?
- Come si esegue in genere il ripristino da questa situazione (ad esempio, riavviare il servizio integrità dell'agente, cancellare la cache, basarsi sul ripristino automatico)?
- Gli avvisi di errore di heartbeat vengono generati per questi agenti?
- Questo problema si verifica durante un'ora specifica del giorno?
- Questo problema persiste se si esegue il failover di questi agenti in un altro server di gestione o gateway?
- Quando è iniziato questo problema?
- Sono state apportate modifiche agli agenti, ai server di gestione o al gateway o al gruppo di gestione?
- Gli agenti interessati sono sistemi cluster Windows?
- La cartella Stato servizio integrità è esclusa dall'analisi antivirus?
Strategia di risoluzione dei problemi
La strategia di risoluzione dei problemi verrà dettata da quale componente è inattivo, da dove tale componente rientra nella topologia e da quanto è diffuso il problema. Considerare le condizioni seguenti:
- Se gli agenti che segnalano a un determinato server di gestione o gateway non sono disponibili, la risoluzione dei problemi deve iniziare a livello di server di gestione o gateway.
- Se i gateway che segnalano a un determinato server di gestione non sono disponibili, la risoluzione dei problemi deve iniziare a livello di server di gestione.
- Per i sistemi senza agente, per i dispositivi di rete e per i server Unix e Linux, la risoluzione dei problemi deve iniziare dall'agente, dal server di gestione o dal gateway che sta monitorando questi oggetti.
- La risoluzione dei problemi inizia in genere al livello immediatamente superiore al componente non disponibile.
Scenario 1
Solo alcuni agenti sono interessati dal problema. Questi agenti segnalano a server di gestione diversi. Gli agenti rimangono non disponibili a intervalli regolari. Anche se è possibile cancellare la cache dell'agente per risolvere temporaneamente il problema, il problema si ripete dopo alcuni giorni.
Risoluzione per lo scenario 1
Per risolvere il problema in questo scenario, seguire questa procedura:
- Applicare l'hotfix appropriato ai sistemi operativi interessati.
- Escludere la cache dell'agente dall'analisi antivirus. Per altre informazioni, vedere Raccomandazioni per le esclusioni antivirus correlate a Operations Manager.
- Arrestare il servizio integrità.
- Cancellare la cache dell'agente.
- Avviare il servizio integrità.
Scenario 2
Solo alcuni agenti sono interessati dal problema. Questi agenti segnalano a server di gestione diversi. Gli agenti rimangono costantemente inattivi. Anche se è possibile cancellare la cache dell'agente, il problema non viene risolto.
Risoluzione per lo scenario 2
Per risolvere il problema in questo scenario, seguire questa procedura:
Determinare se il servizio integrità è attivato ed è attualmente in esecuzione nel server di gestione o nel gateway. Se il servizio integrità ha smesso di rispondere, generare un dump di ADPlus in modalità di blocco del servizio per determinare la causa del problema. Per altre informazioni, vedere Come usare ADPlus.vbs per risolvere i problemi di "blocchi" e "arresti anomali"
Esaminare il registro eventi di Operations Manager nell'agente per individuare uno degli eventi seguenti:
ID evento: 1102
Origine evento: HealthService
Descrizione evento:
Impossibile inizializzare la regola/monitoraggio "%4" in esecuzione per l'istanza "%3" con ID:"%2" e non verrà caricato. Gruppo di gestione "%1"ID evento: 1103
Origine evento: HealthService
Descrizione evento:
Riepilogo: %2 regole/monitor non riuscite e scaricate, %3 ha raggiunto il limite di errori che impedisce il ricaricamento automatico. Gruppo di gestione "%1". Questo è solo un evento di riepilogo, vedere altri eventi con descrizioni di regole scaricate/monitor.This is summary only event, please see other events with descriptions of unloaded rule/s)/monitor/s.ID evento: 1104
Origine evento: HealthService
Descrizione evento:
Impossibile risolvere il profilo RunAs nel flusso di lavoro "%4", in esecuzione per l'istanza "%3" con ID:"%2". Il flusso di lavoro non verrà caricato. Gruppo di gestione "%1"ID evento: 1105
Origine evento: HealthService
Descrizione evento:
Mancata corrispondenza del tipo per il profilo RunAs nel flusso di lavoro "%4", in esecuzione per l'istanza "%3" con ID:"%2". Il flusso di lavoro non verrà caricato. Gruppo di gestione "%1"ID evento: 1106
Origine evento: HealthService
Descrizione evento:
Impossibile accedere al profilo RunAs in testo normale nel flusso di lavoro "%4", in esecuzione per l'istanza "%3" con ID:"%2". Il flusso di lavoro non verrà caricato. Gruppo di gestione "%1"ID evento: 1107
Origine evento: HealthService
Descrizione evento:
Account per il profilo RunAs nel flusso di lavoro "%4", in esecuzione per l'istanza "%3" con ID:"%2" non definito. Il flusso di lavoro non verrà caricato. Associare un account al profilo. Gruppo di gestione "%1"ID evento: 1108
Origine evento: HealthService
Descrizione evento:
Impossibile risolvere un account specificato nel profilo RunAs "%7". In particolare, l'account viene usato nell'override di riferimento sicuro "%6". %n%n Questa condizione potrebbe essersi verificata perché l'account non è configurato per la distribuzione nel computer. Per risolvere il problema, è necessario aprire il profilo RunAs specificato di seguito, individuare la voce Account come specificato dal relativo SSID e scegliere di distribuire l'account nel computer, se appropriato, oppure modificare l'impostazione nel profilo in modo che l'oggetto di destinazione non usi l'account specificato. %n%nGruppo di gestione: %1 %n Profilo di esecuzione: %7 %nNomesecureReferenceOverride: %6 %nSecureReferenceOverride ID: %4 %nNome oggetto: %3 %nID oggetto: %2 %nAccount SSID: %5ID evento: 4000
Origine evento: HealthService
Descrizione evento:
Un host di monitoraggio non risponde o si è arrestato in modo anomalo. Il codice di stato per l'errore dell'host è %1.ID evento: 21016
Origine evento: OpsMgr Connector
Descrizione evento:
OpsMgr non è riuscito a configurare un canale di comunicazione su %1 e non sono presenti host di failover. La comunicazione riprenderà quando %1 è disponibile e la comunicazione da questo computer è consentita.ID evento: 21006
Origine evento: OpsMgr Connector
Descrizione evento:
Il connettore OpsMgr non è riuscito a connettersi a %1:%2. Il codice di errore è %3(%4). Verificare che sia presente connettività di rete, che il server sia in esecuzione e abbia registrato la porta di ascolto e che non siano presenti firewall che bloccano il traffico verso la destinazione.ID evento: 20070
Origine evento: OpsMgr Connector
Descrizione evento:
Il connettore OpsMgr è connesso a %1, ma la connessione è stata chiusa immediatamente dopo l'autenticazione. La causa più probabile di questo errore è che l'agente non è autorizzato a comunicare con il server o che il server non ha ricevuto la configurazione. Controllare la presenza di 20000 eventi nel registro eventi nel server, indicando che gli agenti non approvati stanno tentando di connettersi.ID evento: 20051
Origine evento: OpsMgr Connector
Descrizione evento:
Impossibile caricare il certificato specificato perché il certificato non è attualmente valido. Verificare che l'ora di sistema sia corretta e rilasciare nuovamente il certificato, se necessario%n Ora di inizio valida certificato: %1%n Ora di fine valida certificato: %2Origine evento: ESE
Categoria di eventi: Gestione transazioni
ID evento: 623
Descrizione: HealthService (<PID>) L'archivio versioni per instance <instance>("<name>") ha raggiunto le dimensioni massime del <valore> Mb. È probabile che una transazione a esecuzione prolungata impedisca la pulizia dell'archivio versioni e ne causi la creazione in dimensioni. Aggiornamenti verrà rifiutato fino a quando non è stato eseguito il commit o il rollback della transazione a esecuzione prolungata. Possibile transazione a esecuzione prolungata:
SessionId: <valore>
Contesto sessione: <valore>
ThreadId contesto sessione: <valore>.
Pulizia: <valore>Se si individuano gli eventi specifici seguenti, seguire queste linee guida:
Eventi 1102 e 1103: questi eventi indicano che alcuni flussi di lavoro non sono stati caricati. Se questi sono i flussi di lavoro di sistema principali, questi eventi potrebbero causare il problema. In questo caso, concentrarsi sulla risoluzione di questi eventi.
Eventi 1104, 1105, 1106, 1107 e 1108: questi eventi possono causare eventi 1102 e 1103. In genere, ciò si verifica a causa di account RunAs non configurati correttamente. Ad esempio, gli account RunAs sono configurati per essere usati con la classe errata o non sono configurati per essere distribuiti all'agente.
Evento 4000: questo evento indica che il processo Monitoringhost.exe si è arrestato in modo anomalo. Se questo problema è causato da una mancata corrispondenza di DLL o da chiavi del Registro di sistema mancanti, è possibile risolvere il problema reinstallando l'agente. Se il problema persiste, provare a risolverlo usando i metodi seguenti:
- Eseguire un'acquisizione di Monitoraggio processi fino al punto in cui il processo si arresta in modo anomalo. Per altre informazioni, vedere Monitoraggio processi v3.53.
- Generare un dump di ADPlus in modalità di arresto anomalo. Per altre informazioni, vedere Come usare ADPlus.vbs per risolvere i problemi di "blocchi" e "arresti anomali"
ID evento 21006: questo evento indica che esistono problemi di comunicazione tra l'agente e il server di gestione. Se l'agente usa un certificato per l'autenticazione reciproca, verificare che il certificato non sia scaduto e che l'agente usi il certificato corretto. Se si usa Kerberos, verificare che l'agente possa comunicare con Active Directory. Se l'autenticazione funziona correttamente, ciò potrebbe significare che i pacchetti dell'agente non raggiungono il server di gestione o il gateway. Provare a stabilire un telnet per la porta 5723 dall'agente al server di gestione. Inoltre, eseguire una traccia di rete simultanea tra l'agente e il server di gestione mentre si riproducono gli errori di comunicazione. Ciò consente di determinare se i pacchetti raggiungono il server di gestione e se qualsiasi dispositivo tra i due componenti sta tentando di ottimizzare il traffico o sta rilasciando alcuni pacchetti. Per altre informazioni, vedere Raccogliere dati usando Monitoraggio di rete.
ID evento 623: questo evento si verifica in genere in un ambiente Operations Manager di grandi dimensioni in cui un server di gestione o un computer agente gestisce molti flussi di lavoro. Per altre informazioni, vedere Uno o più server di gestione e i relativi dispositivi gestiti sono disattivati nella console di Operations Manager.
Scenario 3
Tutti gli agenti che segnalano a un determinato server o gateway di gestione non sono disponibili.
Risoluzione per lo scenario 3
Per risolvere il problema in questo scenario, seguire questa procedura:
Provare a determinare il tipo di carichi di lavoro monitorati dal server di gestione o dal gateway. Tali carichi di lavoro possono includere dispositivi di rete, agenti multipiattaforma, transazioni sintetiche, agenti Windows e computer senza agenti.
Determinare se il servizio integrità è in esecuzione nel server di gestione o nel gateway.
Determinare se il server di gestione è in esecuzione in modalità di manutenzione. Se necessario, rimuovere il server dalla modalità di manutenzione.
Esaminare il registro eventi di Operations Manager nell'agente per individuare gli eventi elencati nello scenario 2. Se è presente l'ID evento 21006, seguire le stesse linee guida indicate in Risoluzione per lo scenario 2. In questo caso, inoltre, questo evento indica che il server di gestione o il gateway non può comunicare con il server padre. Per un gateway, il server padre può essere qualsiasi server di gestione. Fare riferimento al passaggio 3 nella risoluzione per lo scenario 2.
Esaminare il registro eventi di Operations Manager per gli eventi seguenti. Questi eventi indicano in genere che esistono problemi di prestazioni nel server di gestione o in Microsoft SQL Server che ospita il
OperationsManager
database oOperationsManagerDW
:ID evento: 2115
Origine evento: HealthService
Descrizione evento:
Un'origine dati bind nel gruppo di gestione %1 ha registrato elementi nel flusso di lavoro, ma non ha ricevuto una risposta in %5 secondi. Indica un problema di prestazioni o funzionalità con il flusso di lavoro.%n ID flusso di lavoro: %2%n Istanza: %3%n ID istanza: %4%nID evento: 5300
Origine evento: HealthService
Descrizione evento:
Il servizio integrità locale non è integro. Il flusso di modifica dello stato dell'entità è bloccato con acknowledgement in sospeso. %n%nGruppo di gestione: %2 %nID gruppo di gestione: %1ID evento: 4506
Origine evento: HealthService
Descrizione evento: Operations Manager
I dati sono stati eliminati a causa di un numero eccessivo di dati in sospeso nella regola "%2" in esecuzione per l'istanza "%3" con ID:"%4" nel gruppo di gestione "%1".ID evento: 31551
Origine evento: Moduli del servizio integrità
Descrizione evento:
Impossibile archiviare i dati nel Data Warehouse. L'operazione verrà ritentata.%rException '%5': %6 %n%nUno o più flussi di lavoro sono stati interessati da questa operazione. %n%nNome flusso di lavoro: %2 %nNome istanza: %3 %nID istanza: %4 %nGruppo di gestione: %1ID evento: 31552
Origine evento: Moduli del servizio integrità
Descrizione evento:
Impossibile archiviare i dati nel Data Warehouse.%rException '%5': %6 %n%nUno o più flussi di lavoro sono stati interessati da questa operazione. %n%nNome flusso di lavoro: %2 %nNome istanza: %3 %nID istanza: %4 %nGruppo di gestione: %1ID evento: 31553
Origine evento: Moduli del servizio integrità
Descrizione evento:
I dati sono stati scritti nell'area di staging Data Warehouse ma l'elaborazione non è riuscita in una delle operazioni successive.%rException '%5': %6 %n%nUno o più flussi di lavoro sono stati interessati da questa operazione. %n%nNome flusso di lavoro: %2 %nNome istanza: %3 %nID istanza: %4 %nGruppo di gestione: %1ID evento: 31557
Origine evento: Moduli del servizio integrità
Descrizione evento:
Impossibile ottenere le informazioni sullo stato del processo di sincronizzazione da Data Warehouse database. L'operazione verrà ritentata.%rException '%5': %6 %n%nUno o più flussi di lavoro sono stati interessati da questa operazione. %n%nNome flusso di lavoro: %2 %nNome istanza: %3 %nID istanza: %4 %nGruppo di gestione: %1È anche possibile registrare l'ID evento 3155X a causa di configurazioni dell'account RunAs non corrette o di autorizzazioni mancanti per gli account RunAs.
Nota
Per risolvere i problemi relativi alle prestazioni del server di gestione o del gateway e alle prestazioni SQL Server, vedere la sezione Risoluzione per lo scenario 4.
Scenari 4
Tutti gli agenti che segnalano a un server di gestione specifico si alternano in modo intermittente tra stati integri e grigi. In alternativa, tutti gli agenti nell'ambiente si alternano in modo intermittente tra stati integro e grigio.
Risoluzione per lo scenario 4
Per risolvere il problema, determinare prima di tutto la causa del problema. Le cause comuni dell'indisponibilità del server temporaneo sono le seguenti:
- Il server padre degli agenti è temporaneamente offline.
- Gli agenti stanno sovraccaricando il server di gestione con dati operativi, ad esempio avvisi, stati, individuazioni e così via. Ciò può causare un maggiore uso delle risorse di sistema nel database di Operations Manager e nei server di Operations Manager.
- Le interruzioni di rete hanno causato un errore di comunicazione temporaneo tra il server padre e gli agenti.
- Si sono verificate modifiche al Management Pack (MP). Nella console di Operations Manager queste modifiche richiedono una configurazione di Operations Manager e una ridistribuzione di Mp agli agenti. Se la modifica influisce su una base di agenti più grande, questo può causare un maggiore utilizzo delle risorse di sistema nel database di Operations Manager e nei server di Operations Manager.
La chiave per la risoluzione dei problemi in questi scenari è comprendere la durata dell'indisponibilità del server e l'ora del giorno in cui si è verificato. In questo modo sarà possibile limitare rapidamente l'ambito del problema.
Risoluzione dei problemi relativi alle prestazioni del server di gestione e del gateway
Server di gestione
Durante un burst di aggiornamento della configurazione (causato dall'importazione e dall'individuazione di MP), i colli di bottiglia tipici sono, in primo luogo, la CPU e il secondo, l'I/O del disco di installazione di Operations Manager. Il server di gestione è responsabile dell'inoltro dei file di configurazione agli agenti di destinazione.
Per la raccolta dati operativa, i colli di bottiglia sono in genere causati dalla CPU. Anche l'I/O del disco può essere alla capacità massima, ma non è così probabile. Il server di gestione è responsabile della decompressione e della decrittografia dei dati operativi in ingresso e dell'inserimento nel database operativo. Invia inoltre acknowledgments (AK) agli agenti o ai gateway dopo aver ricevuto i dati operativi e usa l'accodamento del disco per archiviare temporaneamente questi APK in uscita.
Gateway
Il gateway è associato sia alla CPU che all'I/O. Quando il gateway inoltra una grande quantità di dati, sia la CPU che le operazioni di I/O possono mostrare un utilizzo elevato. La maggior parte dell'utilizzo della CPU è causato dalla decompressione, dalla compressione, dalla crittografia e dalla decrittografia dei dati in ingresso e anche dal trasferimento di tali dati. Tutti i dati ricevuti dal gateway e dagli agenti vengono archiviati in una coda persistente su disco, da leggere e inoltrare al server di gestione dal servizio integrità del gateway. Ciò può causare un utilizzo elevato del disco. Questo utilizzo può essere significativo quando il gateway viene portato temporaneamente offline e deve quindi gestire i dati dell'agente accumulati che gli agenti hanno generato e cercato di inviare quando il gateway era ancora offline.
Per risolvere il problema in questa situazione, raccogliere le informazioni seguenti per ogni server o gateway di gestione interessato:
Versione, edizione e numero di build di Windows esatti
Numero di processori
Quantità di RAM
Unità che contiene la cartella Stato servizio integrità
Indica se il software antivirus è configurato per escludere l'archivio del servizio integrità
Nota
Per altre informazioni, vedere Raccomandazioni per le esclusioni antivirus correlate a Operations Manager.
Livello RAID (
0
,1
,5
0+1
o1+0
) per l'unità usata dallo stato del servizio integritàNumero di dischi usati per raid
Indica se la cache di scrittura con batteria è abilitata nel controller dell'array
Risoluzione dei problemi relativi alle prestazioni SQL Server
Database operativo (OperationsManager)
Per il OperationsManager
database, il collo di bottiglia più probabile è l'array di dischi. Se l'array di dischi non ha la capacità massima di I/O, il collo di bottiglia più probabile successivo è la CPU. Il database subisce rallentamenti occasionali e tempeste di dati operativi (incidenza elevata di eventi, avvisi e dati sulle prestazioni o modifiche dello stato che persistono per un periodo di tempo relativamente lungo). Un breve burst in genere non causa ritardi significativi per un periodo di tempo prolungato.
Durante l'inserimento dei dati operativi, i dischi di database vengono usati principalmente per le scritture. L'uso della CPU è causato da SQL Server varianza. Ciò può verificarsi quando si hanno query complesse e di grandi dimensioni, un inserimento elevato di dati e la pulitura di tabelle di grandi dimensioni (che, per impostazione predefinita, si verifica a mezzanotte). In genere, la pulitura di eventi di grandi dimensioni e tabelle dei dati sulle prestazioni non usa risorse eccessive della CPU o del disco. Tuttavia, la pulitura delle tabelle di avviso e di modifica dello stato può richiedere un utilizzo elevato della CPU per le tabelle di grandi dimensioni.
Il database è associato alla CPU anche quando gestisce i burst di ridistribuzione della configurazione, causati da importazioni mp o da una modifica dello spazio delle istanze di grandi dimensioni. In questi casi, il servizio Config esegue una query sul database per la configurazione di un nuovo agente. Ciò causa in genere picchi di CPU nel database prima che il servizio invii gli aggiornamenti di configurazione agli agenti.
Data warehouse (OperationsManagerDW)
Per il OperationsManagerDW
database, il collo di bottiglia più probabile è l'array di dischi. Ciò si verifica in genere a causa di inserimenti di dati operativi di grandi dimensioni. In questi casi, i dischi sono per lo più occupati a eseguire operazioni di scrittura. In genere, i dischi eseguono poche letture, tranne per gestire le viste di report generate manualmente perché eseguono query nel data warehouse.
L'utilizzo della CPU è causato da SQL Server varianza. I picchi di CPU possono verificarsi durante un'attività di partizionamento intensa (quando le tabelle diventano grandi e quindi vengono partizionate), la generazione di report complessi e grandi quantità di avvisi nel database, con cui il data warehouse deve essere costantemente sincronizzato.
Risoluzione dei problemi generali
Per risolvere il problema in questa situazione, raccogliere le informazioni seguenti per ogni server o gateway di gestione interessato:
Versione, edizione e numero di build di Windows esatti
Numero di processori
Quantità di RAM
Quantità di memoria allocata a SQL Server
Se SQL Server è a 32 bit ed è abilitato AWE
La maggior parte di queste informazioni è disponibile in SQL Server Management Studio o in SQL Server Enterprise Manager. A tale scopo, aprire la finestra Proprietà del server e quindi selezionare le schede Generale e Memoria . La scheda Generale include la versione SQL Server, la versione di Windows, la piattaforma, la quantità di RAM e il numero di processori. La scheda Memoria include la memoria allocata a SQL Server. In Microsoft SQL Server 2008 la scheda Memoria include anche l'opzione AWE.
Se il sistema operativo è a 32 bit e la RAM è pari o superiore a 4 GB, verificare se i
/pae
commutatori o/3gb
sono presenti nel Boot.ini. File. Queste opzioni potrebbero essere configurate in modo non corretto se il server è stato originariamente installato con 4 GB o meno di RAM e se la RAM è stata aggiornata in seguito.Per i server a 32 bit con 4 GB di RAM, il
/3gb
commutatore in Boot.ini aumenta la quantità di memoria che SQL Server può affrontare (da 2 GB a 3 GB). Per i server a 32 bit che hanno più di 4 GB di RAM, il/3gb
commutatore in Boot.ini potrebbe effettivamente limitare la quantità di memoria che SQL Server può risolvere. Per questi sistemi, aggiungere il/pae
commutatore a Boot.ini e quindi abilitare AWE in SQL Server.In un sistema multiprocessore controllare l'impostazione Max Degree of Parallelism (MAXDOP). In SQL Server 2008 questa opzione si trova nella scheda Avanzate della finestra di dialogo Proprietà del server.
Il valore predefinito è 0, ovvero verranno usati tutti i processori disponibili. L'impostazione 0 è valida per i server con otto o meno processori. Per i server con più di otto processori, il tempo necessario SQL Server per coordinare l'uso di tutti i processori può essere controproduttivo. Pertanto, per i server con più di otto processori, in genere è consigliabile impostare Max Degree of Parallelism su un valore pari a 8. A tale scopo, eseguire il comando seguente in Sql Query Analyzer:
sp_configure 'show advanced options', 1 GO RECONFIGURE WITH OVERRIDE GO sp_configure 'max degree of parallelism', 8 GO RECONFIGURE WITH OVERRIDE GO
Lettere di unità contenenti file data warehouse, database di Operations Manager e Tempdb
Se il software antivirus è configurato per escludere i file di dati e di log SQL (l'analisi dei file di database SQL Server con software antivirus può ridurre le prestazioni).
Quantità di spazio disponibile nelle unità che contengono file data warehouse, database di Operations Manager e Tempdb
Tipo di archiviazione (SAN o locale)
Livello RAID (0, 1, 5, 0+1 o 1+0) per le unità usate da SQL Server
Se si usa l'archiviazione SAN: numero di spindle in ogni LUN usato da SQL Server
Se il Management Pack di Exchange 2007 convertito viene usato o è mai stato usato: numero di righe nella
LocalizedText
tabella nel database di Operations Manager e nellaEventPublisher
tabella nel database del data warehousePer determinare gli importi delle righe, eseguire i comandi seguenti:
USE OperationsManager SELECT COUNT(*) FROM LocalizedText USE OperationsManagerDW SELECT COUNT(*) FROM EventPublisher
Contatori per identificare la pressione della memoria
Nome del contatore delle prestazioni | Descrizione |
---|---|
MSSQL$<instance>: Gestione buffer: Aspettativa di vita della pagina | Per quanto tempo le pagine vengono mantenute nel pool di buffer. Se questo valore è inferiore a 300 secondi, potrebbe indicare che il server potrebbe usare più memoria. Potrebbe anche essere il risultato della frammentazione dell'indice. |
MSSQL$<instance>: Buffer Manager: Scritture lazy/sec | Il writer lazy libera spazio nel buffer spostando le pagine su disco. In genere, il valore non deve superare costantemente le 20 scritture al secondo. Idealmente, sarebbe vicino a zero. |
Memoria: MByte disponibili | I valori inferiori a 100 MB possono indicare un utilizzo elevato della memoria. La pressione della memoria è chiaramente presente quando questa quantità è inferiore a 10 MB. |
Processo: Byte privati: _Total | Si tratta della quantità di memoria (fisica e pagina) usata da tutti i processi combinati. |
Processo: Working Set: _Total | Si tratta della quantità di memoria fisica usata da tutti i processi combinati. Se il valore di questo contatore è significativamente inferiore al valore di Process: Private Bytes: _Total , indica che i processi sono troppo impaginazione. Una differenza di oltre il 10% è probabilmente significativa. |
Contatori per identificare la pressione del disco
Acquisire questi contatori dei dischi fisici per tutte le unità che contengono file di log o dati SQL:
% tempo di inattività: quantità di tempo di inattività del disco segnalata. Qualsiasi valore inferiore al 50% potrebbe indicare un collo di bottiglia del disco.
Lunghezza media coda disco: questo valore non deve superare il doppio del numero di spindle in un LUN. Ad esempio, se un LUN ha 25 mandrini, il valore 50 è accettabile. Tuttavia, se un LUN ha 10 mandrini, il valore 25 è troppo alto. È possibile usare le formule seguenti in base al livello RAID e al numero di dischi nella configurazione RAID:
RAID 0: tutti i dischi funzionano in un set RAID 0
Lunghezza <media coda disco= # (Dischi nella matrice) *2
RAID 1: metà dei dischi funziona; pertanto, solo la metà di essi può essere conteggiata per la coda del disco
Lunghezza <media coda disco= # (Dischi nella matrice/2) *2
RAID 10: metà dei dischi "funzionano"; pertanto, solo la metà di essi può essere conteggiata per la coda del disco
Lunghezza <media coda disco= # (Dischi nella matrice/2) *2
RAID 5: tutti i dischi funzionano in un set RAID 5
Lunghezza <media coda disco= # Dischi nella matrice *2
Media disco sec/trasferimento: numero di secondi necessari per completare un I/O su disco
Media disco sec/lettura: tempo medio, in secondi, per leggere i dati dal disco
Media disco sec/scrittura: tempo medio, in secondi, per la scrittura dei dati nel disco
Gli ultimi tre contatori in questo elenco devono avere in modo coerente valori di circa .020 (20 ms) o inferiori e non devono mai superare .050 (50 ms). Di seguito sono riportate le soglie documentate nella guida alla risoluzione dei problemi delle prestazioni SQL Server:
- Meno di 10 ms: molto buono
- Tra 10 e 20 ms: ok
- Tra 20 e 50 ms: lento, richiede attenzione
- Maggiore di 50 ms: collo di bottiglia di I/O grave
Byte disco/sec: numero di byte trasferiti da o verso il disco al secondo
Trasferimenti disco/sec: numero di operazioni di input e output al secondo (OPERAZIONI DI I/O al secondo)
Quando % tempo di inattività è basso (10% o inferiore), significa che il disco è completamente utilizzato. In questo caso, gli ultimi due contatori di questo elenco (Byte disco/sec e Trasferimenti disco/sec) forniscono una buona indicazione della velocità effettiva massima dell'unità rispettivamente in byte e in operazioni di I/O al secondo. La velocità effettiva di un'unità SAN è altamente variabile, a seconda del numero di mandrini, della velocità delle unità e della velocità del canale. La soluzione migliore consiste nel verificare con il fornitore SAN il numero di byte e operazioni di I/O al secondo che l'unità deve supportare. Se % tempo di inattività è basso e i valori per questi due contatori non soddisfano la velocità effettiva prevista dell'unità, contattare il fornitore SAN per risolvere i problemi.
SQL Server guida alla risoluzione dei problemi delle prestazioni fornisce informazioni più approfondite sulla risoluzione dei problemi SQL Server prestazioni.
Contatori delle prestazioni di Operations Manager
Le sezioni seguenti descrivono i contatori delle prestazioni che è possibile usare per monitorare e risolvere i problemi relativi alle prestazioni di Operations Manager.
Ruolo del server gateway
Contatori delle prestazioni complessivi
Questi contatori indicano le prestazioni complessive del gateway:
Nome del contatore delle prestazioni |
---|
Processore(_Totale)\% tempo processore |
Memoria\% byte salvati in uso |
Interfaccia di rete(*)\Totale byte/sec |
LogicalDisk(*)\% Tempo di inattività |
LogicalDisk(*)\Avg. Lunghezza coda disco |
Contatori delle prestazioni generici del processo di Operations Manager
Questi contatori indicano le prestazioni complessive dei processi di Operations Manager nel gateway:
Nome del contatore delle prestazioni | Descrizione |
---|---|
Process(HealthService)\% Tempo processore | |
Process(HealthService)\Private Bytes | A seconda del numero di agenti gestiti da questo gateway, questo numero può variare e può essere di diverse centinaia di megabyte |
Process(HealthService)\Thread Count | |
Process(HealthService)\Virtual Bytes | |
Process(HealthService)\Working Set | |
Process(MonitoringHost*)\% Tempo processore | |
Process(MonitoringHost*)\Private Bytes | |
Process(MonitoringHost*)\Thread Count | |
Process(MonitoringHost*)\Virtual Bytes | |
Process(MonitoringHost*)\Working Set |
Contatori delle prestazioni specifici di Operations Manager
Questi contatori sono contatori specifici di Operations Manager che indicano le prestazioni di aspetti specifici di Operations Manager nel gateway:
Nome del contatore delle prestazioni | Descrizione |
---|---|
Servizio integrità\Conteggio flussi di lavoro | |
Gruppi di gestione dei servizi di integrità(*)\Caricamenti file attivi | Numero di trasferimenti di file che questo gateway gestisce. Rappresenta il numero di file del Management Pack caricati negli agenti. Se questo valore rimane a un livello elevato per un lungo periodo di tempo e l'importazione del Management Pack non è molto elevata in un determinato momento, queste condizioni possono generare un problema che influisce sul trasferimento di file. |
Gruppi di gestione dei servizi di integrità(*)\% coda di trasmissione utilizzata | Dimensioni della coda persistente. Se questo valore rimane superiore a 10 per un lungo periodo di tempo e non viene omesso, indica che viene eseguito il backup della coda. Questa condizione è causata da un sistema Operations Manager in overload perché il server di gestione o il database è troppo occupato o è offline. |
Connettore OpsMgr\Byte ricevuti | Numero di byte di rete ricevuti dal gateway, ovvero il numero di byte in ingresso prima della decompressione. |
Connettore OpsMgr\Byte trasmessi | Numero di byte di rete inviati dal gateway, ovvero il numero di byte in uscita dopo la compressione. |
Connettore OpsMgr\Byte dati ricevuti | Numero di byte di dati ricevuti dal gateway, ovvero la quantità di dati in ingresso dopo la decompressione. |
Connettore OpsMgr\Byte dati trasmessi | Numero di byte di dati inviati dal gateway, ovvero la quantità di dati in uscita prima della compressione. |
OpsMgr Connector\Open Connections | Numero di connessioni aperte nel gateway. Questo numero deve corrispondere al numero di agenti o server di gestione connessi direttamente al gateway. |
Ruolo del server di gestione
Contatori delle prestazioni complessivi
Questi contatori indicano le prestazioni complessive del server di gestione:
Nome del contatore delle prestazioni |
---|
Processore(_Totale)\% tempo processore |
Memoria\% byte salvati in uso |
Interfaccia di rete(*)\Totale byte/sec |
LogicalDisk(*)\% Tempo di inattività |
LogicalDisk(*)\Avg. Lunghezza coda disco |
Contatori delle prestazioni generici del processo di Operations Manager
Questi contatori indicano le prestazioni complessive dei processi di Operations Manager nel server di gestione:
Nome del contatore delle prestazioni | Descrizione |
---|---|
Process(HealthService)\% Tempo processore | |
Process(HealthService)\Private Bytes | A seconda del numero di agenti gestiti da questo server di gestione, questo numero può variare e può essere di diverse centinaia di megabyte. |
Process(HealthService)\Thread Count | |
Process(HealthService)\Virtual Bytes | |
Process(HealthService)\Working Set | |
Process(MonitoringHost*)\% Tempo processore | |
Process(MonitoringHost*)\Private Bytes | |
Process(MonitoringHost*)\Thread Count | |
Process(MonitoringHost*)\Virtual Bytes | |
Process(MonitoringHost*)\Working Set |
Contatori delle prestazioni specifici di Operations Manager
Questi contatori sono contatori specifici di Operations Manager che indicano le prestazioni di aspetti specifici di Operations Manager nel server di gestione:
Nome del contatore delle prestazioni | Descrizione |
---|---|
Servizio integrità\Conteggio flussi di lavoro | Numero di flussi di lavoro in esecuzione nel server di gestione. |
Gruppi di gestione dei servizi di integrità(*)\Caricamenti file attivi | Numero di trasferimenti di file che questo server di gestione gestisce. Rappresenta il numero di file del Management Pack caricati negli agenti. Se questo valore rimane a un livello elevato per un lungo periodo di tempo e l'importazione del Management Pack non è molto elevata in un determinato momento, queste condizioni possono generare un problema che influisce sul trasferimento di file. |
Gruppi di gestione dei servizi di integrità(*)\% coda di trasmissione utilizzata | Dimensioni della coda persistente. Se questo valore rimane superiore a 10 per un lungo periodo di tempo e non viene omesso, indica che viene eseguito il backup della coda. Questa condizione è causata da un sistema Operations Manager di overload perché il sistema di Operations Manager, ad esempio il server di gestione radice, è troppo occupato o è offline. |
Health Service Management Groups(*)\Bind Data Source Item Drop Rate | Numero di elementi di dati eliminati dal server di gestione per le azioni di scrittura della raccolta dati del database o del data warehouse. Quando questo valore del contatore non 0 è , il server di gestione o il database è sovraccarico perché non è in grado di gestire l'elemento dati in ingresso abbastanza velocemente o perché si verifica un burst di elementi dati. Gli elementi di dati eliminati verranno risentiti dagli agenti. Al termine della situazione di overload o burst, questi elementi di dati verranno inseriti nel database o nel data warehouse. |
Health Service Management Groups(*)\Bind Data Source Item Incoming Rate | Numero di elementi di dati ricevuti dal server di gestione per le azioni di scrittura della raccolta dati del database o del data warehouse. |
Health Service Management Groups(*)\Bind Data Source Item Post Rate | Numero di elementi di dati scritti dal server di gestione nel database o nel data warehouse per le azioni di scrittura della raccolta dati. |
Connettore OpsMgr\Byte ricevuti | Numero di byte di rete ricevuti dal server di gestione, ovvero le dimensioni dei byte in ingresso prima della decompressione. |
Connettore OpsMgr\Byte trasmessi | Numero di byte di rete inviati dal server di gestione, ovvero le dimensioni dei byte in uscita dopo la compressione. |
Connettore OpsMgr\Byte dati ricevuti | Numero di byte di dati ricevuti dal server di gestione, ovvero le dimensioni dei dati in ingresso dopo la decompressione. |
Connettore OpsMgr\Byte dati trasmessi | Numero di byte di dati inviati dal server di gestione, ovvero le dimensioni dei dati in uscita prima della compressione. |
OpsMgr Connector\Open Connections | Numero di connessioni aperte nel server di gestione. Deve corrispondere al numero di agenti o server di gestione radice a cui è direttamente connesso. |
Moduli di azione di scrittura del database OpsMgr(*)\Avg. Dimensioni batch | Numero di elementi di dati o batch ricevuti dai moduli di azione di scrittura del database. Se questo numero è 5.000, si verifica un burst di elementi dati. |
OpsMgr DB Write Action Modules(*)\Avg. Processing Time | Numero di secondi necessari dai moduli di azione di scrittura del database per inserire un batch nel database. Se questo numero è spesso maggiore di 60, si verifica un problema di prestazioni di inserimento del database. |
OpsMgr DW Writer Module(*)\Avg. Batch Processing Time, ms | Numero di millisecondi per l'azione di scrittura del data warehouse per inserire un batch di elementi di dati in un data warehouse. |
OpsMgr DW Writer Module(*)\Avg. Dimensioni batch | Numero medio di elementi di dati o batch ricevuti dai moduli di azione di scrittura del data warehouse. |
OpsMgr DW Writer Module(*)\Batches/sec | Numero di batch ricevuti dai moduli di azione di scrittura del data warehouse al secondo. |
OpsMgr DW Writer Module(*)\Data Items/sec | Numero di elementi dati ricevuti dai moduli di azione di scrittura del data warehouse al secondo. |
OpsMgr DW Writer Module(*)\Dropped Data Item Count | Numero di elementi dati eliminati dai moduli di azione di scrittura del data warehouse. |
OpsMgr DW Writer Module(*)\Total Error Count | Numero di errori che si sono verificati in un modulo di azione di scrittura del data warehouse. |