Condividi tramite


Metriche di osservabilità di Azure Operator Nexus

In Operator Nexus Network Fabric (NNF), il monitoraggio Ethernet è un componente fondamentale per mantenere prestazioni di rete ottimali, garantire la disponibilità e risolvere in modo proattivo potenziali problemi prima di causare interruzioni nell'infrastruttura. Il monitoraggio include l'analisi del traffico, l'integrità dei dispositivi, la sicurezza e i dettagli specifici delle singole interfacce Ethernet. Monitorando attentamente l'infrastruttura del tessuto, possiamo garantire che il NNF funzioni senza intoppi ed efficientemente e che eventuali problemi vengano identificati e risolti in anticipo.

Vengono monitorati gli aspetti seguenti dei dispositivi NNF:

  • Disponibilità: Il monitoraggio della connettività dei dispositivi garantisce che la rete sia disponibile e impedisca tempi di inattività

  • Prestazioni: tenere traccia delle metriche, ad esempio l'utilizzo della larghezza di banda dell'interfaccia, la perdita di pacchetti, la latenza e l'instabilità, consente di valutare le prestazioni di rete e individuare eventuali colli di bottiglia

  • Sicurezza: il monitoraggio consente di identificare eventuali attività sospette, tentativi di accesso non autorizzati o potenziali minacce alla sicurezza nella rete

  • Integrità: monitoraggio della CPU del dispositivo, memoria, temperatura, ventola, stato dell'alimentazione e stato operativo dell'interfaccia, consente di identificare eventuali errori

Contatori di stato ACL

I contatori di stato per gli elenchi di controllo di accesso (ACL) in un dispositivo di rete consentono di supervisionare e controllare il traffico di rete. Offrono dati sul numero di pacchetti corrispondenti a ogni voce ACL. Questi contatori possono essere esaminati su scala globale o per interfaccia e tramite traffico in ingresso e in uscita.

Categoria metriche Descrizione/Utilizzo Intervallo di raccolta Unità di misura
Pacchetti corrispondenti alla lista di controllo accessi (ACL) Numero totale di pacchetti di rete che corrispondono ai criteri impostati dalla voce ACL (Access Control List) corrente in un dispositivo di rete. Questo conteggio consente di monitorare e gestire il traffico di rete. 5 minuti Numero di pacchetti.

Stato BGP

Le connessioni BGP (Border Gateway Protocol) sono essenziali per una comunicazione efficace tra peer BGP e prestazioni di rete ottimali. Gli amministratori di rete possono rilevare problemi di rete o interruzioni osservando questi stati. Ad esempio, una connessione rimanente nello stato "Inattiva" potrebbe suggerire un problema di configurazione. Lo stato "Stabilito", che indica un corretto scambio di informazioni di routing tra peer BGP, è essenziale per il corretto funzionamento della rete.

Categoria metriche Descrizione/Utilizzo Intervallo di raccolta Unità misurata
Stato peer BGP Lo stato del peer BGP, come definito da RFC 4271, viene riepilogato dopo questa tabella. 5 minuti e su richiesta N/A

Gli stati di connessione BGP sono:

  • Inattività (1): Stato iniziale di una connessione BGP.
  • Connetti (2): Il sistema è in attesa del completamento della connessione TCP.
  • Attivo (3): Il sistema sta tentando di avviare una connessione TCP con il peer.
  • OpenSent (4): Il sistema è in attesa di ricevere un messaggio OPEN dal peer.
  • OpenConfirm (5): Il sistema è in attesa di un messaggio KEEPALIVE o NOTIFICATION dal peer.
  • Stabilito (6): La connessione BGP viene stabilita completamente e i peer possono scambiare messaggi UPDATE.

Stato operativo del componente

Lo stato operativo di un componente hardware o software mostra lo stato di funzionamento corrente.

Categoria metriche Descrizione/Utilizzo Intervallo di raccolta Unità misurata
Stato dell'operazione del componente Stato operativo delle entità che possono far parte dell'inventario del dispositivo, ad esempio schede di linea, transceiver, ventole, alimentatori e così via. I valori possibili vengono descritti dopo questa tabella. 5 minuti e su richiesta N/A

I possibili stati operativi sono:

  • Attivo (0): Il componente è abilitato e attivo (su)
  • Inattivo (1): Il componente è abilitato ma inattivo (non operativo)
  • Disabilitato (2): Il componente è disabilitato in modo amministrativo

Stato operativo dell'interfaccia

Lo stato operativo di un'interfaccia in un dispositivo di rete mostra lo stato di funzionamento corrente.

Categoria metriche Descrizione/Utilizzo Intervallo di raccolta Unità misurata
Stato operativo dell'interfaccia Stato operativo dell'interfaccia. I valori possibili vengono descritti dopo questa tabella. 5 minuti N/A

I possibili stati operativi sono:

  • Su (0): L'interfaccia è operativa e in grado di trasmettere e ricevere dati
  • Giù (1): L'interfaccia non è operativa e non è in grado di trasmettere o ricevere dati
  • Lower_layer_down (2): L'interfaccia è inattiva a causa di un errore in un livello inferiore dello stack di rete
  • Test (3): L'interfaccia è in fase di test e non è ancora operativa
  • Sconosciuto (4): Lo stato dell'interfaccia è sconosciuto, probabilmente a causa di un errore nel sistema di monitoraggio del dispositivo
  • Inattivo (5): L'interfaccia è operativa, ma è attualmente in stato inattivo, ovvero non trasmette o riceve dati
  • Not_present (6): L'interfaccia non è presente nel dispositivo, probabilmente perché è stata rimossa fisicamente o non è ancora stata installata

Contatori dello stato dell'interfaccia

I contatori dello stato dell'interfaccia tengono traccia del numero di frame o pacchetti che corrispondono a determinate condizioni. Tutti vengono raccolti a intervalli di 5 minuti.

Categoria metriche Descrizione/Utilizzo
Interfaccia Ethernet negli errori CRC Numero totale di fotogrammi ricevuti con lunghezza compresa tra 64 e 1.518 ottetti con errore FCS o errore di allineamento. Questi errori indicano problemi nella trasmissione dei dati che devono essere risolti per una comunicazione affidabile.
Interfaccia Ethernet nei frame frammentati Si tratta di un misuratore che quantifica il numero di frame di frammenti con errori ricevuti tramite un'interfaccia Ethernet. Un frame di frammento, che è più breve della lunghezza prevista del protocollo Ethernet, possiede un valore di checksum errato, noto come errore FCS, o un conteggio di bit non corretto, detto errore di allineamento.
Interfaccia Ethernet nei Frame Jabber Il conteggio dei frame jabber ricevuti tramite l'interfaccia. I pacchetti Jabber sono pacchetti che superano le dimensioni massime consentite e possiedono anche un controllo ciclico di ridondanza errato (CRC).
Interfaccia Ethernet nei frame di controllo del MAC Fotogrammi di controllo a livello MAC ricevuti sull'interfaccia.
Interfaccia Ethernet nei frame di pausa MAC Sospendere i fotogrammi a livello MAC ricevuti tramite l'interfaccia .
Interfaccia Ethernet con superamento della Dimensione Massima Numero totale di frame ben strutturati che sono stati scartati dall'interfaccia a causa del superamento della dimensione massima consentita.
Interfaccia Ethernet con frame di dimensioni eccessive Numero totale di fotogrammi ben strutturati ricevuti che superano 1.518 ottetti di lunghezza (senza contare i bit di frame, ma inclusi gli ottetti FCS).
Interfaccia Ethernet uscita telai di controllo MAC Frame di controllo a livello MAC inviati sull'interfaccia
Interfaccia Ethernet Uscita MAC Pause Frames SOSPENDERE i fotogrammi a livello MAC inviati tramite l'interfaccia .
Interfaccia nei pacchetti broadcast Numero totale di pacchetti indirizzati a un indirizzo di trasmissione in questo sottostrato, inclusi i pacchetti eliminati o non inviati.
Interfaccia in eliminazioni Numero di pacchetti in ingresso eliminati anche se non sono stati rilevati errori per impedire il recapito a un protocollo di livello superiore.
Interfaccia in errore Per le interfacce orientate ai pacchetti, il numero di pacchetti in ingresso che contenevano errori impedendo loro di essere consegnati a un protocollo di livello superiore.
Interfaccia in errori FCS Numero di pacchetti ricevuti con errori nella sequenza di controllo del frame.
Interfaccia nei pacchetti multicast Numero di pacchetti recapitati da questo sottostrato a un livello superiore o sottostrato che sono stati indirizzati a un indirizzo multicast in questo sottostrato. Per un protocollo mac-layer, questi indirizzi includono indirizzi sia di gruppo che di funzionalità.
Interfaccia in ottetti Numero totale di ottetti ricevuti nell'interfaccia, inclusi i caratteri di frame.
Interfaccia nei pacchetti Numero totale di pacchetti ricevuti sull'interfaccia, inclusi tutti i pacchetti unicast, multicast, broadcast e non validi.
Interfaccia nei pacchetti Unicasts Numero di pacchetti recapitati da questo sottostrato a un livello o sottostrato superiore che non sono stati indirizzati a un indirizzo multicast o broadcast in questo sottostrato.
Pacchetti Broadcast di Uscita dall'Interfaccia Numero totale di pacchetti indirizzati a un indirizzo di trasmissione in questo sottostrato, inclusi i pacchetti eliminati o non inviati.
Scarti in Uscita dell'Interfaccia Numero di pacchetti in uscita rimossi anche se non sono stati rilevati errori per impedire la trasmissione.
Errori di uscita dell'interfaccia Per le interfacce orientate ai pacchetti, il numero di pacchetti in uscita che non possono essere trasmessi a causa di errori.
Pacchetti multicast in uscita dall'interfaccia Numero totale di pacchetti in uscita indirizzati a un indirizzo multicast in questo sottostrato, inclusi i pacchetti eliminati o non inviati. Per un protocollo mac-layer, questi indirizzi includono indirizzi sia di gruppo che di funzionalità.
Ottetti in uscita dell'interfaccia Il numero totale di ottetti trasmessi dall'interfaccia, inclusi i caratteri di inquadramento.
Pacchetti in uscita dell'interfaccia Numero totale di pacchetti trasmessi dall'interfaccia, inclusi tutti i pacchetti unicast, multicast, broadcast e errati.
Interfaccia pacchetti Unicast in uscita Numero totale di pacchetti in uscita che non sono stati indirizzati a un indirizzo multicast o broadcast in questo sottostrato, inclusi i pacchetti eliminati o non inviati.

Frequenza dello stato dell'interfaccia

La frequenza di stato dell'interfaccia può avere effetti sulle prestazioni di rete e sulla affidabilità. Una frequenza elevata di alterazioni dello stato potrebbe segnalare una connessione di rete instabile, causando potenzialmente una riduzione delle prestazioni e della congestione della rete.

Tutte le misurazioni della frequenza di stato vengono raccolte a intervalli di 5 minuti.

Categoria metriche Descrizione/Utilizzo
Tasso di scarto dell'interfaccia Frequenza con cui i pacchetti in ingresso vengono eliminati in un'interfaccia di rete. I pacchetti possono essere rimossi per diversi motivi, ad esempio congestione della rete, hardware difettoso o problemi di configurazione.
Interfaccia nella velocità dei pacchetti Frequenza di pacchetti ricevuti sull'interfaccia, inclusi tutti gli unicast, i multicast, le trasmissioni e i pacchetti non validi.
Frequenza di scarto in uscita dell'interfaccia Frequenza dei pacchetti in uscita rimossi anche se non sono stati rilevati errori per impedirne la trasmissione.
Frequenza dei pacchetti in uscita dell'interfaccia Tasso di pacchetti trasmessi dall'interfaccia, inclusi tutti gli unicast, i multicast, i broadcast e i pacchetti non validi.

Velocità di aggiornamento dello stato LACP

Il monitoraggio della frequenza di stato LACP è fondamentale a causa dei potenziali effetti sulle prestazioni e sulla affidabilità della rete. Il termine "LACP state rate" nel contesto di Link Aggregation Control Protocol indica il ritmo in cui i pacchetti di controllo LACP vengono trasmessi o ricevuti da un'interfaccia che supporta LACP.

Tutte le misurazioni della frequenza di stato vengono raccolte a intervalli di 5 minuti.

Categoria metriche Descrizione/Utilizzo
Errori LACP Il termine "Numero di errori di pacchetti LACPDU illegali" indica il conteggio delle unità di controllo del protocollo di aggregazione dei collegamenti (LACPDU) che, nonostante la ricezione, sono considerate illegali a causa della loro struttura non corretta o di un valore non autorizzato del sottotipo di protocollo.
Lacp in Pacchetti Numero di LACPU ricevuti.
Pacchetti LACP in uscita Numero di LACPDUs trasmessi.
Errori RX LACP Numero di errori LACPDU ricevuti.
Errori di Lacp TX Numero di errori LACPDU trasmessi.
Errori sconosciuti di Lacp Numero di errori sconosciuti delle LACPDUs.

Contatori di stato LLDP

I contatori di stato LLDP mostrano il numero di frame LLDP inviati e ricevuti da un dispositivo di rete. LLDP è l'acronimo di Link Layer Discovery Protocol, un protocollo standard che consente ai dispositivi di pubblicizzare la propria identità, le funzionalità e i vicini in una rete locale. I contatori di stato LLDP consentono agli amministratori di rete di monitorare l'integrità e le prestazioni della rete, risolvere i problemi di connettività e individuare la topologia e la configurazione dei dispositivi.

Tutte le misurazioni vengono raccolte a intervalli di 5 minuti.

Categoria metriche Descrizione/Utilizzo
LLDP Frame in LLDPFrameIn in un dispositivo di rete fa riferimento al numero di frame LLDP (Link Layer Discovery Protocol) ricevuti dal dispositivo.
Lldp Frame out LLDPFrameOut in un dispositivo di rete fa riferimento al numero di frame LLDP (Link Layer Discovery Protocol) inviati dal dispositivo. LLDP viene usato dai dispositivi di rete per annunciare la propria identità e funzionalità ad altri dispositivi nella stessa rete.
Lldp TLV sconosciuto LLDPTLVUnknown in un dispositivo di rete fa riferimento al numero di frame LLDP (Link Layer Discovery Protocol) ricevuti che contengono voci TLV (Type-Length-Value) sconosciute. Le VTL vengono usate nei protocolli di rete per specificare informazioni facoltative. Un TLV "sconosciuto" suggerisce che il dispositivo ha ricevuto dati che non riconosce o non può interpretare, il che potrebbe indicare problemi di compatibilità all'interno della rete.

Monitoraggio di Terminal Server

Monitora la raggiungibilità IP del server terminal (TS Net1 e TS Net3, IPv4) e la disponibilità dei file server HTTP tramite un ping ICMP periodico (ogni 5 minuti) e richieste HTTP GET dall'infrastruttura di monitoraggio di Azure Fabric. Le metriche riflettono lo stato di raggiungibilità in tempo reale e supportano avvisi e visualizzazioni coerenti in ambienti AON.

Metric Valore Interpretazione Regola di avviso
TS_Ping_Status 2 ICMP Ping Riuscito Nessun avviso attivato
1 Fallimento del ping ICMP Avviso se valore < 2
TS_FileServer_Status 2 File server raggiungibile Nessun avviso attivato
1 File Server non raggiungibile Avviso se valore < 2

Gli avvisi vengono attivati quando i valori delle metriche diminuiscono al di sotto di 2. Se l'istanza viene disconnessa da Azure, vengono restituiti dati delle metriche mancanti (nessun valore segnalato).

Utilizzo delle risorse del dispositivo di Infrastruttura di rete

Le metriche di utilizzo delle risorse forniscono informazioni dettagliate critiche sull'uso efficiente delle risorse di rete. Queste metriche forniscono informazioni dettagliate sulle prestazioni e sull'integrità di un dispositivo di infrastruttura di rete. Le metriche di utilizzo delle risorse offrono una visualizzazione olistica delle prestazioni e dell'integrità di un sistema. Misurano il carico di lavoro della CPU, l'efficienza di raffreddamento, la disponibilità della memoria, le prestazioni di alimentazione e i livelli di calore. Queste metriche sono essenziali per ottimizzare le prestazioni del sistema, gestire le risorse in modo efficace e prevenire danni hardware a causa di un calore eccessivo.

Categoria metriche Descrizione/Utilizzo Intervallo di raccolta Unità misurata
Utilizzo medio della CPU La metrica media utilizzo CPU è la percentuale media di risorse di calcolo usate da un processore in un intervallo di tempo specifico. 1 min Percentuale
Utilizzo CPU Istantaneo Percentuale immediata di risorse di calcolo usate da un processore in un momento specifico. Fornisce informazioni in tempo reale sul carico di lavoro e sulle prestazioni della CPU. 1 min Percentuale
Utilizzo CPU Massimo Percentuale più elevata di risorse di calcolo usate da un processore in un intervallo di tempo specifico. 1 min Percentuale
Utilizzo minimo della CPU Percentuale minima delle risorse di calcolo usate da un processore in un determinato intervallo di tempo. 1 min Percentuale
Velocità ventola Velocità immediata di rotazione della ventola di raffreddamento. È una metrica fondamentale per mantenere la temperatura operativa ottimale e garantire la longevità dei componenti del dispositivo. 1 min Rpm (non disponibile)
Memoria disponibile Memoria disponibile installata fisicamente o allocata logicamente al componente. 1 min Bytes
Corrente di ingresso dell'alimentazione Quantità di corrente elettrica, misurata in amps, che l'unità di alimentazione (PSU) estrae dalla fonte. È un fattore fondamentale per determinare l'efficienza della PSU e il consumo complessivo di energia del dispositivo. 1 min Ampere (non disponibile)
Tensione di alimentazione La quantità di potenziale elettrico, misurata in volt, che l'unità di alimentazione (UPS) assorbe dalla sorgente. Si tratta di un parametro chiave per garantire che l'unità PSU possa convertire adeguatamente l'alimentazione AC in alimentazione DC per le esigenze del dispositivo. 1 min Volt (non disponibile)
Capacità massima di potenza dell'alimentatore Capacità massima di alimentazione dell'alimentatore. 1 min Watt (non disponibile)
Alimentazione corrente Corrente di output fornita dall'alimentatore. 1 min Ampere (non disponibile)
Tensione di alimentazione Tensione di uscita fornita dall'alimentatore. 1 min Volt (non disponibile)
Potenza di uscita dell'alimentatore La quantità di potenza elettrica, misurata in watt, che l'unità di alimentazione (PSU) fornisce ai componenti del dispositivo. È un fattore fondamentale per garantire che il dispositivo abbia una potenza sufficiente per ottenere prestazioni ottimali. 1 min
Temperatura istantanea Temperatura in tempo reale dei componenti del dispositivo. 1 minuto
Temperatura massima Temperatura operativa sicura più elevata per i componenti del dispositivo. Il superamento di questo limite può causare un surriscaldamento, che potrebbe causare problemi di prestazioni, danni ai componenti o persino causare errori del dispositivo. È fondamentale monitorare e gestire la temperatura del dispositivo per garantire la sua longevità e prestazioni ottimali. 1 min

Importante

La metrica BGP Peer Status rappresenta lo stato operativo di una sessione BGP, indicato come numeri interi da 1 a 6.

Come analizzare correttamente i dati:

Le sessioni BGP possono oscillare più volte all'interno di un intervallo di un minuto, generando più campioni per bucket. Per interpretare correttamente questi elementi:

  • Min: stato minimo osservato (rivela il calo verso Idle/Active)
  • Max: stato massimo osservato (indica se la sessione ha raggiunto l'impostazione stabilita)
  • Conteggio: numero di campioni nel bucket (indica l'instabilità quando è elevata)
  • Max=6 & Min=6 & Count=1 → La sessione è rimasta stabilita per tutto il minuto
  • Max=6 & Min<6 & Count>1 → Si è verificata almeno una transizione durante il minuto
  • Max<6 & Min≥1 → La sessione non è mai stata stabilita in quel minuto
  • Conteggio≫1 (ad esempio, >3) → Potenziale flap o oscillazione rapida

Linee guida per la visualizzazione

  • Esplora metriche: usare aggregazioni Min, Max e Count. Evitare Avg, perché restituisce erroneamente gli stati categorici.
  • Cartelle di lavoro: prendere in considerazione le griglie o gli oggetti visivi della sequenza temporale dello stato che visualizzano insieme min/max/conteggio al minuto.
  • Log Analytics (KQL): usare min(), max() e count() over bin(..., 1m); facoltativamente, calcolare una distribuzione dello stato (MaxState - MinState) per rilevare le transizioni.
  • Avvisi:
    1. Disponibilità: Min < 6 o Max < 6
    2. Instabilità: soglia SampleCount >

Limitation

Se si verificano più transizioni entro un minuto, Min e Max mostrano solo l'intervallo (ad esempio, 1 e 6) senza rivelare stati intermedi. Usare le query Count e KQL per un'analisi più approfondita.