Monitorare i problemi operativi nell'area di lavoro Log Analytics di Monitoraggio di Azure

Per mantenere le prestazioni e la disponibilità dell'area di lavoro Log Analytics in Monitoraggio di Azure, è necessario essere in grado di rilevare in modo proattivo eventuali problemi che si verificano. Questo articolo descrive come monitorare l'integrità dell'area di lavoro Log Analytics usando i dati nella tabella Operazione . Questa tabella è inclusa in ogni area di lavoro Log Analytics. Contiene messaggi di errore e avvisi che si verificano nell'area di lavoro. È consigliabile creare avvisi per i problemi relativi al livello di avviso e errore.

Autorizzazioni obbligatorie

È necessario disporre Microsoft.OperationalInsights/workspaces/query/*/read delle autorizzazioni per le aree di lavoro Log Analytics su cui si esegue la query, ad esempio, come specificato dal ruolo predefinito Lettore di Log Analytics.

funzione _LogOperation

I log di Monitoraggio di Azure inviano informazioni su eventuali problemi alla tabella Operation nell'area di lavoro in cui si è verificato il problema. La _LogOperation funzione di sistema si basa sulla tabella Operation e fornisce un set semplificato di informazioni per l'analisi e l'invio di avvisi.

Colonne

La _LogOperation funzione restituisce le colonne nella tabella seguente.

Colonna Descrizione
TimeGenerated Ora in cui si è verificato l'evento imprevisto in formato UTC.
Categoria Gruppo di categorie di operazioni. Può essere usato per filtrare i tipi di operazioni e contribuire a creare avvisi e controllo del sistema più precisi. Per un elenco di categorie, vedere la sezione seguente.
Operazione Descrizione del tipo di operazione. L'operazione può indicare che è stato raggiunto uno dei limiti di Log Analytics, un problema correlato al processo back-end o qualsiasi altro messaggio del servizio.
Livello Livello di gravità del problema:
- Info: nessuna attenzione specifica necessaria.
- Avviso: il processo non è stato completato come previsto ed è necessaria attenzione.
- Errore: processo non riuscito ed è necessaria l'attenzione.
Dettagli Descrizione dettagliata dell'operazione, include il messaggio di errore specifico.
_ResourceId ID risorsa della risorsa di Azure correlata all'operazione.
Computer Nome computer se l'operazione è correlata a un agente di Monitoraggio di Azure.
CorrelationId Utilizzato per raggruppare le operazioni correlate consecutive.

Categorie

Nella tabella seguente vengono descritte le categorie della _LogOperation funzione .

Categoria Descrizione
Inserimento Operazioni che fanno parte del processo di inserimento dati.
Agente Indica un problema relativo all'installazione dell'agente.
Raccolta dati Operazioni correlate ai processi di raccolta dati.
Destinazione della soluzione L'operazione di tipo ConfigurationScope è stata elaborata.
Soluzione di valutazione È stato eseguito un processo di valutazione.

Inserimento

Le operazioni di inserimento sono problemi che si sono verificati durante l'inserimento dei dati e includono notifiche relative al raggiungimento dei limiti dell'area di lavoro Log Analytics. Le condizioni di errore in questa categoria potrebbero suggerire la perdita di dati, quindi sono importanti da monitorare. Per i limiti del servizio per le aree di lavoro Log Analytics, vedere Limiti del servizio Monitoraggio di Azure.

Operazione: Raccolta dati arrestata

"La raccolta dei dati è stata arrestata a causa del limite giornaliero di dati gratuiti raggiunto. Stato inserimento = OverQuota"

Negli ultimi sette giorni, la raccolta dei log ha raggiunto il limite di set giornaliero. Il limite viene impostato come area di lavoro è impostato sul livello gratuito o il limite di raccolta giornaliero è stato configurato per questa area di lavoro. Dopo che la raccolta dati raggiunge il limite impostato, si arresta automaticamente per il giorno e riprenderà solo durante il giorno successivo della raccolta.

Azioni consigliate:

  • Controllare la presenza di _LogOperation eventi di raccolta arrestati e ripresi della raccolta:
    _LogOperation | where TimeGenerated >= ago(7d) | where Category == "Ingestion" | where Detail has "Data collection"
  • Creare un avviso per l'evento Operation "Raccolta dati arrestata". Questo avviso invia una notifica quando viene raggiunto il limite di raccolta.
  • I dati raccolti dopo il raggiungimento del limite di raccolta giornaliero andranno persi. Usare il riquadro Informazioni dettagliate sull'area di lavoro per esaminare i tassi di utilizzo di ogni origine. In alternativa, è possibile decidere di gestire il volume di dati giornaliero massimo o modificare il piano tariffario in base al modello di tariffe di raccolta.
  • La frequenza di raccolta dati viene calcolata al giorno e reimpostata all'inizio del giorno successivo. È anche possibile monitorare un evento di ripresa della raccolta creando un avviso sull'evento Operation "Raccolta dati ripresa".

Operazione: frequenza di inserimento

"La velocità del volume di inserimento dati ha superato la soglia nell'area di lavoro: {0:0.00} MB al minuto e i dati sono stati eliminati".

Azioni consigliate:

  • Controllare la _LogOperation tabella per un evento di frequenza di inserimento:

    _LogOperation | where TimeGenerated >= ago(7d) | where Category == "Ingestion" | where Operation has "Ingestion rate" un evento viene inviato alla tabella Operation nell'area di lavoro ogni sei ore mentre la soglia continua a essere superata.
  • Creare un avviso per l'evento Operation "Raccolta dati arrestata". Questo avviso invia una notifica quando viene raggiunto il limite.
  • I dati raccolti mentre la velocità di inserimento raggiunge il 100% verrà eliminata e persa. Usare il riquadro Informazioni dettagliate sull'area di lavoro per esaminare i modelli di utilizzo e provare a ridurli.
    Per altre informazioni, vedere:

Operazione: numero massimo di colonne della tabella

"I dati del nome> della tabella di tipo <sono stati eliminati perché il numero di campi< nuovi campi è> superiore al limite del limite di <campi corrente limite> di campi personalizzati per tipo di dati".

Azione consigliata: per le tabelle personalizzate, è possibile passare all'analisi dei dati nelle query.

Operazione: Convalida del contenuto del campo

"Il nome> del campo dei valori <dei campi seguenti del nome> della tabella di tipo< è stato tagliato in base alle dimensioni massime consentite, <al limite> di dimensioni dei campi. Modificare l'input di conseguenza."

Un campo maggiore della dimensione limite è stato elaborato dai log di Azure. Il campo è stato tagliato fino al limite di campo consentito. Non è consigliabile inviare campi superiori al limite consentito perché comporta una perdita di dati.

Azioni consigliate:

Controllare l'origine del tipo di dati interessato:

  • Se i dati vengono inviati tramite l'API dell'agente di raccolta dati HTTP, è necessario modificare il codice\script per suddividere i dati prima che vengano inseriti.
  • Per i log personalizzati, raccolti da un agente di Log Analytics, modificare le impostazioni di registrazione dell'applicazione o dello strumento.
  • Per qualsiasi altro tipo di dati, generare un caso di supporto. Per altre informazioni, vedere Limiti del servizio Monitoraggio di Azure.

Raccolta dati

Nella sezione seguente vengono fornite informazioni sulla raccolta dati.

Operazione: raccolta log attività di Azure

"L'accesso alla sottoscrizione è andato perso. Assicurarsi che la sottoscrizione dell'ID <<>sottoscrizione sia nel tenant con ID> tenant Microsoft Entra. Se la sottoscrizione viene trasferita a un altro tenant, non c'è alcun impatto sui servizi, ma le informazioni per il tenant potrebbero richiedere fino a un'ora per propagarsi".

In alcune situazioni, ad esempio lo spostamento di una sottoscrizione in un tenant diverso, i log attività di Azure potrebbero interrompere il flusso nell'area di lavoro. In queste situazioni, è necessario riconnettere la sottoscrizione seguendo il processo descritto in questo articolo.

Azioni consigliate:

  • Se la sottoscrizione indicata nel messaggio di avviso non esiste più, passare al riquadro Connettore log attività legacy in Versione classica. Selezionare la sottoscrizione pertinente e quindi selezionare il pulsante Disconnetti .
  • Se non si ha più accesso alla sottoscrizione indicata nel messaggio di avviso:
    • Seguire il passaggio precedente per disconnettere la sottoscrizione.
    • Per continuare a raccogliere i log da questa sottoscrizione, contattare il proprietario della sottoscrizione per correggere le autorizzazioni e riabilitare la raccolta dei log attività.
  • Creare un'impostazione di diagnostica per inviare il log attività a un'area di lavoro Log Analytics.

Agente

Nella sezione seguente vengono fornite informazioni sugli agenti.

Operazione: Agente Linux

"Due applicazioni di configurazione successive di OMS Impostazioni non riuscite".

Le impostazioni di configurazione nel portale sono state modificate.

Azione consigliata: questo problema viene generato nel caso in cui l'agente recuperi le nuove impostazioni di configurazione. Per attenuare questo problema, reinstallare l'agente. Controllare la _LogOperation tabella per l'evento dell'agente:

_LogOperation | where TimeGenerated >= ago(6h) | where Category == "Agent" | where Operation == "Linux Agent" | distinct _ResourceId

L'elenco mostra gli ID risorsa in cui l'agente ha la configurazione errata. Per attenuare il problema, reinstallare gli agenti elencati.

Regole di avviso

Usare gli avvisi di ricerca log in Monitoraggio di Azure per ricevere notifiche proattive quando viene rilevato un problema nell'area di lavoro Log Analytics. Usare una strategia che consente di rispondere in modo tempestivo ai problemi riducendo al minimo i costi. La sottoscrizione verrà addebitata per ogni regola di avviso, come indicato nei prezzi di Monitoraggio di Azure.

Una strategia consigliata consiste nell'iniziare con due regole di avviso in base al livello del problema. Usare una frequenza breve, ad esempio ogni 5 minuti per Errori e una frequenza più lunga, ad esempio 24 ore per gli avvisi. Poiché gli errori indicano una potenziale perdita di dati, è necessario rispondere rapidamente per ridurre al minimo eventuali perdite. Gli avvisi indicano in genere un problema che non richiede attenzione immediata, quindi è possibile esaminarli ogni giorno.

Usare il processo in Creare, visualizzare e gestire gli avvisi di ricerca log usando Monitoraggio di Azure per creare le regole di avviso di ricerca log. Le sezioni seguenti descrivono i dettagli per ogni regola.

Query Valore soglia Periodo Frequenza
_LogOperation | where Level == "Error" 0 5 5
_LogOperation | where Level == "Warning" 0 1,440 1,440

Queste regole di avviso rispondono allo stesso modo a tutte le operazioni con Errore o Avviso. Man mano che si ha familiarità con le operazioni che generano avvisi, è possibile che si voglia rispondere in modo diverso per determinate operazioni. Ad esempio, è possibile inviare notifiche a persone diverse per operazioni specifiche.

Per creare una regola di avviso per un'operazione specifica, usare una query che include le colonne Categoria e Operazione .

Nell'esempio seguente viene creato un avviso di avviso quando la frequenza del volume di inserimento ha raggiunto l'80% del limite:

  • Destinazione: selezionare l'area di lavoro Log Analytics
  • Criteri:
    • Nome segnale: Ricerca log personalizzata
    • Query di ricerca: _LogOperation | where Category == "Ingestion" | where Operation == "Ingestion rate" | where Level == "Warning"
    • In base a: Numero di risultati
    • Condizione: Maggiore di
    • Soglia: 0
    • Periodo: 5 (minuti)
    • Frequenza: 5 (minuti)
  • Nome regola di avviso: Soglia dei dati giornaliera raggiunta
  • Gravità: Avviso (Gravità 1)

Nell'esempio seguente viene creato un avviso di avviso quando la raccolta dati ha raggiunto il limite giornaliero:

  • Destinazione: selezionare l'area di lavoro Log Analytics
  • Criteri:
    • Nome segnale: Ricerca log personalizzata
    • Query di ricerca: _LogOperation | where Category == "Ingestion" | where Operation == "Data collection Status" | where Level == "Warning"
    • In base a: Numero di risultati
    • Condizione: Maggiore di
    • Soglia: 0
    • Periodo: 5 (minuti)
    • Frequenza: 5 (minuti)
  • Nome regola di avviso: Soglia dei dati giornaliera raggiunta
  • Gravità: Avviso (Gravità 1)

Passaggi successivi

  • Altre informazioni sugli avvisi di ricerca log.
  • Raccogliere i dati di controllo delle query per l'area di lavoro.