Memantau masalah operasional di ruang kerja Azure Monitor Log Analytics Anda

Untuk mempertahankan kinerja dan ketersediaan ruang kerja Log Analytics di Azure Monitor, Anda harus dapat secara proaktif mendeteksi masalah apa pun yang muncul. Artikel ini menjelaskan cara memantau kesehatan ruang kerja Analitik Log Anda dengan menggunakan data dalam tabel Operasi . Tabel ini disertakan di setiap ruang kerja Analitik Log. Ini berisi pesan kesalahan dan peringatan yang terjadi di ruang kerja Anda. Kami menyarankan agar Anda membuat pemberitahuan untuk masalah dengan tingkat Peringatan dan Kesalahan.

Izin yang diperlukan

Anda harus memiliki Microsoft.OperationalInsights/workspaces/query/*/read izin ke ruang kerja Analitik Log yang Anda kueri, seperti yang disediakan oleh peran bawaan Pembaca Analitik Log, misalnya.

Fungsi _LogOperation

Log Azure Monitor mengirimkan informasi tentang masalah apa pun ke tabel Operasi di ruang kerja tempat masalah terjadi. Fungsi _LogOperation sistem didasarkan pada tabel Operasi dan menyediakan sekumpulan informasi yang disederhanakan untuk analisis dan pemberitahuan.

Kolom

Fungsi mengembalikan _LogOperation kolom dalam tabel berikut.

Kolom Deskripsi
TimeGenerated Waktu insiden tersebut terjadi di UTC.
Kategori Grup kategori operasi. Dapat digunakan untuk memfilter jenis operasi dan membantu membuat audit dan pemberitahuan sistem yang lebih tepat. Lihat bagian berikut untuk daftar kategori.
Operasi Deskripsi jenis operasi. Operasi ini dapat menunjukkan bahwa salah satu batas Analitik Log tercapai, masalah terkait proses back-end, atau pesan layanan lainnya.
Tingkat Tingkat keparahan masalah:
- Info: Tidak perlu perhatian khusus.
- Peringatan: Proses tidak selesai seperti yang diharapkan, dan perhatian diperlukan.
- Kesalahan: Proses gagal, dan perhatian diperlukan.
Detail Detail deskripsi dari operasi, termasuk pesan kesalahan tertentu.
_ResourceId ID sumber daya dari sumber daya Azure yang terkait dengan operasi.
Komputer Nama komputer jika operasi terkait dengan agen Azure Monitor.
CorrelationId Digunakan untuk mengelompokkan operasi terkait yang berurutan.

Kategori

Tabel berikut ini menjelaskan kategori dari _LogOperation fungsi.

Kategori Deskripsi
Konsumsi Operasi yang merupakan bagian dari proses penyerapan data.
Agen Menunjukkan masalah dengan penginstalan agen.
Kumpulan data Operasi yang terkait dengan proses pengumpulan data.
Penargetan solusi Operasi jenis ConfigurationScope diproses.
Solusi penilaian Proses penilaian dilakukan.

Konsumsi

Operasi penyerapan adalah masalah yang terjadi selama penyerapan data dan menyertakan pemberitahuan tentang mencapai batas ruang kerja Analitik Log. Kondisi kesalahan dalam kategori ini mungkin menyarankan kehilangan data, sehingga penting untuk dipantau. Untuk batas layanan untuk ruang kerja Analitik Log, lihat Batas layanan Azure Monitor.

Penting

Jika Anda memecahkan masalah pengumpulan data untuk skenario yang menggunakan aturan pengumpulan data (DCR) seperti agen Azure Monitor atau API penyerapan log, lihat Memantau dan memecahkan masalah pengumpulan data DCR di Azure Monitor untuk informasi pemecahan masalah tambahan.

Operasi: Pengumpulan data dihentikan

"Pengumpulan data dihentikan karena batas harian data gratis tercapai. Status konsumsi = OverQuota"

Dalam tujuh hari terakhir, pengumpulan log mencapai batas yang ditetapkan harian. Batas diatur baik karena ruang kerja diatur ke Tingkat gratis atau batas pengumpulan harian dikonfigurasi untuk ruang kerja ini. Setelah pengumpulan data Anda mencapai batas yang ditetapkan, pengumpulan data secara otomatis berhenti untuk hari itu dan hanya akan dilanjutkan selama hari pengumpulan berikutnya.

Tindakan yang disarankan:

  • Periksa tabel untuk koleksi yang _LogOperation dihentikan dan koleksi dilanjutkan peristiwa:
    _LogOperation | where TimeGenerated >= ago(7d) | where Category == "Ingestion" | where Detail has "Data collection"
  • Buat pemberitahuan pada peristiwa Operasi "Pengumpulan data dihentikan". Pemberitahuan ini memberi tahu Anda ketika batas koleksi tercapai.
  • Data yang dikumpulkan setelah batas pengumpulan harian tercapai akan hilang. Gunakan panel Wawasan ruang kerja untuk meninjau tingkat penggunaan dari setiap sumber. Atau Anda dapat memutuskan untuk mengelola volume data harian maksimum Anda atau mengubah tingkat harga menjadi yang sesuai dengan pola tarif koleksi Anda.
  • Tingkat pengumpulan data dihitung per hari dan diatur ulang pada awal hari berikutnya. Anda juga dapat memantau peristiwa resume koleksi dengan membuat pemberitahuan pada peristiwa Operasi "Pengumpulan data dilanjutkan".

Operasi: Tingkat penyerapan

"Tingkat volume konsumsi data melewati ambang batas di ruang kerja Anda: {0:0,00} MB per satu menit dan data telah dihilangkan."

Tindakan yang disarankan:

  • _LogOperation Periksa tabel untuk peristiwa tingkat penyerapan:

    _LogOperation | where TimeGenerated >= ago(7d) | where Category == "Ingestion" | where Operation has "Ingestion rate"Peristiwa dikirim ke tabel Operasi di ruang kerja setiap enam jam sementara ambang batas terus terlampaui.
  • Buat pemberitahuan pada peristiwa Operasi "Pengumpulan data dihentikan". Pemberitahuan ini memberi tahu Anda ketika batas tercapai.
  • Data yang dikumpulkan sementara tingkat penyerapan mencapai 100 persen akan dihilangkan dan hilang. Gunakan panel Wawasan ruang kerja untuk meninjau pola penggunaan Anda dan mencoba menguranginya.
    Untuk informasi selengkapnya, lihat:

Operasi: Jumlah kolom tabel maksimum

"Data tipe <nama tabel> dihapus karena jumlah bidang <jumlah bidang baru> berada di atas batas <jumlah bidang saat ini> bidang kustom per tipe data."

Tindakan yang disarankan: Untuk tabel kustom, Anda dapat berpindah untuk mengurai data dalam kueri.

Operasi: Validasi konten bidang

Nilai "bidang berikut' <nama bidang> dari tipe <nama tabel> telah dipangkas hinga ukuran maksimal yang diizinkan, bit <batas ukuran bidangt>. Sesuaikan input Anda dengan benar."

Bidang yang lebih besar dari ukuran batas diproses oleh log Azure. Bidang dipangkas ke batas bidang yang diizinkan. Kami tidak menyarankan pengiriman bidang yang lebih besar dari batas yang diizinkan karena mengalihkan kehilangan data.

Tindakan yang disarankan:

Periksa sumber jenis data yang terpengaruh:

  • Jika data dikirim melalui HTTP Data Collector API, Anda perlu mengubah code\script untuk membagi data sebelum diserap.
  • Untuk log kustom, dikumpulkan oleh agen Log Analytics, ubah pengaturan pengelogan aplikasi atau alat.
  • Untuk jenis data lainnya, ajukan kasus dukungan. Untuk informasi selengkapnya, lihat Batas layanan Azure Monitor.

Kumpulan data

Bagian berikut ini menyediakan informasi tentang pengumpulan data.

Operasi: Pengumpulan Log Aktivitas Azure

"Akses ke langganan hilang. Pastikan langganan <id> langganan berada di< id> penyewa Penyewa Microsoft Entra penyewa. Jika langganan ditransfer ke penyewa lain, tidak ada dampak pada layanan, tetapi informasi untuk penyewa dapat memakan waktu hingga satu jam untuk disebarluaskan."

Dalam beberapa situasi, seperti memindahkan langganan ke penyewa yang berbeda, log aktivitas Azure mungkin berhenti mengalir ke ruang kerja. Dalam situasi tersebut, Anda perlu menyambungkan kembali langganan dengan mengikuti proses yang dijelaskan dalam artikel ini.

Tindakan yang disarankan:

  • Jika langganan yang disebutkan dalam pesan peringatan tidak ada lagi, buka panel Konektor log aktivitas warisan di bawah Klasik. Pilih langganan yang relevan, lalu pilih tombol Putuskan Sambungan .
  • Jika Anda tidak lagi memiliki akses ke langganan yang disebutkan dalam pesan peringatan:
    • Ikuti langkah sebelumnya untuk memutuskan sambungan langganan.
    • Untuk terus mengumpulkan log dari langganan ini, hubungi pemilik langganan untuk memperbaiki izin dan mengaktifkan kembali kumpulan log aktivitas.
  • Buat pengaturan diagnostik untuk mengirim log aktivitas ke ruang kerja Analitik Log.

Agen

Bagian berikut ini menyediakan informasi tentang agen.

Operasi: Agen Linux

"Dua aplikasi konfigurasi berturut-turut dari OMS Pengaturan gagal."

Pengaturan konfigurasi di portal telah berubah.

Tindakan yang direkomendasikan: Masalah ini muncul jika ada masalah bagi agen untuk mengambil pengaturan konfigurasi baru. Untuk mengurangi masalah ini, instal ulang agen. _LogOperation Periksa tabel untuk peristiwa agen:

_LogOperation | where TimeGenerated >= ago(6h) | where Category == "Agent" | where Operation == "Linux Agent" | distinct _ResourceId

Daftar menunjukkan ID sumber daya tempat agen memiliki konfigurasi yang salah. Untuk mengurangi masalah, instal ulang agen yang tercantum.

Aturan peringatan

Gunakan pemberitahuan pencarian log di Azure Monitor untuk diberi tahu secara proaktif saat masalah terdeteksi di ruang kerja Analitik Log Anda. Gunakan strategi yang memungkinkan Anda merespons masalah secara tepat waktu sambil meminimalkan biaya Anda. Langganan Anda akan dikenakan biaya untuk setiap aturan pemberitahuan seperti yang tercantum dalam harga Azure Monitor.

Strategi yang disarankan adalah memulai dengan dua aturan pemberitahuan berdasarkan tingkat masalah. Gunakan frekuensi pendek seperti setiap 5 menit untuk Kesalahan dan frekuensi yang lebih lama seperti 24 jam untuk Peringatan. Karena Kesalahan menunjukkan potensi kehilangan data, Anda ingin meresponsnya dengan cepat untuk meminimalkan kehilangan. Peringatan biasanya menunjukkan masalah yang tidak memerlukan perhatian segera, sehingga Anda dapat meninjaunya setiap hari.

Gunakan proses dalam Membuat, menampilkan, dan mengelola pemberitahuan pencarian log dengan menggunakan Azure Monitor untuk membuat aturan pemberitahuan pencarian log. Bagian berikut menjelaskan detail untuk setiap aturan.

Kueri Ambang nilai Periode Frekuensi
_LogOperation | where Level == "Error" 0 5 5
_LogOperation | where Level == "Warning" 0 1,440 1,440

Aturan pemberitahuan ini merespons sama untuk semua operasi dengan Kesalahan atau Peringatan. Saat Anda menjadi lebih terbiasa dengan operasi yang menghasilkan pemberitahuan, Anda mungkin ingin merespons secara berbeda untuk operasi tertentu. Misalnya, Anda mungkin ingin mengirim pemberitahuan ke orang yang berbeda untuk operasi tertentu.

Untuk membuat aturan pemberitahuan operasi tertentu, gunakan kueri yang menyertakan kolom Kategori dan Operasi.

Contoh berikut membuat pemberitahuan Peringatan ketika tingkat volume penyerapan telah mencapai 80 persen dari batas:

  • Target: Pilih ruang kerja Analisis Log Anda
  • Kriteria:
    • Nama sinyal: Pencarian log kustom
    • Kueri penelusuran: _LogOperation | where Category == "Ingestion" | where Operation == "Ingestion rate" | where Level == "Warning"
    • Berdasarkan: Jumlah hasil
    • Kondisi: Lebih besar dari
    • Ambang: 0
    • Periode: 5 (menit)
    • Frekuensi: 5 (menit)
  • Nama aturan peringatan: Batas data harian tercapai
  • Tingkat keparahan: Peringatan (Keparahan 1)

Contoh berikut membuat pemberitahuan Peringatan saat pengumpulan data telah mencapai batas harian:

  • Target: Pilih ruang kerja Analisis Log Anda
  • Kriteria:
    • Nama sinyal: Pencarian log kustom
    • Kueri penelusuran: _LogOperation | where Category == "Ingestion" | where Operation == "Data collection Status" | where Level == "Warning"
    • Berdasarkan: Jumlah hasil
    • Kondisi: Lebih besar dari
    • Ambang: 0
    • Periode: 5 (menit)
    • Frekuensi: 5 (menit)
  • Nama aturan peringatan: Batas data harian tercapai
  • Tingkat keparahan: Peringatan (Keparahan 1)

Langkah berikutnya