Memecahkan masalah dengan Azure Chaos Studio

Saat menggunakan Azure Chaos Studio, Anda mungkin terkadang mengalami beberapa masalah. Artikel ini menjelaskan masalah umum dan langkah-langkah pemecahan masalah.

Tips pemecahan masalah umum

Sumber berikut berguna saat Anda memecahkan masalah dengan Chaos Studio:

  • Log aktivitas: Log aktivitas Azure memiliki catatan semua operasi buat, perbarui, dan hapus dalam langganan. Catatan ini termasuk operasi Chaos Studio seperti mengaktifkan target atau kemampuan, menginstal agen, dan membuat atau menjalankan eksperimen. Kegagalan dalam log aktivitas menunjukkan bahwa tindakan pengguna yang penting untuk menggunakan Chaos Studio mungkin gagal diselesaikan. Sebagian besar kesalahan langsung layanan juga menyuntikkan kesalahan dengan menjalankan operasi Azure Resource Manager, sehingga log aktivitas juga memiliki catatan kesalahan yang disuntikkan selama eksperimen untuk beberapa kesalahan langsung layanan.
  • Detail eksperimen: Detail eksekusi eksperimen menunjukkan status dan kesalahan eksperimen individual yang dijalankan. Membuka kesalahan tertentu dalam detail eksperimen menunjukkan sumber daya yang gagal dan pesan kesalahan untuk kegagalan. Pelajari selengkapnya tentang cara mengakses detail eksperimen.
  • Log agen: Jika Anda menggunakan kesalahan berbasis agen, Anda mungkin perlu memasukkan RDP atau SSH ke komputer virtual (VM) untuk memahami mengapa agen gagal menjalankan kesalahan. Instruksi untuk mengakses log agen bergantung pada sistem operasi:
    • Agen Chaos Windows: Log agen berada di Log Peristiwa Windows dalam kategori Aplikasi dengan sumber AzureChaosAgent. Agen menambahkan aktivitas kesalahan dan peristiwa pemeriksaan kesehatan rutin (kemampuan untuk mengautentikasi dan berkomunikasi dengan layanan agen Chaos Studio) ke log ini.
    • Agen Chaos Linux: Agen Linux menggunakan systemd untuk mengelola proses agen sebagai layanan Linux. Untuk melihat jurnal systemd bagi agen (peristiwa yang dicatat oleh layanan agen), jalankan perintah journalctl -u azure-chaos-agent.
  • Status ekstensi VM: Jika Anda menggunakan kesalahan berbasis agen, verifikasi bahwa ekstensi VM diinstal dan sehat. Di portal Azure, buka VM Anda dan buka Ekstensi atau Ekstensi + aplikasi. ChaosAgent Pilih ekstensi dan cari bidang berikut:
    • Status harus menunjukkan Provisi berhasil. Status lain menampilkan bahwa agen gagal diinstal. Verifikasi bahwa Anda memenuhi semua persyaratan sistem. Coba instal ulang agen.
    • Status handler harus menampilkan Siap. Status lain menunjukkan bahwa agen diinstal tetapi tidak dapat terhubung ke Chaos Studio. Verifikasi bahwa Anda memenuhi semua persyaratan jaringan dan bahwa identitas terkelola yang ditetapkan pengguna ditambahkan ke VM. Cobalah untuk reboot.

Masalah saat Anda menambahkan sumber daya

Anda mungkin mengalami masalah berikut saat menambahkan sumber daya.

Sumber daya tidak muncul dalam daftar target di portal Azure

Jika Anda tidak melihat sumber daya yang ingin Anda aktifkan di daftar target Chaos Studio, itu mungkin karena salah satu masalah berikut:

Pengaktifan target atau kemampuan gagal atau tidak ditampilkan dengan benar dalam daftar target

Jika Anda melihat kesalahan saat mengaktifkan target atau kemampuan, coba langkah-langkah berikut:

  1. Verifikasi bahwa Anda memiliki izin yang sesuai ke sumber daya yang Anda tambahkan. Mengaktifkan target atau kemampuan memerlukan izin Microsoft.Chaos/* di cakupan sumber daya. Peran bawaan seperti Kontributor memiliki izin baca dan tulis kartubebas, yang mencakup izin untuk semua operasi Microsoft.Chaos.
  2. Tunggu beberapa menit agar target dan daftar kemampuan diperbarui. portal Azure menggunakan Azure Resource Graph untuk mengumpulkan informasi tentang menambahkan target dan kemampuan. Diperlukan waktu hingga lima menit agar pembaruan disebarluaskan.
  3. Jika sumber daya masih menunjukkan Tidak diaktifkan, coba langkah-langkah berikut:
    1. Cobalah untuk mengaktifkan sumber daya lagi.
    2. Jika pengaktifan sumber daya masih gagal, buka log aktivitas dan temukan operasi pembuatan target yang gagal untuk melihat informasi kesalahan terperinci.
  4. Jika sumber daya memperlihatkan Diaktifkan tetapi penambahan kemampuan gagal, coba langkah-langkah berikut:
    1. Pilih Kelola tindakan pada sumber daya di daftar target. Periksa kemampuan apa pun yang tidak dicentang dan pilih Simpan.
    2. Jika pengaktifan kemampuan masih gagal, buka log aktivitas dan temukan operasi pembuatan target yang gagal untuk melihat informasi kesalahan terperinci.

Masalah prasyarat

Beberapa masalah disebabkan oleh prasyarat yang hilang.

Kesalahan berbasis agen gagal pada mesin virtual

Kesalahan berbasis agen mungkin gagal karena berbagai alasan yang terkait dengan prasyarat yang hilang:

  • Pada VM Linux, Tekanan CPU, Tekanan Memori Fisik, tekanan I/O Disk, dan kesalahan Stres-ng Sewenang-wenang semuanya mengharuskan utilitas stress-ng diinstal pada VM Anda. Untuk informasi lebih lanjut tentang cara menginstal stress-ng, lihat bagian prasyarat kesalahan.
  • Pada VM Linux atau Windows, identitas terkelola yang ditetapkan pengguna yang disediakan selama pengaktifan target berbasis agen juga harus ditambahkan ke VM.
  • Pada VM Linux atau Windows, identitas terkelola yang ditetapkan sistem untuk eksperimen harus diberikan peran Pembaca pada VM. (Peran yang tampaknya ditingkatkan seperti Kontributor Komputer Virtual tidak menyertakan operasi */Baca yang diperlukan agen Chaos Studio untuk membaca sumber daya proksi target microsoft-agent di VM.)

Agen chaos tidak akan diinstal pada set skala komputer virtual

Menginstal agen Chaos pada set skala komputer virtual mungkin gagal tanpa menunjukkan kesalahan jika kebijakan peningkatan set skala komputer virtual diatur ke Manual. Untuk memeriksa kebijakan peningkatan set skala komputer virtual:

  1. Masuk ke portal Azure.
  2. Pilih Set Skala Komputer Virtual.
  3. Di panel kiri, pilih Mutakhirkan kebijakan.
  4. Periksa mode Peningkatan untuk melihat apakah diatur ke Manual - Instans yang ada harus ditingkatkan secara manual.

Jika kebijakan peningkatan diatur ke Manual, Anda harus meningkatkan instans Azure Virtual Machine Scale Sets sehingga penginstalan agen Chaos dapat selesai.

Meningkatkan instans dari portal Azure

Anda dapat meningkatkan instans Virtual Machine Scale Sets anda dari portal Azure:

  1. Masuk ke portal Azure.
  2. Pilih Set Skala Komputer Virtual.
  3. Di panel kiri, pilih Instans.
  4. Pilih semua instans dan pilih Tingkatkan.

Meningkatkan instans dengan Azure CLI

Anda dapat meningkatkan instans Virtual Machine Scale Sets Anda dengan Azure CLI:

  • Dari Azure CLI, gunakan az vmss update-instances untuk meningkatkan instans Anda secara manual:

    az vmss update-instances --resource-group myResourceGroup --name myScaleSet --instance-ids {instanceIds}
    

Untuk informasi selengkapnya, lihat Memperbarui VM dengan model set skala terbaru.

Kesalahan AKS Chaos Mesh gagal

Kesalahan Chaos Mesh Azure Kubernetes Service (AKS) mungkin gagal karena berbagai alasan yang terkait dengan prasyarat yang hilang:

  • Chaos Mesh harus terlebih dahulu diinstal pada kluster AKS sebelum Anda menggunakan kesalahan AKS Chaos Mesh. Untuk petunjuknya, lihat kesalahan Chaos Mesh pada tutorial AKS.
  • Versi Chaos Mesh harus 2.0.4 atau lebih baru. Anda bisa mendapatkan versi Chaos Mesh dengan menghubungkan ke kluster AKS Anda dan menjalankan helm version chaos-mesh.
  • Chaos Mesh harus diinstal dengan namespace chaos-testing. Nama namespace layanan lain untuk Chaos Mesh tidak didukung.
  • Peran Admin Kluster AKS harus ditetapkan ke identitas terkelola yang ditetapkan sistem untuk eksperimen chaos.

Masalah saat Anda membuat atau merancang eksperimen

Anda mungkin mengalami masalah saat membuat atau merancang eksperimen.

Saat saya menambahkan kesalahan, sumber daya saya tidak ditampilkan di daftar Sumber Daya Target

Saat Anda menambahkan kesalahan, jika Anda tidak melihat sumber daya yang ingin Anda targetkan dengan kesalahan dalam daftar Sumber Daya Target, itu mungkin karena salah satu masalah berikut:

  • Filter Langganan diatur untuk mengecualikan langganan tempat target Anda disebarkan. Pilih filter langganan dan ubah langganan yang dipilih.
  • Sumber daya belum ditambahkan. Buka tampilan Target dan aktifkan target. Kemudian tutup panel Tambahkan Kesalahan dan buka kembali untuk melihat daftar target yang diperbarui.
  • Sumber daya belum diaktifkan untuk jenis target kesalahan tersebut. Lihat pustaka kesalahan untuk melihat jenis target mana yang digunakan untuk kesalahan. Lalu buka tampilan Target dan aktifkan jenis target tersebut. Jenisnya berbasis agen untuk kesalahan microsoft-agent atau service-direct untuk semua jenis target lainnya. Kemudian tutup panel Tambahkan Kesalahan dan buka kembali untuk melihat daftar target yang diperbarui.
  • Sumber daya belum mengaktifkan kemampuan untuk kesalahan tersebut. Lihat pustaka kesalahan untuk melihat nama kemampuan untuk kesalahan tersebut. Lalu buka tampilan Target dan pilih Kelola tindakan pada sumber daya target. Pilih kotak centang untuk kemampuan yang sesuai dengan kesalahan yang coba Anda jalankan dan pilih Simpan. Kemudian tutup panel Tambahkan Kesalahan dan buka kembali untuk melihat daftar target yang diperbarui.
  • Sumber daya baru-baru ini ditambahkan dan belum muncul di Resource Graph. Daftar Sumber Daya Target dikueri dari Resource Graph. Setelah target baru diaktifkan, diperlukan waktu hingga lima menit agar pembaruan disebarluaskan ke Resource Graph. Tunggu beberapa menit, lalu buka kembali panel Tambahkan Kesalahan .

Saat saya membuat eksperimen, saya mendapatkan kesalahan "Penyedia microsoft:agent memerlukan identitas terkelola"

Kesalahan ini terjadi ketika agen belum disebarkan ke VM Anda. Untuk instruksi penginstalan, lihat Membuat dan menjalankan percobaan yang menggunakan kesalahan berbasis agen.

Ketika saya membuat eksperimen, saya mendapatkan kesalahan "Jenis media konten 'null' tidak didukung. Hanya 'aplikasi/json' yang didukung"

Anda mungkin mengalami kesalahan ini jika membuat eksperimen dengan menggunakan templat Azure Resource Manager atau REST API Chaos Studio. Kesalahan menunjukkan bahwa ada JSON cacat dalam definisi eksperimen Anda. Periksa untuk melihat apakah Anda memiliki kesalahan sintaks, seperti kurung kurawal atau tanda kurung siku yang tidak cocok ({} dan []). Untuk memeriksanya, gunakan linter JSON seperti Visual Studio Code.

Masalah saat Anda menjalankan eksperimen

Anda mungkin mengalami masalah saat menjalankan eksperimen.

Status eksekusi eksperimen saya "Gagal" setelah dimulai

Dari daftar Eksperimen di portal Azure, pilih nama eksperimen untuk melihat Gambaran Umum Eksperimen. Di bagian Riwayat , pilih Detail di samping eksperimen yang gagal dijalankan untuk melihat informasi kesalahan terperinci.

Cuplikan layar yang memperlihatkan riwayat eksperimen.

Kesalahan berbasis agen saya gagal dengan kesalahan "Verifikasi bahwa target ditambahkan dengan benar dan izin baca yang tepat disediakan untuk msi eksperimen"

Kesalahan ini mungkin terjadi jika Anda menambahkan agen dengan menggunakan portal Azure, yang memiliki masalah yang diketahui. Mengaktifkan target berbasis agen tidak menetapkan identitas terkelola yang ditetapkan pengguna ke VM atau set skala komputer virtual.

Untuk mengatasi masalah ini, buka VM atau set skala komputer virtual di portal Azure dan buka Identitas. Buka tab Pengguna yang ditetapkan dan tambahkan identitas yang ditetapkan pengguna Anda ke VM. Setelah selesai, Anda mungkin perlu me-reboot VM agar agen tersambung.

Kesalahan berbasis agen saya gagal dengan kesalahan "Agen sudah melakukan tugas lain"

Kesalahan ini akan terjadi jika Anda mencoba menjalankan beberapa kesalahan agen secara bersamaan. Saat ini agen hanya mendukung menjalankan satu kesalahan agen pada satu waktu, dan akan gagal jika Anda menentukan eksperimen yang menjalankan beberapa kesalahan agen secara bersamaan.

Masalah saat menyiapkan identitas terkelola

Ketika saya mencoba menambahkan identitas terkelola yang ditetapkan sistem/ditetapkan pengguna ke eksperimen saya yang ada, identitas tersebut gagal disimpan.

Jika Anda mencoba menambahkan identitas terkelola yang ditetapkan pengguna atau ditetapkan sistem ke eksperimen yang sudah memiliki identitas terkelola yang ditetapkan untuknya, eksperimen gagal disebarkan. Anda perlu menghapus identitas terkelola yang ditetapkan pengguna atau yang ditetapkan sistem yang ada pada eksperimen yang diinginkan terlebih dahulu sebelum menambahkan identitas terkelola yang Anda inginkan.

Ketika saya menjalankan eksperimen yang dikonfigurasi untuk membuat dan menetapkan peran kustom secara otomatis, saya mendapatkan kesalahan "Sumber daya target tidak dapat diselesaikan. ErrorCode: AccessDenied. Sumber Daya Target:"

Saat kotak centang "Izin peran kustom" dipilih untuk eksperimen, Chaos Studio membuat dan menetapkan peran kustom dengan izin yang diperlukan ke identitas eksperimen. Namun, ini tunduk pada batas penetapan peran dan definisi peran berikut:

  • Setiap langganan Azure memiliki batas 4000 penetapan peran.
  • Setiap penyewa Microsoft Entra memiliki batas 5000 definisi peran (atau definisi peran 2000 untuk Azure di Tiongkok).

Ketika salah satu batas ini telah tercapai, kesalahan ini akan terjadi. Untuk mengatasi hal ini, berikan izin ke identitas eksperimen secara manual sebagai gantinya.