Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Rekayasa Keandalan Situs (SRE) berfokus pada pembuatan sistem yang andal dan dapat diskalakan melalui otomatisasi dan manajemen proaktif. Azure SRE Agent menghadirkan prinsip-prinsip ini ke aplikasi yang dihosting Azure Anda dengan menyediakan alat bertenaga AI yang membantu mempertahankan lingkungan cloud produksi. Agen SRE membantu Anda menanggapi insiden dengan cepat dan efektif, mengurangi toil pengelolaan lingkungan produksi secara manual. Agen menggunakan kemampuan penalaran model bahasa besar (LLM) untuk mengidentifikasi log dan metrik yang diperlukan untuk analisis akar penyebab cepat dan mitigasi masalah. Azure SRE Agent memberi Anda waktu aktif layanan yang lebih baik dan mengurangi biaya operasional.
Agen memiliki akses ke setiap sumber daya di dalam grup sumber daya yang terkait dengan agen. Oleh karena itu, para agen:
Terus mengevaluasi aktivitas sumber daya, dan memantau sumber daya aktif
Mengirim pemberitahuan proaktif tentang aplikasi yang tidak sehat atau tidak stabil
Agen Azure SRE juga terintegrasi dengan Pemberitahuan Azure Monitor dan PagerDuty untuk mendukung solusi pemberitahuan tingkat lanjut.
Nota
Fitur SRE Agent ada di pratinjau publik. Untuk mendaftar ke daftar tunggu, isi aplikasi Agen SRE.
Dengan menggunakan Agen SRE, Anda menyetujui Ketentuan Penggunaan Tambahan khusus produk untuk Pratinjau Microsoft Azure.
Fitur utama
Agen Azure SRE menawarkan beberapa fitur utama yang meningkatkan keandalan dan performa sumber daya Azure Anda:
Utas selamat datang: Saat Anda pertama kali membuat agen, utas baru dibuat yang menyediakan analisis awal layanan Anda. Analisis lingkungan membuat rekam jepret dari semua sumber daya yang dikelola oleh agen. Selain itu, agen menghasilkan daftar aplikasi yang ditemukan di grup sumber daya terkelola.
Utas harian: Setiap hari, agen membuat laporan sumber daya yang meringkas status dan status layanan di grup sumber daya terkelola Anda.
Alat: Melakukan kueri, dan dukungan operasi melalui Azure CLI dan Kubectl.
Sumber data: Akses ke API Azure Resource Manager dan sumber data metrik Azure Monitor.
Manajemen insiden: Mendiagnosis insiden dengan mengobrol dengan agen secara langsung atau dengan menghubungkan platform manajemen insiden ke agen. Menanggapi pemberitahuan Azure Monitor atau insiden PagerDuty secara otomatis dengan analisis awal.
Pemantauan proaktif: Pemantauan sumber daya berkelanjutan 24x7 dengan pemberitahuan real time untuk potensi masalah.
Mitigasi otomatis: Deteksi otomatis dan mitigasi masalah umum, mengurangi waktu henti dan meningkatkan kesehatan sumber daya. Meskipun agen mencoba bekerja atas nama Anda, semua otomatisasi memerlukan persetujuan Anda.
Praktik terbaik infrastruktur: Mengidentifikasi dan memulihkan sumber daya yang tidak mengikuti praktik terbaik keamanan dan membantu pembaruan.
Mempercepat analisis akar penyebab: Diagnosis akar penyebab masalah aplikasi dengan menganalisis metrik dan log dan menyarankan mitigasi.
Visualisasi sumber daya: Tampilan komprehensif dependensi sumber daya dan status kesehatan Anda.
Dukungan mitigasi: Agen SRE dapat memperbaiki konfigurasi aplikasi dan layanan dependen. Untuk masalah kode, agen menyediakan trace stack dan dapat membuat issue di GitHub untuk membantu mengatasi masalah. Item berikut menjelaskan fitur khusus layanan agen:
Azure App Service: Mengembalikan penyebaran, meningkatkan/menurunkan skala sumber daya, memulai ulang aplikasi.
Azure Container Apps: Mengembalikan penyebaran, meningkatkan/menurunkan skala sumber daya, dan menghidupkan ulang aplikasi.
Azure Kubernetes Service: Memulai ulang pod/penyebaran, mengembalikan penyebaran ke revisi sebelumnya, meningkatkan/menurunkan skala sumber daya, dan menambal definisi sumber daya.
Laporan
Agen SRE bekerja untuk memantau dan memelihara layanan Azure Anda secara proaktif. Setiap hari agen Anda membuat laporan sumber daya harian yang memberikan wawasan tentang kesehatan dan status aplikasi Anda.
Laporan meliputi:
Ringkasan insiden: Menghasilkan informasi tentang insiden yang dimunculkan oleh Agen SRE pada hari sebelumnya. Kategori meliputi: aktif, dimitigasi, atau diselesaikan.
Performa dan kesehatan grup aplikasi: Metrik utama untuk setiap grup aplikasi untuk menilai stabilitas dan performa sistem. Metrik meliputi: ketersediaan, penggunaan CPU, dan penggunaan memori.
Ringkasan tindakan: Ringkasan detail dan wawasan penting yang relevan dengan kesehatan dan pemeliharaan sumber daya Azure Anda.
Skenario
Skenario | Kemungkinan penyebab | Mitigasi agen |
---|---|---|
Aplikasi tidak berfungsi | ▪ Masalah kode aplikasi: Bug atau kesalahan dalam kode aplikasi dapat menyebabkan crash atau tidak responsif. ▪ Penyebaran buruk: Konfigurasi yang salah atau penyebaran yang gagal dapat menyebabkan aplikasi turun. ▪ Masalah CPU/memori/utas yang tinggi: Kelelahan sumber daya karena penggunaan CPU, memori, atau utas yang tinggi dapat memengaruhi performa aplikasi. |
Agen SRE dapat mendeteksi masalah ini dan memberikan wawasan atau perbaikan yang dapat ditindakkan. Misalnya, sistem ini dapat mengidentifikasi penurunan ketersediaan aplikasi web yang bertepatan dengan pertukaran slot baru-baru ini dan merekomendasikan pertukaran slot kembali sebagai langkah awal mitigasi. |
Kegagalan penarikan gambar kontainer | ▪ Ketersediaan gambar: Gambar yang diminta mungkin tidak tersedia atau mungkin hilang. ▪ Konektivitas jaringan: Masalah jaringan dapat mengganggu koneksi ke aplikasi kontainer. ▪ Masalah konektivitas registri: Masalah dengan menyambungkan ke registri kontainer dapat mencegah penarikan gambar. |
Agen SRE dapat mendeteksi kegagalan penarikan gambar kontainer dan memberikan diagnostik terperinci. Ini dapat merekomendasikan solusi seperti mengembalikan ke revisi terakhir yang diketahui sehat dan memperbarui referensi gambar. |
Agen dapat memberikan informasi terperinci tentang berbagai aspek aplikasi dan sumber daya Anda. Contoh berikut menunjukkan jenis pertanyaan yang dapat Anda ajukan kepada agen Anda:
- Apa yang dapat Anda membantu saya dengan?
- Mengapa aplikasi saya tidak berfungsi?
- Layanan apa yang tersambung dengan sumber daya saya?
- Dapatkah Anda memberikan praktik terbaik untuk sumber daya saya?
- Apa pemanfaatan CPU dan memori aplikasi saya?
Selanjutnya, berikut adalah beberapa perintah yang dapat Anda gunakan untuk membantu Anda berinteraksi dengan agen Anda:
- Aplikasi mana yang mengaktifkan Dapr?
- Mencantumkan replika untuk aplikasi kontainer saya
- Aplikasi mana yang mengaktifkan pembuatan log diagnostik?
- Beri saya peta panas individual untuk setiap akun penyimpanan.
- Revisi aplikasi kontainer saya mana yang saat ini aktif?
- Apa saja praktik terbaik yang harus diikuti aplikasi saya?
- Apa konfigurasi ingress untuk aplikasi kontainer saya?
- Apakah ada slot staging yang dikonfigurasi untuk aplikasi web ini?
- Gambar kontainer apa yang digunakan oleh setiap Aplikasi Kontainer saya?
- Cantumkan semua grup sumber daya yang Anda kelola di semua langganan.
- Gambar peta panas latensi penyimpanan selama 14 hari terakhir untuk akun penyimpanan.
- Tampilkan visualisasi waktu respons untuk Aplikasi Kontainer untuk minggu lalu.
- Daftar [Container Apps/Web Apps/etc.] yang Anda kelola di seluruh langganan.
- Visualisasikan pembagian antara Container Apps, Web Apps, dan kluster AKS yang dikelola di semua langganan sebagai bagan pai.
Layanan yang didukung
Meskipun Azure SRE Agent dapat membantu Anda mengelola dan melaporkan semua layanan Azure, agen ini menampilkan alat khusus untuk mengelola layanan berikut:
- Azure API Management
- Azure App Service
- Azure Cache for Redis
- Azure Container Apps
- Azure Cosmos DB
- Azure Database for PostgreSQL
- Azure Functions
- Azure Kubernetes Service
- Azure SQL
- Azure Storage
- Azure Virtual Machines
Untuk mendapatkan daftar layanan terbaru dengan alat agen kustom, Anda dapat mengirimkan permintaan berikut ke agen:
Which Azure services do you have specialized tooling available for?
Mengidentifikasi grup sumber daya
Saat Anda membuat agen, pemilih kelompok sumber daya menunjukkan kelompok yang memiliki instans layanan dengan perangkat khusus. Dari pemilih grup sumber daya, Anda akan melihat tanda centang ( ) di samping nama grup yang menunjukkan grup menyertakan layanan dengan dukungan khusus.
Akses pratinjau
Akses ke Agen SRE hanya tersedia dalam versi pratinjau. Untuk mendaftar akses, isi aplikasi SRE Agent.