إشعار
يتطلب الوصول إلى هذه الصفحة تخويلاً. يمكنك محاولة تسجيل الدخول أو تغيير الدلائل.
يتطلب الوصول إلى هذه الصفحة تخويلاً. يمكنك محاولة تغيير الدلائل.
نصيحة
- استخدم البحث القائم على الفرضيات، وليس البحث العشوائي في السجلات.
- قدم سلسلة أدلة كاملة توضح سبب ذلك.
- تذكر حوادث مماثلة سابقة وإصلاحاتها.
المشكلة: البحث في السجلات ليس تحقيقا
معظم عمليات التصحيح تبدأ ب "أرني الأخطاء." تقوم باستعلام السجلات، والتمرير عبر النتائج، ونسخ الطابع الزمني، وتبديل الأدوات، وتشغيل استعلام آخر. أنت لا تحقق في الأمر. أنت تربط البيانات يدويا وتحتفظ بالمنطق في ذهنك.
المشكلة الحقيقية ليست في العثور على الأخشاب. الأمر يتعلق بمعرفة الأسئلة التي يجب طرحها، والأدوات التي يجب التحقق منها، وكيفية ربط النقاط عبر السجلات والمقاييس والنشرات والحوادث السابقة. ذلك النموذج الذهني يعيش في أذهان مهندسيك الكبار، ولا يمكنهم التواجد في كل مكالمة. يقضي أعضاء الفريق الجدد ساعات في حل المشكلات التي يحلها المخضرمون في دقائق، لأن السبب غير موثق في أي مكان.
كيف يحل Azure SRE Agent هذه المشكلة
وكيلك يحقق كخبير في SRE. لا يقتصر الأمر على البحث في السجلات فقط. يشكل فرضيات حول ما حدث خطأ ويثبت كل واحدة منها بشكل منهجي باستخدام الأدلة.
- يجمع السياق: الاستعلامات لتطبيقات Insights، Azure Monitor، تاريخ النشر، سجلات الأنشطة، وخصائص الموارد.
- يشكل الفرضيات: يولد نظريات بناء على نمط الأدلة.
- يؤكد كل واحدة منها: يختبر الفرضيات بشكل منهجي، مستبعدا الخيوط الخاطئة.
- يشرح الاستنتاج: يوضح الاستدلال الكامل مع الأدلة الداعمة والاستشهادات.
ما الذي يجعل هذا النهج مختلفا
على عكس البحث عن السجلات، وكيلك يبرر المشكلة. "أرني أخطاء" يعطيك بيانات لتفسيرها. يقوم وكيلك بتفسير البيانات نيابة عنك من خلال صياغة نظريات، واختبارها، وشرح الاستنتاجات.
على عكس لوحات المعلومات الثابتة، يتكيف وكيلك مع الحادث المحدد. لا يعرض لك فقط مقاييس. يحدد أي المقاييس مهمة، ويربطها بأدلة أخرى، ويخبرك بالسبب.
على عكس النصوص، وكيلك يتعامل مع مواقف جديدة. السكربت يسير على نفس الخطوات في كل مرة. وكيلك يبرر ما هو المختلف هذه المرة ويعدل تحقيقه وفقا لذلك.
قبل وبعد
| الفئة | قبل | بعد |
|---|---|---|
| نهج التحقيق | ابحث في السجلات وتأمل أن تجد شيئا | أشكال واختبارات الوكيل |
| الأدوات المفتوحة | 4+ بوابات، الارتباط اليدوي | 0 (الوكيل يستطلع جميع المصادر) |
| Reasoning | "أعتقد أنها قاعدة البيانات..." | "وحدة بيانات DTU عند 98%، تم التحقق منها" |
| أثر الأدلة | في رأسك | سلسلة كاملة مع شرح |
| في المرة القادمة | ابدأ من نقطة الصفر | الذاكرة تتذكر حوادث مماثلة |
مثال: تحقيق انتهاء الوقت في قاعدة البيانات
العرض: "500 خطأ في نقطة نهاية /api/orders"
HYPOTHESIS 1: Recent deployment broke something
├─ Checked: Last deployment was 3 days ago
├─ Evidence: Error rate stable until 30 minutes ago
└─ Result: INVALIDATED
HYPOTHESIS 2: Database overloaded
├─ Checked: Azure SQL metrics (CPU, DTU, connections)
├─ Evidence: DTU at 98%, query duration 4x normal
├─ Traced: SELECT * FROM orders WHERE... taking 8.2s
└─ Result: VALIDATED
ROOT CAUSE: Orders table missing index on customer_id column.
Query plan shows full table scan on 2.1M rows.
RECOMMENDED ACTION: Add index on orders.customer_id
Similar fix applied in INC-2341 (3 weeks ago)
الشروع في العمل
تحليل السبب الجذري يعمل تلقائيا مع أدوات Azure المدمجة. لتمكين تحليل أعمق، ضع في اعتبارك التحسينات التالية.
| تعزيز | ما الذي يمكن له | الإعداد |
|---|---|---|
| التحكم في المصدر | الارتباط بين الخطأ والشيفرة، البحث الدلالي عن الشفرة | كود مصدر Connect |
| قاعدة المعارف | سياق توليد الفرضيات | رفع المعرفة |
| القياس عن بعد المخصص | مقاييس الأعمال في كوستو | إعداد موصل Kusto |