وثائق هندسة موثوقية الموقع
هندسة موثوقية الموقع هي تخصص هندسي مكرس لمساعدة منظمة على نحو مستدام على تحقيق المستوى المناسب من الموثوقية في أنظمتها وخدماتها ومنتجاتها.
تحسين الموثوقية عبر ممارسات العمليات الحديثة
دورات SRE على الإنترنت
SRE على Azure
وثائق لـ SRE
الهندسة
التزويد والتسليم
محادثات SRE من Microsoft
الثقافة
- تطور هندسة موثوقية الموقع
- بناء SRE: الثقافة من الخارج للداخل
- الفروق الثقافية الدقيقة والتعاون الفعال لتطبيق Teams متعدد الثقافات
- تطور SRE والحاجة المتزايدة لمحفزات SRE
- حلقات الملاحظات: كيفية الاستفادة من SRE والأدوات اللازمة لتحقيق إمكاناتها
- فهم تأثير مقاييس الأعمال في جعلك SRE أفضل
- القصة التي لا تنتهي لموثوقية الموقع
- كل يوم هو يوم الاثنين في العمليات
الاستجابة للحوادث ومراجعات ما بعد الحادث
الرصد والمراقبة
- أكثر من 600 مليون عضو ومئات من الخدمات المصغرة: كيف قمنا بتحجيم نظام المراقبة لدينا لمواكبة ذلك
- الخروج عن المألوف: نقل تركيز الملاحظة من خدمتك إلى عميلك
- أنت تحصل على ما تقيسه - السبب وراء أهمية المقاييس
- التغلب على العاصفة: كيف تنقذ التحذيرات المبكرة المزرعة
- التقاط ملايين الاستعلامات وتحليلها دون أي تكاليف إضافية
- ارتباط الحدث: نهج جديد لتقليل MTTR
- مدى تأثير الرقابة القوية في التوافر العالي لموجزات LinkedIn
- تقليل MTTR والتصعيدات الخاطئة: ارتباط الحدث في Linkedin
الممارسات والمبادئ
- التوافر- التفكير في التنفيذ
- النماذج العقلية لوثائق SRE
- إعطاء الأولوية للثقة أثناء إنشاء التطبيقات
- Java لا تناسب Linux. تعامل مع الأمر.
- توصيف وفهم مراحل ممارسات SRE
- الأمان وSRE: مضاعفات القوة الطبيعية
- مراجعة تحسين الإنتاج: أخذ جزء من ديون الإصلاح
- ضمان موثوقية التطبيقات عالية الأداء
- بطاقة نقاط الخدمة — التلاعب بالتميز التشغيلي
- كيفية تحسين الخدمة عن طريق تحميصها
Teams والإدارة
- التعليمة البرمجية باللون الأصفر: مساعدة فرق العمليات كثيري المهام بطريقة ذكية
- القيادة دون إدارة: أن تصبح قائداً تقنياً لـ SRE
- الاختلافات في تطبيقات SRE عبر الشركات
- 100 فريق، 100 طريقة للفشل
- الأسباب والماهية والكيفية لبدء مشاركة SRE
- بناء وتشغيل فرق SRE
- طالب جامعي إلى SRE: التأهيل لمستوى الدخول
- LinkedIn SRE: من التأسيس إلى النطاق العالمي
- ربط تسلسلات SRE DNA في أكبر شركة برمجيات على الكوكب
- التحول من المستوى 1 المبتدئ إلى المستوى الخبير
الأدوات والتقنيات
- Azure SREBot: أكثر من مجرد روبوت محادثة - روبوت ذكي للتغلب على وقت التخفيف
- التحول في نسبة استخدام الشبكة: تجنب حدوث أخطاء فادحة على نطاق واسع
- دعونا نبني نظام ملفات موزعة
- TCP - البنية والتحسينات والضبط
- BGP - الركيزة الأساسية للإنترنت
- العمليات في وحدات بلا خادم
- كيفية استخدام Kafka لتوسيع نطاق البنية الأساسية لقواعد البيانات
- شبكات SRE: ما الذي أحتاج إلى معرفته لتطبيقات استكشاف الأخطاء وإصلاحها
- Ambry - متجر العناصر غير القابلة للتغيير الموزع على LinkedIn
- BPerf—Bing.com إنشاء ملفات تعريف على السحابة عند التشغيل
- DNS: الحل القديم للمشاكل الحديثة
- توجيه نسبة استخدام الشبكة باستخدام Rum DNS على LinkedIn
تغيير الحجم
- البنية الأساسية للتنبؤ بنسبة استخدام الشبكة واختبار الإجهاد
- التعلم على نطاق واسع أمر صعب. تحليل نمط الانقطاع والبيانات غير المنظمة
- توسيع نطاق نظام الحالة الموزعة: دراسة حالة على LinkedIn
- التصحيح على نطاق واسع - الانتقال من صندوق واحد إلى التشغيل
- بناء بنية أساسية مركزية للتخزين المؤقت على نطاق واسع
- ترميز قابل للتوسعة — البحث عن الأخطاء
- إدارة القدرات على LinkedIn
- InStream: توزيع واسع النطاق باستخدام BitTorrent وPython وSalt وKafka
- تجنب وتفريغ حبس القدرات
- تطور توجيه نسبة استخدام الشبكة العالمية وتجاوز الفشل