video
SRE 소개: SRE란? (1/3)사이트 안정성 엔지니어링 문서
사이트 안정성 엔지니어링은 조직이 해당 시스템, 서비스 및 제품에서 적절한 수준의 안정성을 지속적으로 달성하도록 지원하는 엔지니어링 분야입니다.
최신 운영 사례를 통해 안정성 향상
SRE 온라인 과정
SRE 리소스
Azure의 SRE
SRE 설명서
Microsoft의 SRE 소개
문화권
- The Evolution of Site Reliability Engineering(사이트 안정성 엔지니어링의 진화)
- Building SRE: Culture from the Outside In(SRE 빌드: 외부의 문화권)
- Cultural Nuance and Effective Collaboration for Multicultural Teams(다문화 팀을 위한 문화적 뉘앙스 및 효과적인 협업)
- Evolution of SRE and Rising Need of SRE Catalyzers(SRE의 발전과 SRE 촉매의 수요 증가)
- Feedback Loops: How SREs Benefit and What Is Needed to Realize Their Potential(피드백 루프: SRE의 장점 및 SRE의 잠재력을 실현하기 위해 필요한 것)
- Understanding Business Metrics Can Make You a Better SRE(비즈니스 메트릭을 이해하여 더 좋은 SRE 만들기)
- The Never-Ending Story of Site Reliability(끝나지 않는 사이트 안정성 이야기)
- Every Day Is Monday in Operations(운영팀에게는 매일이 월요일)
Incident Response and Post-Incident Reviews(사고 대응 및 사후 검토)
Monitoring and Observability(모니터링 및 관찰성)
- Over 600 Million Members and Hundreds of Micro Services: How We Scaled Our Monitoring System to Keep up(6억 명 이상의 멤버와 수백 개의 마이크로 서비스: 모니터링 시스템이 계속 작동할 수 있도록 크기를 조정한 방법)
- Off the Beaten Path: Moving Observability Focus from Your Service to Your Customer(많이 가지 않는 길: 관찰 포커스를 서비스에서 고객으로 이동)
- You Get What You Measure—Why Metrics Are Important(측정하는 만큼 안다 - 메트릭이 중요한 이유)
- Weathering the Storm: How Early Warnings Save the Farm(폭풍우 극복: 조기 경보를 통해 농장을 구하는 방법)
- 오버헤드 없이 수백만 개의 쿼리 캡처 및 분석
- Event Correlation: A Fresh Approach towards Reducing MTTR(이벤트 상관 관계: MTTR을 줄이기 위한 새로운 방법)
- 강력한 모니터링을 통해 LinkedIn 피드의 높은 가용성을 제공하는 방법
- Reducing MTTR and False Escalations: Event Correlation at Linkedin(MTTR 및 거짓 에스컬레이션 감소: Linkedin의 이벤트 상관 관계)
관행 및 원칙
- Availability—Thinking beyond 9s(가용성 - 9s를 넘어서 사고)
- Mental Models for SREs(SRE의 멘탈 모델)
- Prioritizing Trust While Creating Applications(애플리케이션을 만드는 동안 트러스트 우선 순위 지정)
- Java Hates Linux. Deal with It.(Java는 Linux를 싫어합니다. 이것을 극복해야 합니다.)
- Characterizing and Understanding Phases of SRE Practices(SRE 관행 단계의 특징 및 이해)
- Security and SRE: Natural Force Multipliers(보안 및 SRE: 자연력 승수)
- Production Improvement Review: Taking a Bite Out of Repair Debt(생산 개선 검토: 수리 부채 절감)
- Ensuring Reliability of High-Performance Applications(고성능 애플리케이션의 안정성 보장)
- The Service Score Card—Gamifying Operational Excellence(서비스 점수 카드 - 우수한 운영의 게임화)
- How to Improve a Service by Roasting It(서비스를 잘 익혀서 개선하는 방법)
Teams and Management(팀 및 관리)
- Code-Yellow: Helping Operations Top-Heavy Teams the Smart Way(코드 옐로우: 스마트한 방법으로 운영 톱 헤비 팀 지원)
- Leading without Managing: Becoming an SRE Technical Leader(관리 없이 선도하기: SRE 기술 리더 되기)
- Differences in SRE Implementations across Companies(회사 간 SRE 구현의 차이점)
- 100 Teams, 100 Ways to Fail(100개 팀, 100가지 실패)
- The Why, What, and How of Starting an SRE Engagement(SRE 참여를 시작해야 하는 이유, 대상 및 방법)
- Building and Running SRE Teams(SRE 팀 빌드 및 실행)
- College Student to SRE: Onboarding Your Entry Level Talent(대학생부터 SRE까지: 입문 수준의 인재 영입)
- LinkedIn SRE: From Inception to Global Scale(LinkedIn SRE: 시작부터 글로벌 규모까지)
- Splicing SRE DNA Sequences in the Biggest Software Company on the Planet(전 세계에서 가장 큰 소프트웨어 회사의 SRE DNA 시퀀스 스플라이싱)
- Transforming Tier 1 Caterpillars to Butterflies(계층 1 애벌레를 나비로 변환)
Tools and Technologies(도구 및 기술)
- Azure SREBot: More than a Chatbot—an Intelligent Bot to Crush Mitigation Time(Azure SREBot: 챗봇 그 이상 - 완화 시간을 줄이는 지능형 봇)
- TrafficShift: Avoiding Disasters at Scale(TrafficShift: 대규모 재해 방지)
- Let's Build a Distributed File System(분산 파일 시스템 빌드하기)
- TCP—Architecture, Enhancements, and Tuning(TCP - 아키텍처, 향상된 기능 및 튜닝)
- BGP—The Backbone of the Internet(BGP - 인터넷의 백본)
- 서버리스 시스템의 운영
- How We Used Kafka to Scale Database Infrastructure(Kafka를 사용하여 데이터베이스 인프라 규모를 조정하는 방법)
- Networks for SREs: What Do I Need to Know for Troubleshooting Applications(SRE용 네트워크: 애플리케이션 문제를 해결하기 위해 알아야 하는 것)
- Ambry—LinkedIn’s Distributed Immutable Object Store(Ambry - LinkedIn의 변경 불가능한 분산 개체 저장소)
- BPerf—Bing.com Cloud Profiling on Production(BPerf - 프로덕션의 Bing.com 클라우드 프로파일링)
- DNS: Old Solution for Modern Problems(DNS: 현대의 문제에 대한 이전 솔루션)
- Traffic Steering using Rum DNS @ LinkedIn(LinkedIn에서 Rum DNS를 사용한 트래픽 조율)
확장
- Traffic Forecasting and Stress Testing Infrastructure(트래픽 예측 및 스트레스 테스트 인프라)
- Learning at Scale Is Hard!(어려운 대규모 학습!) Outage Pattern Analysis and Dirty Data(중단 패턴 분석 및 더티 데이터)
- Scaling a Distributed Stateful System: A LinkedIn Case Study(분산 상태 저장 시스템 확장: LinkedIn 사례 연구)
- Debugging at Scale—Going from Single Box to Production(대규모 디버깅 - 단일 상자에서 프로덕션으로 이동)
- Building Centralized Caching Infrastructure at Scale(대규모로 중앙 집중식 캐싱 인프라 구축)
- Scalable Coding—Find the Error(확장 가능한 코딩 - 오류 찾기)
- Managing Capacity @ LinkedIn(LinkedIn에서 용량 관리)
- InStream: Large Scale Distribution using BitTorrent, Python, Salt, and Kafka(InStream: BitTorrent, Python, Salt 및 Kafka를 사용한 대규모 배포)
- Avoiding and Breaking Out of Capacity Prison(용량 감옥 방지 및 탈출)
- The Evolution of Global Traffic Routing and Failover(글로벌 트래픽 라우팅 및 장애 조치(failover)의 발전)