Ochrana a obnovení při správě cloudu

Před přípravou na potenciální výpadek úloh by se týmy pro správu cloudu měly nejprve ujistit, že splnily požadavky na:

Týmy musí při plánování začít s předpokladem, že když dojde k havárii, něco selže. Příprava na výpadek umožňuje týmům detekovat chyby dříve a rychleji se zotavovat. Tato disciplína se zaměřuje na kroky, které přijdou okamžitě po selhání systému. Jak můžete chránit úlohy, aby bylo možné je rychle obnovit při výpadku?

Žádné technické řešení nemůže konzistentně nabízet smlouvu SLA, která zaručuje 100% dostupnost. Řešení s nejvíce redundantními architekturami tvrdí, že poskytují "šest 9s" nebo 99,9999% dostupnost. Ale i řešení "six 9s" v daném roce klesne po dobu 31,6 sekund. Je vzácné, že by řešení vyžadovalo velké a průběžné provozní investice, které jsou potřeba k dosažení doby provozu "69".

Překlad konverzací ochrany a obnovení

Úlohy, na které se provoz firmy počítají, se skládají z těchto:

  • aplikace
  • data
  • virtuální počítače
  • jiné prostředky

Každý prostředek může vyžadovat vlastní přístup k ochraně a obnovení. Důležitým cílem této disciplíny je vytvoření konzistentního závazku v rámci směrného plánu správy, který může poskytnout výchozí bod pro obchodní diskuze.

Týmy pro správu cloudu by měly minimálně vytvořit základní přístup pro každý prostředek s jasným závazkem k rychlému obnovení a minimální ztrátě dat.

Plánovaná doba obnovení (RTO)

Cíl doby obnovení je doba potřebná k obnovení systému do stavu před havárií. To zahrnuje čas potřebný k:

  • obnovení minimální funkčnosti virtuálních počítačů a aplikací
  • obnovit data vyžadovaná aplikacemi.

Z obchodního hlediska rto představuje dobu, po kterou jsou obchodní procesy mimo provoz. U důležitých úloh by tato proměnná měla být relativně nízká, což umožňuje rychlé obnovení obchodních procesů. U úloh s nižší prioritou nemusí mít standardní úroveň RTO znatelný dopad na výkon společnosti.

Firma by měla vytvořit směrný plán správy, který vytvoří standardní plánovanou dobu obnovení (RTO) pro úlohy, které nejsou důležité pro chod podniku. Firma pak může tento směrný plán použít jako způsob, jak ospravedlnit další investice do doby obnovení.

Cíle bodu obnovení (RPO)

Ve většině systémů pro správu cloudu některá forma ochrany dat pravidelně zachycuje a ukládá data. Bod obnovení odkazuje na čas posledního zachycení dat. Pokud systém selže, je možné ho obnovit pouze do nejnovějšího bodu obnovení.

Cíl bodu obnovení se měří od posledního bodu obnovení po výpadek. Pokud se cíl bodu obnovení měří v hodinách, dojde k selhání systému ke ztrátě dat za hodiny mezi posledním bodem obnovení a výpadkem. Pokud se cíl bodu obnovení měří ve dnech, dojde k selhání systému ke ztrátě dat za dny mezi posledním bodem obnovení a výpadkem. Jednorázový cíl bodu obnovení by teoreticky vedl ke ztrátě všech transakcí v den, který vedl k selhání.

U důležitých systémů může měření cíle bodu obnovení (RPO) v minutách nebo sekundách pomoct vyhnout se ztrátám výnosů nebo zisků. Kratší cíl bodu obnovení (RPO) ale obecně vede ke zvýšení nákladů na správu. Aby se tyto náklady minimalizovaly, měla by firma vytvořit směrný plán správy, který se zaměřuje na nejdéle přijatelný cíl bodu obnovení. Firma pak může snížit cíl bodu obnovení konkrétních platforem nebo úloh, které vyžadují větší investice.

Ochrana a obnovení úloh

Většina úloh v IT podpora prostředí konkrétní obchodní nebo technický proces. Systémy, které nemají systémový dopad na obchodní provoz, obvykle nezaručují vyšší investice potřebné k rychlému obnovení systémů nebo minimalizaci ztráty dat. Stanovením standardních hodnot může firma zjistit, jakou úroveň podpory obnovení potřebuje, za určitou cenu, kterou může konzistentně spravovat. Když to pochopíte, pomůžete obchodním stranám vyhodnotit hodnotu vyšších investic do obnovení.

Pro většinu týmů pro správu cloudu poskytuje vylepšený směrný plán se specifickými závazky RPO/RTO pro různá aktiva nejpříznivější cestu ke vzájemným obchodním závazkům. Následující části popisují několik běžných vylepšených směrných plánů, které firmě umožňují snadno přidat funkce ochrany a obnovení prostřednictvím opakovatelného procesu.

Ochrana a obnovení dat

Data jsou pravděpodobně nejcennějším aktivem v digitální ekonomice. Ztráta dat, která pohání produkční úlohy, vede ke ztrátě výnosů nebo zisků. Nejběžnějším vylepšeným standardním plánem je schopnost efektivně chránit a obnovovat data. Doporučujeme týmům pro správu cloudu nabídnout úroveň vylepšených směrných plánů správy, která podporuje běžné datové platformy.

Než týmy pro správu cloudu implementují provoz platformy, je běžné, že podporují vylepšený provoz datové platformy paaS (platforma jako služba). Pro tým pro správu cloudu je například snadné vynutit vyšší frekvenci zálohování nebo replikaci ve více oblastech pro řešení Azure SQL Database nebo Azure Cosmos DB. Díky tomu může vývojový tým snadno vylepšit cíl bodu obnovení modernizací datových platforem.

Další informace o tomto myšlenkového procesu najdete v tématu Disciplína provozu platformy.

Ochrana a obnovení virtuálních počítačů

Většina úloh do jisté míry závisí na virtuálních počítačích, které hostují různé aspekty řešení. Firma musí rychle obnovit některé virtuální počítače, aby úloha podporovala své procesy po selhání systému.

Každá minuta výpadku těchto virtuálních počítačů může způsobit ztrátu výnosů nebo snížení zisku. Pokud má výpadek virtuálního počítače přímý dopad na fiskální výkon firmy, je plánovaná doba obnovení (RTO) velmi důležitá. Týmy pro správu cloudu můžou virtuální počítače rychle obnovit tak, že je replikují do sekundární lokality a používají automatizované obnovení, což je model, který se označuje jako model horkého obnovení. Týmy mohou také replikovat virtuální počítače do funkční sekundární lokality v rámci přístupu označovaného jako model vysoké dostupnosti nebo horká. Přístup horko-horká je dražší, ale nabízí nejvyšší stav obnovení.

Každý z těchto modelů snižuje plánovanou dobu obnovení, což firmám pomáhá rychleji obnovit jejich obchodní možnosti. Každý model ale také výrazně zvýší náklady na správu cloudu.

Mějte také na paměti, že kromě replikace pro zajištění vysoké dostupnosti by mělo být zálohování povolené pro scénáře, jako jsou:

  • náhodné odstranění
  • poškození dat
  • útoky ransomwarem

Další informace o tomto myšlenkového procesu najdete v tématu Disciplína operací úloh.

Další kroky

Po splnění této komponenty směrného plánu správy může tým dohlížet dopředu, aby se vyhnul výpadkům provozu platformy a provozu úloh.