Sdílet prostřednictvím


Správa clusterů moderních aplikačních platforem

Cloud Adoption Framework poskytuje základní metodologii pro definování procesů správy provozu pro cloud v agnostickém smyslu. Jeho pokyny pomáhají vytvořit směrný plán řízení provozu a další specializované vrstvy operací. Tyto pokyny můžou stále platit pro organizace, které mají kombinaci úloh typu infrastruktura jako služba (IaaS), platforma jako služba (PaaS) a kontejnerizované úlohy. Tento článek popisuje, co potřebujete integrovat do stávajících operací, abyste se připravili na správu kontejnerů. Upozorňuje také na výhody integrace Azure Kubernetes Service (AKS) do strategie správy kontejnerů.

Obchodní sladění pro potřeby provozní správy

Kontejnery odstraňují závislosti na několika vrstvách infrastruktury, což vede k vylepšeným možnostem správy provozu. Pokud chcete tato provozní vylepšení realizovat, možná budete muset revidovat celkovou strategii správy cloudu, a to počínaje obchodní sladění.

Pokud chcete zavést správné postupy správy provozu, musíte pochopit, jak se kontejnery budou používat ve vašich plánech přechodu na cloud a jaké výhody chcete od tohoto přechodu ke kontejnerizovaným úlohám přinést.

  • Budete na své cloudové platformě spravovat několik technologických řešení, jako jsou kontejnery, IaaS a PaaS?
  • Budou centralizované týmy podporovat provoz a správu kontejneru nebo platformy AKS? Přesouvá se tato odpovědnost na jednotlivé týmy úloh?
  • Budou centralizované týmy podporovat provoz a správu úloh spuštěných v jednotlivých kontejnerech nebo podech? Přesouvá se tato odpovědnost na jednotlivé týmy úloh?
  • Používáte kontejnery pro klíčové úlohy?
  • Používáte kontejnery jenom pro méně důležité úlohy nebo úlohy veřejných služeb, abyste snížili náklady?
  • Jak důležitý je výkon a spolehlivost jednotlivých úloh?
  • Jsou aplikace ve vašich kontejnerech bez stavu? Potřebujete zachovat stav, abyste ochránili a obnovili úlohy v kontejnerech?

Tyto základní otázky budou formovat, jak nejlépe integrovat kontejnery a AKS do strategie správy provozu.

Směrný plán provozu

Implementace směrného plánu operací poskytuje centralizovaný přístup k nástrojům potřebným k provozu a správě všech prostředků v cloudovém prostředí. Pokud nemáte provozní směrný plán pro nekontejnerizované prostředky, můžete implementovat směrný plán operací definovaný v metodologii správy.

Standardní hodnoty provozu by měly zahrnovat nástroje a konfigurace, které poskytují viditelnost, monitorování, provozní dodržování předpisů, optimalizaci a ochranu nebo obnovení.

Směrný plán správy operací

Směrný plán operací popsaný ve výše uvedených článcích neposkytuje podporu pro vaše kontejnery nebo platformu AKS. Poskytne ale základ nástrojů, který je možné rozšířit o podpůrné kontejnery, jako jsou Azure Monitor, Azure Backup a další nástroje.

Pokud je většina vašeho portfolia v cloudu hostovaná v kontejnerech, zvažte zahrnutí specializovaných operací platformy v další části do směrného plánu provozu.

Provoz platforem

Pokud tato implementace není prvním nebo jediným nasazením vaší organizace do cloudu, měli byste mít provozní směrný plán. V této části najdete několik nástrojů, které můžete chtít použít ke správě kontejneru nebo nasazení AKS.

Inventarizace a zajištění přehledu

Monitorování kontejnerů a clusterů AKS používá nástroje, řídicí panely a výstrahy, které jsou součástí standardních hodnot operací. Možná ale budete muset provést další konfiguraci, abyste data z kontejnerů nasáli do nástrojů pro monitorování provozu, jako je Azure Monitor pro kontejnery. Projděte si přehled služby Azure Monitor pro kontejnery a shromážděte data potřebná k přidání operací platformy kontejneru a AKS do směrného plánu provozu.

Jakmile nakonfigurujete Azure Monitor tak, aby shromažďoval data v kontejnerech, můžete v rámci procesů centralizované správy monitorovat následující oblasti:

  • Identifikace clusterů spuštěných v různých oblastech, ideálně svázané s položkou stromu služeb, a identifikace klíčových faktů v těchto clusterech
    • Identifikace fondu uzlů clusteru, sítě a topologie úložiště těchto clusterů
    • Identifikujte stratifikaci verze image AKS a verze uzlu.
  • Identifikace využití prostředků uzlu clusteru (proces, paměť a úložiště)
  • Identifikace kontejnerů spuštěných na uzlech a jejich příspěvek k využití uzlů
  • Seznamte se s chováním clusterů pod průměrnou a největší zátěží. Tyto znalosti vám můžou pomoct identifikovat potřeby kapacity a určit maximální zatížení, které cluster dokáže utrpět.
  • Nakonfigurujte výstrahy tak, aby vás proaktivně upozorňují nebo zaznamenávaly, když využití procesoru a paměti na uzlech nebo kontejnerech překročí prahové hodnoty nebo když v clusteru dojde ke změně stavu v souhrnu stavu infrastruktury nebo uzlů.
  • Použití dotazů k vytvoření společné sady upozornění, řídicích panelů a podrobné analýzy

Tato data budou také podporovat provozní týmy úloh tím, že poskytují podrobné informace o úlohách spuštěných na kontejnerizované platformě:

  • Zkontrolujte využití prostředků u úloh spuštěných na hostiteli, které nesouvisejí se standardními procesy, které podporují pod.
  • Integrace s prometheus za účelem zobrazení metrik aplikace
  • Monitorování úloh kontejneru nasazených do místního modulu AKS a modulu AKS ve službě Azure Stack
  • Monitorování úloh kontejneru nasazených do Azure Red Hat OpenShiftu
  • Monitorování úloh kontejneru nasazených do Kubernetes s podporou Azure Arc (Preview)

Provozní dodržování předpisů

Opravy, ladění a změny velikosti probíhají v kontejnerizovaném prostředí na několika různých úrovních. V závislosti na požadovaném provozním přístupu můžou operátoři sednout do několika různých týmů. Za účelem zajištění provozního dodržování předpisů bude operátor monitorovat využití, měnit velikost prostředků tak, aby se vyvažovaly výkon a náklady, a opravovat základní systémy, aby se minimalizovala rizika a posun konfigurace. Centrální IT organizace obvykle tyto úkoly doručují jako součást provozního směrného plánu pro řešení IaaS a PaaS.

V prostředí clusteru v Azure se tyto úlohy provádějí na několika úrovních: cluster AKS, image uzlu a operační systém uzlu. Všechny tyto provozní úlohy jsou více závislé na porozumění a pracovním vztahu úloh spuštěných v clusterech nebo na jednotlivých fondech uzlů. Následující příkazy vám pomůžou vyhodnotit, co a jestli chcete udělat pro provoz prostředí kontejnerů.

  • Pokud se určení velikosti a opravy clusteru AKS, image uzlu nebo operačního systému uzlu doručují jako součást kanálu nasazení pro aplikaci nebo jsou závislé na architektuře nebo konfiguraci aplikace, je nejlepší přesunout provozní dodržování předpisů na tým úloh za účelem podrobné kontroly. Vzhledem k tomu, že úlohy často závisely na funkcích orchestrace, jedná se o nejběžnější vzor, protože neočekávaná změna verze AKS nebo změna image uzlu může být katastrofická pro úlohu nebo její nástroje modulu runtime.
  • U méně běžných centralizovaných clusterů, které podporují portfolio úloh a různé aplikace, může být za úlohy provozního dodržování předpisů stále zodpovědný centralizovaný provozní tým. Následující příručky vám pomůžou tyto úlohy zajistit napříč clustery. Opakované provádění těchto úloh vynucuje operace specifické pro platformu. Přístup k centrálnímu provozu představuje velké riziko a pečlivé testování upgradů v předprodukčních prostředích, jasné a dodržující plánovanou údržbu a plány nepředvídaných událostí pro úlohy, které nedodržují předpisy. Jeden špatný upgrade může být kritickým bodem selhání a stejně tak jedna úloha, která není schopna upgradovat, může způsobit, že cluster nebude podporován. Plánování a správa víceklientských clusterů s náležitou péčí

U obou typů clusterů postupujte podle pokynů k upgradům, imagím uzlů a aktualizacím operačního systému uzlů, které najdete níže:

Ochrana a zotavení

Uzly AKS jsou dočasné a jako takové se nezálohují způsobem, který by bylo možné obnovit jednotlivě. Zotavení z incidentu může zahrnovat opětovné nasazení úloh do nového fondu uzlů nebo zcela nového clusteru v závislosti na rozsahu incidentu.

  • Zvolte, že chcete do clusteru přidat smlouvu SLA o provozuschopnosti.
  • V případě vyšších smluv SLA můžete také zvážit osvědčené postupy BCDR ve více oblastech , které zajistí dodatečnou ochranu.
  • Vzhledem k tomu, že clustery by neměly obsahovat stav, obnovení externího stavu se zpracovává s využitím stávajících pokynů ke standardním provozním hodnotám. Pokud jste do clusterů vnesli stav, ujistěte se, že se budete řídit osvědčenými postupy operátorů pro úložiště a máte strategii zálohování a obnovení těchto dat pro danou úlohu. Použití nástrojů, jako je Velero , je příkladem operací specifických pro platformu, které rozšiřují směrný plán operací.
    • Pokud vaše portfolio aplikací používá nekonzistentní stav, neměl by se tým centrálního provozu pokoušet zachovat obě řešení. Místo toho standardizujte sadu nástrojů požadovaného stavu pro všechny kontejnery, ale odpovědnost za alternativní řešení obnovení přepněte na provozní týmy úloh. Tento přístup umožňuje vývojářům volnost při návrhu, udržuje nižší centrální náklady a poskytuje pobídku ke snížení nákladů pro týmy úloh, aby vyhovovaly standardu.

Provoz úloh

Výše uvedená část o operacích platformy ukazuje běžnou konverzaci při správě clusterů AKS. Jsou clustery Kubernetes technologickou platformou, která se má spravovat centrálně? Nebo se jedná o nástroj pro úlohy, který by měly spravovat týmy, které vlastní jednotlivé úlohy? Tato otázka se pro různé organizace liší. Ve většině organizací se neustále projevuje to, že kontejnery a AKS jsou navržené tak, aby týmům úloh poskytovaly větší flexibilitu v tom, jak chtějí jednotlivé úlohy provozovat, a poskytují jim konkrétní funkce, které se dají použít ve své architektuře ve prospěch vlastníků a zákazníků aplikace.

Operace úloh můžou vycházet ze stávajících provozních směrných plánů a operací specifických pro platformu. Cluster AKS můžete také bezpečně provozovat pomocí zcela decentralizovaných operací úloh. V obou případech, když potřebujete zvýšit úroveň operací tak, aby se zaměřily na konkrétní výsledky pro konkrétní úlohu, můžete použít Azure Well-Architected Framework a Microsoft Azure Well-Architected Review a získat velmi konkrétní informace o typech provozních procesů a nástrojů, které se mají pro vaši úlohu použít.

Další krok: Vaše příští iterace migrace

Po dokončení migrace moderní aplikační platformy může tým přechodu na cloud zahájit další migraci pro konkrétní scénář. Případně, pokud existují další platformy, které se mají migrovat, můžete tuto řadu článků znovu použít jako vodítko pro další migraci nebo nasazení platformy moderních aplikací.