Javaslatok megbízható monitorozási és riasztási stratégia kialakításához
Az Azure Well-Architected Framework megbízhatósági ellenőrzőlistájára vonatkozó javaslat:
RE:10 | Mérje és tegye közzé a megoldás állapotjelzőit. Folyamatosan rögzítheti az üzemidőt és más megbízhatósági adatokat a számítási feladat teljes területén, valamint az egyes összetevőkből és kulcsfolyamatokból. |
---|
Ez az útmutató a megbízható figyelési és riasztási stratégia kialakítására vonatkozó javaslatokat ismerteti. Ezt a stratégiát úgy valósíthatja meg, hogy az üzemeltetési csapatok folyamatosan értesüljenek a környezet állapotáról, és meggyőződjön arról, hogy megfelel a számítási feladathoz kitűzött megbízhatósági céloknak.
Meghatározások
Időszak | Definíció |
---|---|
Mérőszámok | Rendszeres időközönként gyűjtött numerikus értékek. A metrikák a rendszer bizonyos aspektusait írják le egy adott időpontban. |
Erőforrásnaplók | A rendszer által létrehozott adatok. Információt nyújt a rendszer állapotáról. |
Nyomkövetések | Adatok, amelyek információt nyújtanak arról az útvonalról, amelyet a kérések a szolgáltatásokon és összetevőkön keresztül haladnak át. |
Főbb tervezési stratégiák
A figyelési és riasztási stratégia létrehozása előtt hajtsa végre a következő feladatokat a számítási feladathoz a megbízhatósági tervezés részeként:
Kritikus és nem kritikus folyamatok azonosítása.
Hibamód-elemzést (FMA) hajthat végre a folyamatokhoz.
Megbízhatósági célok azonosítása.
Tervezés a megbízhatósághoz a redundancia, a skálázás, az önmegőrzés és az öngyógyítás implementálásával.
Robusztus tesztelési stratégia tervezése.
Hozzon létre egy monitorozási és riasztási stratégiát, amely biztosítja, hogy a számítási feladatok megbízhatóan működjenek. A figyelési és riasztási stratégia felhívja a figyelmet az üzemeltetési csapatokra, így értesítést kapnak a számítási feladat állapotának változásairól, és gyorsan megoldhatják a problémákat. Robusztus és megbízható monitorozási stratégiát hozhat létre egy állapotmodell létrehozásával a kritikus folyamatokhoz és az ezekből a kritikus folyamatokból álló összetevőkhöz. Az állapotmodell egészséges, csökkentett és nem kifogástalan állapotokat határoz meg. Tervezheti meg a működési helyzetét, hogy azonnal észrevehesse az ezekben az állapotokban bekövetkező változásokat. Ha az állapot állapota kifogástalan állapotról romló vagy nem kifogástalan állapotra változik, a riasztási mechanizmusok aktiválják az automatikus korrekciós intézkedéseket, és értesítik a megfelelő csapatokat.
Az alábbi javaslatok végrehajtásával olyan figyelési és riasztási stratégiát tervezhet, amely megfelel a vállalat követelményeinek.
Átfogó monitorozási stratégia megvalósítása
Ismerje meg a metrikák, naplók és nyomkövetések közötti különbséget.
Engedélyezze a naplózást az összes felhőerőforrás esetében. Az üzembe helyezések automatizálását és szabályozását használva engedélyezheti a diagnosztikai naplózást az egész környezetben.
Az összes diagnosztikai napló továbbítása egy központosított adatgyűjtőre és elemzési platformra, például egy Log Analytics-munkaterületre. Ha regionális adatelkülönségre vonatkozó követelményekkel rendelkezik, helyi adatgyűjtőket kell használnia azokban a régiókban, amelyekre ezek a követelmények vonatkoznak.
Kompromisszum: A naplók tárolásának és lekérdezésének költségvonzatai vannak. Figyelje meg, hogy a naplóelemzés és a megőrzés hogyan befolyásolja a költségvetést, és határozza meg a legjobb kihasználtsági egyensúlyt a követelményeknek megfelelően. További információ: Ajánlott eljárások a költségoptimalizáláshoz.
Ha a számítási feladatokra egy vagy több megfelelőségi keretrendszer vonatkozik, a bizalmas információkat kezelő egyes összetevőnaplókra is ezek a keretrendszerek vonatkoznak. Küldje el a megfelelő összetevőnaplókat egy biztonsági információ- és eseménykezelő (SIEM) rendszernek, például a Microsoft Sentinelnek.
Hozzon létre egy naplómegőrzési szabályzatot , amely hosszú távú adatmegőrzési követelményeket tartalmaz, amelyeket a megfelelőségi keretrendszerek előírnak a számítási feladatra.
A naplóadatok lekérdezésének optimalizálásához használjon strukturált naplózást az összes naplóüzenethez.
Riasztásokat konfigurálhat úgy, hogy aktiválódjanak, ha az értékek olyan kritikus küszöbértékeket lépnek át, amelyek egy állapotmodell állapotának változásához kapcsolódnak, például zöldről sárga vagy pirosra.
A küszöbérték-konfiguráció a folyamatos fejlesztés gyakorlata. A számítási feladatok fejlődésével a definiált küszöbértékek változhatnak. Bizonyos esetekben a dinamikus küszöbértékek jó választásnak bizonyulnak a monitorozási stratégiához.
Fontolja meg a riasztások használatát, ha javulnak az állapotok, például pirosról sárga vagy pirosról zöldre, hogy az operatív csapatok nyomon tudják követni ezeket az eseményeket későbbi referenciaként.
A környezet valós idejű állapotának megjelenítése.
Az incidensek során összegyűjtött adatok használatával folyamatosan fejlesztheti állapotmodelljeit, valamint figyelési és riasztási stratégiáját.
Felhőplatform-figyelési és riasztási szolgáltatások beépítése, beleértve a következőket:
Platformszintű állapot, például az Azure Service Health.
Erőforrásszintű állapot, például az Azure Resource Health.
A felhőszolgáltató által kínált célalapú fejlett monitorozási és elemzési eszközök, például az Azure Monitor elemzési eszközeinek beépítése.
Biztonsági mentési és helyreállítási monitorozás implementálása a rögzítéshez:
Az adatreplikációs állapot, amely biztosítja, hogy a számítási feladat a cél helyreállítási pont célkitűzésén (RPO) belül valósuljon meg.
Sikeres és sikertelen biztonsági mentések és helyreállítások.
A vészhelyreállítás tervezésének tájékoztatására vonatkozó helyreállítási időtartam.
Alkalmazások figyelése
Hozzon létre állapotmintákat vagy ellenőrizze a függvényeket , és rendszeresen futtassa őket az alkalmazáson kívülről. Győződjön meg arról, hogy több olyan helyről is tesztel, amely földrajzilag közel van az ügyfelekhez.
Naplózza az adatokat, amíg az alkalmazás éles környezetben fut. Az éles állapot problémáinak okának diagnosztizálásához elegendő információra van szüksége.
Naplózza a szolgáltatáshatárokon történő eseményeket. Használjon korrelációs azonosítót, amely átnyúlik a szolgáltatáshatárokon. Ha egy tranzakció több szolgáltatáson halad keresztül, és az egyik meghiúsul, a korrelációs azonosító segít nyomon követni a kérelmeket az alkalmazáson belül, és megállapítani, hogy miért hiúsult meg a tranzakció.
Használjon aszinkron naplózást. A szinkron naplózási műveletek néha blokkolják az alkalmazás kódját, ami miatt a kérések biztonsági mentést végeznek a naplók írása során. Aszinkron naplózással megőrizze a rendelkezésre állást az alkalmazásnaplózás során.
Különítse el az alkalmazásnaplózást a naplózástól. A naplózási nyilvántartásokat általában a megfelelőségi vagy szabályozási követelményeknek megfelelően tartják karban, és teljesnek kell lenniük. Az elvetett tranzakciók elkerülése érdekében a diagnosztikai naplóktól elkülönítve tartsa karban az auditnaplókat.
Telemetria-korrelációval biztosíthatja, hogy a tranzakciók a végpontok közötti alkalmazáson és a kritikus rendszerfolyamatokon keresztül képezhetők le. Ez a folyamat elengedhetetlen a hibák kiváltó okának elemzéséhez (RCA). Gyűjtse össze a platformszintű metrikákat és naplókat, például a processzor százalékos számát, a hálózati terhelést, a hálózati ki- és lemezműveleteket másodpercenként az alkalmazásból az állapotmodell tájékoztatása és a problémák észlelése és előrejelzése érdekében. Ez a megközelítés segíthet megkülönböztetni az átmeneti és a nem átmeneti hibákat.
A white box monitorozásával szemantikai naplókkal és metrikákkal is rögzíthet alkalmazásokat. Az alkalmazásszintű metrikákat és naplókat, például a memóriahasználatot vagy a kérelmek késését gyűjti össze az alkalmazástól az állapotmodell tájékoztatása, valamint a problémák észlelése és előrejelzése érdekében.
A black box monitorozásával mérje a platformszolgáltatásokat és az ebből eredő ügyfélélményt. A Fekete doboz monitorozása a külsőleg látható alkalmazás viselkedését teszteli a rendszer belső elemeinek ismerete nélkül. Ez a megközelítés gyakori az ügyfélközpontú szolgáltatásszint-mutatók (SLA-k), a szolgáltatásiszint-célkitűzések (SLO-k) és a szolgáltatásiszint-szerződések (SLA-k) méréséhez.
Feljegyzés
Az alkalmazásfigyeléssel kapcsolatos további információkért lásd: Állapotvégpont-figyelési minta.
Adatok és tárolás monitorozása
A tárolók rendelkezésre állási metrikáinak monitorozása. Ha ez a metrika 100 százalék alá csökken, az sikertelen írásokat jelez. A rendelkezésre állás átmeneti csökkenése akkor fordulhat elő, ha a felhőszolgáltató kezeli a terhelést. Kövesse nyomon a rendelkezésre állási trendeket, és állapítsa meg, hogy probléma van-e a számítási feladattal.
Bizonyos esetekben a tároló rendelkezésre állási metrikáinak csökkenése szűk keresztmetszetet jelez a tárolóhoz társított számítási rétegben.
Az adatbázisok számos metrikát monitorozhatnak. A megbízhatóság összefüggésében a monitorozni kívánt fontos metrikák a következők:
Lekérdezés időtartama
Időtúllépések
Várakozási idők
Memóriaterhelés
Zárolások
Az Azure megkönnyítése
Az Azure Monitor egy átfogó monitorozási megoldás, amely a felhőből és a helyszíni környezetekből származó monitorozási adatok gyűjtésére, elemzésére és megválaszolására szolgál.
A Log Analytics az Azure Portal egyik eszköze, amellyel napló lekérdezéseket szerkeszthet és futtathat a Log Analytics-munkaterületen lévő adatokon.
Az Application Insights az Azure Monitor bővítménye. Alkalmazásteljesítmény-monitorozási (APM) funkciókat biztosít.
Az Azure Monitor insights olyan fejlett elemzési eszközök, amelyek segítenek monitorozni az Azure-szolgáltatásokat, például a virtuális gépeket, az alkalmazásszolgáltatásokat és a tárolókat. Az elemzések az Azure Monitorra és a Log Analyticsre épülnek.
Az Azure Monitor az SAP-megoldásokhoz egy Azure-natív monitorozási termék az Azure-ban futó SAP-környezetekhez.
Az Azure Policy segít kikényszeríteni a szervezeti szabványokat, és nagy méretekben értékelni a megfelelőséget.
Az Azure Üzletmenet-folytonossági központ betekintést nyújt az üzletmenet-folytonossági tulajdonába. Az üzletmenet-folytonossági és vészhelyreállítási (BCDR) megközelítések alkalmazása során az Azure Üzletmenet-folytonossági központ használatával központosíthatja az üzletmenet-folytonossági védelem felügyeletét az Azure-ban és a hibrid számítási feladatokban. Az Azure Üzletmenet-folytonossági központ rögzíti azokat az erőforrásokat, amelyek nem rendelkeznek megfelelő védelemmel (biztonsági mentéssel vagy vészhelyreállítással), és korrekciós műveleteket hajt végre. Az eszköz lehetővé teszi az egységes monitorozást, és lehetővé teszi a szabályozási és naplózási megfelelőség létrehozását az Azure Policy használatával, amelyek mindegyike kényelmesen elérhető egy helyen.
A több munkaterületre vonatkozó ajánlott eljárásért tekintse meg a Log Analytics-munkaterület architektúrájának tervezését.
Példa
A valós monitorozási megoldások példáiért tekintse meg az Azure-beli webalkalmazás-monitorozást és az Azure Kubernetes Service-fürt alapkonfigurációs architektúráját.
Kapcsolódó hivatkozások
- Riasztás a DevOpshoz
- Riasztás a műveletekhez
- Megfigyelési és diagnosztikai útmutató
- Webalkalmazások monitorozása az Azure-ban
Közösségi hivatkozások
- Az Azure Monitor Alapszintű riasztások (AMBA) a riasztásdefiníciók központi adattára, amellyel az ügyfelek és a partnerek az Azure Monitor használatával javíthatják megfigyelhetőségi élményüket.
Megbízhatósági ellenőrzőlista
Tekintse meg a javaslatok teljes készletét.