Megosztás a következőn keresztül:


Javaslatok megbízható monitorozási és riasztási stratégia kialakításához

Az Azure Well-Architected Framework megbízhatósági ellenőrzőlistájára vonatkozó javaslat:

RE:10 Mérje és tegye közzé a megoldás állapotjelzőit. Folyamatosan rögzítheti az üzemidőt és más megbízhatósági adatokat a számítási feladat teljes területén, valamint az egyes összetevőkből és kulcsfolyamatokból.

Ez az útmutató a megbízható figyelési és riasztási stratégia kialakítására vonatkozó javaslatokat ismerteti. Ezt a stratégiát úgy valósíthatja meg, hogy az üzemeltetési csapatok folyamatosan értesüljenek a környezet állapotáról, és meggyőződjön arról, hogy megfelel a számítási feladathoz kitűzött megbízhatósági céloknak.

Meghatározások

Időszak Definíció
Mérőszámok Rendszeres időközönként gyűjtött numerikus értékek. A metrikák a rendszer bizonyos aspektusait írják le egy adott időpontban.
Erőforrásnaplók A rendszer által létrehozott adatok. Információt nyújt a rendszer állapotáról.
Nyomkövetések Adatok, amelyek információt nyújtanak arról az útvonalról, amelyet a kérések a szolgáltatásokon és összetevőkön keresztül haladnak át.

Főbb tervezési stratégiák

A figyelési és riasztási stratégia létrehozása előtt hajtsa végre a következő feladatokat a számítási feladathoz a megbízhatósági tervezés részeként:

Hozzon létre egy monitorozási és riasztási stratégiát, amely biztosítja, hogy a számítási feladatok megbízhatóan működjenek. A figyelési és riasztási stratégia felhívja a figyelmet az üzemeltetési csapatokra, így értesítést kapnak a számítási feladat állapotának változásairól, és gyorsan megoldhatják a problémákat. Robusztus és megbízható monitorozási stratégiát hozhat létre egy állapotmodell létrehozásával a kritikus folyamatokhoz és az ezekből a kritikus folyamatokból álló összetevőkhöz. Az állapotmodell egészséges, csökkentett és nem kifogástalan állapotokat határoz meg. Tervezheti meg a működési helyzetét, hogy azonnal észrevehesse az ezekben az állapotokban bekövetkező változásokat. Ha az állapot állapota kifogástalan állapotról romló vagy nem kifogástalan állapotra változik, a riasztási mechanizmusok aktiválják az automatikus korrekciós intézkedéseket, és értesítik a megfelelő csapatokat.

Az alábbi javaslatok végrehajtásával olyan figyelési és riasztási stratégiát tervezhet, amely megfelel a vállalat követelményeinek.

Átfogó monitorozási stratégia megvalósítása

  • Ismerje meg a metrikák, naplók és nyomkövetések közötti különbséget.

  • Engedélyezze a naplózást az összes felhőerőforrás esetében. Az üzembe helyezések automatizálását és szabályozását használva engedélyezheti a diagnosztikai naplózást az egész környezetben.

  • Az összes diagnosztikai napló továbbítása egy központosított adatgyűjtőre és elemzési platformra, például egy Log Analytics-munkaterületre. Ha regionális adatelkülönségre vonatkozó követelményekkel rendelkezik, helyi adatgyűjtőket kell használnia azokban a régiókban, amelyekre ezek a követelmények vonatkoznak.

Kompromisszum: A naplók tárolásának és lekérdezésének költségvonzatai vannak. Figyelje meg, hogy a naplóelemzés és a megőrzés hogyan befolyásolja a költségvetést, és határozza meg a legjobb kihasználtsági egyensúlyt a követelményeknek megfelelően. További információ: Ajánlott eljárások a költségoptimalizáláshoz.

  • Ha a számítási feladatokra egy vagy több megfelelőségi keretrendszer vonatkozik, a bizalmas információkat kezelő egyes összetevőnaplókra is ezek a keretrendszerek vonatkoznak. Küldje el a megfelelő összetevőnaplókat egy biztonsági információ- és eseménykezelő (SIEM) rendszernek, például a Microsoft Sentinelnek.

  • Hozzon létre egy naplómegőrzési szabályzatot , amely hosszú távú adatmegőrzési követelményeket tartalmaz, amelyeket a megfelelőségi keretrendszerek előírnak a számítási feladatra.

  • A naplóadatok lekérdezésének optimalizálásához használjon strukturált naplózást az összes naplóüzenethez.

  • Riasztásokat konfigurálhat úgy, hogy aktiválódjanak, ha az értékek olyan kritikus küszöbértékeket lépnek át, amelyek egy állapotmodell állapotának változásához kapcsolódnak, például zöldről sárga vagy pirosra.

    A küszöbérték-konfiguráció a folyamatos fejlesztés gyakorlata. A számítási feladatok fejlődésével a definiált küszöbértékek változhatnak. Bizonyos esetekben a dinamikus küszöbértékek jó választásnak bizonyulnak a monitorozási stratégiához.

  • Fontolja meg a riasztások használatát, ha javulnak az állapotok, például pirosról sárga vagy pirosról zöldre, hogy az operatív csapatok nyomon tudják követni ezeket az eseményeket későbbi referenciaként.

  • A környezet valós idejű állapotának megjelenítése.

  • Az incidensek során összegyűjtött adatok használatával folyamatosan fejlesztheti állapotmodelljeit, valamint figyelési és riasztási stratégiáját.

  • Felhőplatform-figyelési és riasztási szolgáltatások beépítése, beleértve a következőket:

  • A felhőszolgáltató által kínált célalapú fejlett monitorozási és elemzési eszközök, például az Azure Monitor elemzési eszközeinek beépítése.

  • Biztonsági mentési és helyreállítási monitorozás implementálása a rögzítéshez:

    • Az adatreplikációs állapot, amely biztosítja, hogy a számítási feladat a cél helyreállítási pont célkitűzésén (RPO) belül valósuljon meg.

    • Sikeres és sikertelen biztonsági mentések és helyreállítások.

    • A vészhelyreállítás tervezésének tájékoztatására vonatkozó helyreállítási időtartam.

Alkalmazások figyelése

  • Hozzon létre állapotmintákat vagy ellenőrizze a függvényeket , és rendszeresen futtassa őket az alkalmazáson kívülről. Győződjön meg arról, hogy több olyan helyről is tesztel, amely földrajzilag közel van az ügyfelekhez.

  • Naplózza az adatokat, amíg az alkalmazás éles környezetben fut. Az éles állapot problémáinak okának diagnosztizálásához elegendő információra van szüksége.

  • Naplózza a szolgáltatáshatárokon történő eseményeket. Használjon korrelációs azonosítót, amely átnyúlik a szolgáltatáshatárokon. Ha egy tranzakció több szolgáltatáson halad keresztül, és az egyik meghiúsul, a korrelációs azonosító segít nyomon követni a kérelmeket az alkalmazáson belül, és megállapítani, hogy miért hiúsult meg a tranzakció.

  • Használjon aszinkron naplózást. A szinkron naplózási műveletek néha blokkolják az alkalmazás kódját, ami miatt a kérések biztonsági mentést végeznek a naplók írása során. Aszinkron naplózással megőrizze a rendelkezésre állást az alkalmazásnaplózás során.

  • Különítse el az alkalmazásnaplózást a naplózástól. A naplózási nyilvántartásokat általában a megfelelőségi vagy szabályozási követelményeknek megfelelően tartják karban, és teljesnek kell lenniük. Az elvetett tranzakciók elkerülése érdekében a diagnosztikai naplóktól elkülönítve tartsa karban az auditnaplókat.

  • Telemetria-korrelációval biztosíthatja, hogy a tranzakciók a végpontok közötti alkalmazáson és a kritikus rendszerfolyamatokon keresztül képezhetők le. Ez a folyamat elengedhetetlen a hibák kiváltó okának elemzéséhez (RCA). Gyűjtse össze a platformszintű metrikákat és naplókat, például a processzor százalékos számát, a hálózati terhelést, a hálózati ki- és lemezműveleteket másodpercenként az alkalmazásból az állapotmodell tájékoztatása és a problémák észlelése és előrejelzése érdekében. Ez a megközelítés segíthet megkülönböztetni az átmeneti és a nem átmeneti hibákat.

  • A white box monitorozásával szemantikai naplókkal és metrikákkal is rögzíthet alkalmazásokat. Az alkalmazásszintű metrikákat és naplókat, például a memóriahasználatot vagy a kérelmek késését gyűjti össze az alkalmazástól az állapotmodell tájékoztatása, valamint a problémák észlelése és előrejelzése érdekében.

  • A black box monitorozásával mérje a platformszolgáltatásokat és az ebből eredő ügyfélélményt. A Fekete doboz monitorozása a külsőleg látható alkalmazás viselkedését teszteli a rendszer belső elemeinek ismerete nélkül. Ez a megközelítés gyakori az ügyfélközpontú szolgáltatásszint-mutatók (SLA-k), a szolgáltatásiszint-célkitűzések (SLO-k) és a szolgáltatásiszint-szerződések (SLA-k) méréséhez.

Feljegyzés

Az alkalmazásfigyeléssel kapcsolatos további információkért lásd: Állapotvégpont-figyelési minta.

Adatok és tárolás monitorozása

  • A tárolók rendelkezésre állási metrikáinak monitorozása. Ha ez a metrika 100 százalék alá csökken, az sikertelen írásokat jelez. A rendelkezésre állás átmeneti csökkenése akkor fordulhat elő, ha a felhőszolgáltató kezeli a terhelést. Kövesse nyomon a rendelkezésre állási trendeket, és állapítsa meg, hogy probléma van-e a számítási feladattal.

    Bizonyos esetekben a tároló rendelkezésre állási metrikáinak csökkenése szűk keresztmetszetet jelez a tárolóhoz társított számítási rétegben.

  • Az adatbázisok számos metrikát monitorozhatnak. A megbízhatóság összefüggésében a monitorozni kívánt fontos metrikák a következők:

    • Lekérdezés időtartama

    • Időtúllépések

    • Várakozási idők

    • Memóriaterhelés

    • Zárolások

Az Azure megkönnyítése

  • Az Azure Monitor egy átfogó monitorozási megoldás, amely a felhőből és a helyszíni környezetekből származó monitorozási adatok gyűjtésére, elemzésére és megválaszolására szolgál.

  • A Log Analytics az Azure Portal egyik eszköze, amellyel napló lekérdezéseket szerkeszthet és futtathat a Log Analytics-munkaterületen lévő adatokon.

  • Az Application Insights az Azure Monitor bővítménye. Alkalmazásteljesítmény-monitorozási (APM) funkciókat biztosít.

  • Az Azure Monitor insights olyan fejlett elemzési eszközök, amelyek segítenek monitorozni az Azure-szolgáltatásokat, például a virtuális gépeket, az alkalmazásszolgáltatásokat és a tárolókat. Az elemzések az Azure Monitorra és a Log Analyticsre épülnek.

  • Az Azure Monitor az SAP-megoldásokhoz egy Azure-natív monitorozási termék az Azure-ban futó SAP-környezetekhez.

  • Az Azure Policy segít kikényszeríteni a szervezeti szabványokat, és nagy méretekben értékelni a megfelelőséget.

  • Az Azure Üzletmenet-folytonossági központ betekintést nyújt az üzletmenet-folytonossági tulajdonába. Az üzletmenet-folytonossági és vészhelyreállítási (BCDR) megközelítések alkalmazása során az Azure Üzletmenet-folytonossági központ használatával központosíthatja az üzletmenet-folytonossági védelem felügyeletét az Azure-ban és a hibrid számítási feladatokban. Az Azure Üzletmenet-folytonossági központ rögzíti azokat az erőforrásokat, amelyek nem rendelkeznek megfelelő védelemmel (biztonsági mentéssel vagy vészhelyreállítással), és korrekciós műveleteket hajt végre. Az eszköz lehetővé teszi az egységes monitorozást, és lehetővé teszi a szabályozási és naplózási megfelelőség létrehozását az Azure Policy használatával, amelyek mindegyike kényelmesen elérhető egy helyen.

  • A több munkaterületre vonatkozó ajánlott eljárásért tekintse meg a Log Analytics-munkaterület architektúrájának tervezését.

Példa

A valós monitorozási megoldások példáiért tekintse meg az Azure-beli webalkalmazás-monitorozást és az Azure Kubernetes Service-fürt alapkonfigurációs architektúráját.

Megbízhatósági ellenőrzőlista

Tekintse meg a javaslatok teljes készletét.