הערה
הגישה לדף זה מחייבת הרשאה. באפשרותך לנסות להיכנס או לשנות מדריכי כתובות.
הגישה לדף זה מחייבת הרשאה. באפשרותך לנסות לשנות מדריכי כתובות.
חלה על ההמלצה הזו ל Power Platform רשימת תיוג של מהימנות מתוכננת היטב:
RE:07 | הטמעת תוכניות המשכיות עסקית והתאוששות מאסון (BCDR) מובנות, בדוקות ומתועדות המתואמות את יעדי ההתאוששות. התוכניות חייבות לכסות את כל הרכיבים ואת המערכת כולה. |
---|
מדריך זה מתאר המלצות לתכנון אסטרטגיית התאוששות מאסון אמינה עבור עומס עבודה. כדי לעמוד ביעדי רמת שירות פנימיים (SLOs) או אפילו הסכם רמת שירות (SLA) שהבטחת ללקוחות שלך, נדרשת אסטרטגיית התאוששות מאסון חזקה ואמינה. צפויים כשלים ובעיות מרכזיות אחרות. ההכנות שלך להתמודדות עם מקרים אלו קובעות עד כמה הלקוחות שלך יכולים לסמוך על העסק שלך שיספק עבורם בצורה מהימנה את השירות או המוצר. אסטרטגיית התאוששות מאסון היא עמוד התווך של ההכנה לתקריות גדולות.
הגדרות
מונח | הגדרה |
---|---|
מעבר לגיבוי בעת כשל | העברה אוטומטית ו/או ידנית של תעבורת עומס ייצור מאזור לא זמין לאזור לא מושפע. |
השבת נתונים שאבדו | העברה אוטומטית ו/או ידנית של תעבורת עומס ייצור מאזור שאליו התבצע המעבר בעת כשל חזרה לאזור הראשי. |
אסטרטגיות מרכזיות בתכנון
מדריך זה מניח שכבר ביצעת את המשימות הבאות כחלק מתכנון המהימנות שלך:
זיהוי זרימות קריטיות ולא קריטיות.
ביצוע של ניתוח מצבי כשל (FMA) עבור הזרימות שלך.
זיהוי יעדי מהימנות.
תכנון אסטרטגיית בדיקה איתנה.
ארכיטקטורת עומס עבודה מהימנה היא הבסיס לאסטרטגיית התאוששות מאסון מהימנה (DR). יש לקחת בחשבון את המהימנות בכל שלב של יצירת עומס העבודה שלך כדי לוודא שיש לך את הרכיבים הדרושים להתאוששות יעילה לפני תחילת תכנון את אסטרטגיית ה- DR שלך. בסיס זה מבטיח שמטרות המהימנות של עומס העבודה שלך, כגון יעד זמן התאוששות (RTO) ויעד נקודת התאוששות (RPO), הן מעשיות וניתנות להשגה.
החזקת תוכנית התאוששות מאסון
המפתח לאסטרטגיית DR מהימנה עבור עומס עבודה הוא תוכנית DR. התוכנית שלך צריכה להיות מסמך חי המתוקן ומתעדכן באופן קבוע ככל שהסביבה שלך משתנה. יש לשתף את התוכנית עם הצוותים הרלוונטיים (תפעול, מנהיגות טכנולוגית ובעלי עניין עסקיים) באופן קבוע (לדוגמה, כל שישה חודשים). יש לשמור אותה במאגר נתונים זמין ומאובטח כמו OneDrive.
יש לפעול לפי ההמלצות הבאות כדי לפתח את תוכנית ה- DR שלך:
יש להגדיר בבירור מה מהווה אסון ודורש הפעלה של תוכנית ההתאוששות מאסון.
אסונות הן בעיות בקנה מידה גדול. הם עשויים להיות הפסקות פעילות אזוריות, הפסקות שירותים כמו Microsoft Entra ID או Azure DNS, או התקפות זדוניות חמורות כמו התקפות כופר או התקפות DDoS.
יש לכלול דוגמאות למצבי כשל שאינם נחשבים לאסונות, כגון חוסר זמינות או כשל של משאב בודד, בתוכנית ההתאוששות מאסון שלך כדי שהמפעילים לא יפעילו בטעות את הסלמות ה- DR שלהם.
יש לבנות את תוכנית ה- DR על סמך תיעוד ה- FMA שלך. ודא שתוכנית ה- DR שלך לוכדת את מצבי הכשל ואסטרטגיות הצמצום של הפסקות פעילות המוגדרות כאסונות. אם נדרשים עדכונים, יש לעדכן גם את תוכנית ה- DR וגם את מסמכי ה- FMA שלך בו-זמנית כדי שהם יהיו מדויקים כאשר הסביבה משתנה או כאשר הבדיקה חושפת אופן פעולה בלתי צפויה.
יש להגדיר בבירור תפקידים ואחריות בתוך צוות עומס העבודה ולהבין את כל התפקידים החיצוניים הקשורים בארגון שלכם. אם האסון נגרם כתוצאה מהפסקת שירות חיצוני, כגון Microsoft Entra ID, יש לוודא שיש לך תפקיד מוגדר שאחראי על התקשורת עם הצד החיצוני ויכול לשתף עדכונים עם צוות עומס העבודה. התפקידים צריכים לכלול:
- הגורם האחראי להכרזה על אסון
- הגורם האחראי להכרזה על סגירת המקרה
- תפקידי תפעול
- תפקידי בדיקה ואימות
- תפקידי תקשורת פנימיים וחוצוניים
- תפקידים ראשיים בדיעבד וניתוח גורמי השורש (RCA)
יש להגדיר את נתיבי ההסלמה שצוות עומס העבודה חייב לבצע כדי להבטיח שמצב התאוששות יועבר לבעלי עניין.
יש לכלול את הסדר שנקבע, שבו יש לשחזר את רכיבי עומס העבודה כדי לגרום למינימום ההשפעה. לדוגמה, יש לשחזר מסדי נתונים ולהפעיל מחדש את זרימות הענן לפני שחזור היישום.
יש לפרט את הליך השחזור של כל רכיב כמדריך מפורט. יש לכלול צילומי מסך במידת האפשר, ותנאים מוקדמים להפעלת ההליך. לדוגמה, יש לפרט את הסקריפטים או האישורים הנדרשים שיש לאסוף.
יש להגדיר את תחומי האחריות של הצוות שלך לעומת האחריות של ספק אירוח הענן שלך. לדוגמה, Microsoft אחראי על שחזור PaaS (פלטפורמה כשירות), אך אתה אחראי על מיזוג הנתונים והחלת התצורה שלך על השירות.
יש ללכוד את גורם השורש של האירוע ולבצע צמצום נזקים לפני התחלת ההתאוששות. לדוגמה, אם הגורם לאירוע הוא בעיית אבטחה, יש לצמצם את הבעיה לפני שיחזור את המערכות המושפעות בסביבה שלך למעבר לגיבוי בעת כשל.
אם צריך לפרוס מחדש את האפליקציה בסביבת המעבר לגיבוי בעת כשל, יש להשתמש בכלים כדי להפוך את תהליך הפריסה לאוטומטי ככל האפשר. יש לוודא שקווי הצינור של Azure פרוסים מראש ומוגדרים כהלכה בסביבות המעבר לגיבוי בעת כשל, כדי לאפשר לך להתחיל מיד בפריסות שלך. יש להשתמש בפריסות אוטומטיות מקצה לקצה, עם שערי אישור ידניים במידת הצורך, כדי להבטיח תהליך פריסה עקבי ויעיל. כאשר שלב בתהליך הפריסה דורש התערבות ידנית, יש לתעד את השלבים הידניים. יש להגדיר באפון ברור תפקידים ותחומי אחריות.
יש להפוך כמה שיותר מההליך לאוטומטי. יש להשתמש בלוגיקה של ניסיון חוזר כדי להימנע מבזבוז זמן על סקריפטים שנתקעו במשימה שבורה. מכיוון שסקריפטים אלה מופעלים רק במקרי חירום, אינך רוצה שסקריפטים שפותחו בצורה לא נכונה יגרמו לנזק רב יותר או יאטו את תהליך השחזור שלך.
הערה
האוטומציה טומנת בחובה סיכונים. מפעילים מאומנים צריכים לפקח בקפידה על התהליכים האוטומטיים ולהתערב אם תהליך כלשהו נתקל בבעיות. כדי למזער את הסיכון שהאוטומציה תגיב לתוצאות חיוביות מוטעות, יש לבצע ביסודיות את תרגילי ה- DR שלך. יש לבדוק את כל שלבי התוכנית. לש לדמות זיהוי כדי להפיק התראה, ולאחר מכן לעבור בכל אורך נוהל השחזור.
יש לערוך תרגילי התאוששות מאסון
שיטת עבודה לבדיקות DR חיונית לתוכנית DR טובה. לתעשיות רבות יש מסגרות תאימות הדורשות ביצוע תרגילי DR באופן קבוע. ללא קשר לענף שלך, תרגילי DR תכופים הם חיוניים להצלחתך.
יש לפעול לפי ההמלצות הבאות לתרגילי DR מוצלחים:
בצע לפחות תרגיל DR ייצור אחד בשנה. תרגילי ניסיון או תרגילים שלא בסביבת הייצור עוזרים להבטיח שהצדדים המעורבים מכירים את תפקידיהם ואחריותם. תרגילים אלה גם עוזרים למפעילים להכיר את הנהלים על ידי ביצוע תהליך התאוששות. אבל רק תרגילים בסביבת הייצור באמת בודקים את תקפות תוכנית ה- DR ואת מדדי ה- RTO וה- RPO. יש להשתמש בתרגילים בסביבת הייצור שלך כדי לתזמן תהליכי התאוששות עבור רכיבים וזרימות כדי להבטיח שיעדי ה- RTO וה- RPO שהוגדרו עבור עומס העבודה שלך ניתנים להשגה. עבור פונקציות שאינן בשליטתך, כמו הפסקת הפעילות של Microsoft Entra ID, יש לוודא כי יעדי ה- RTO וה- RPO עבור הזרימות הכוללות את הפונקציות האלה מתייחסות לעיכובים אפשריים שאינם בשליטתך.
יש להשתמש בתרגילי ניסיון כדי להדריך מפעילים חדשים לגבי תהליכים ונהלים של DR. מפעילים בכירים צריכים להקדיש זמן כדי לאפשר למפעילים חדשים לבצע את תפקידם ועליהם לחפש הזדמנויות לשיפור. אם מפעיל חדש מהסס או מבולבל משלב של הנוהל, יש לבדוק את הנוהל כדי לוודא שהוא כתוב בבירור.
שיקולים
ביצוע תרגילי DR בייצור עלול לגרום לכשלים קטסטרופליים בלתי צפויים. יש להקפיד לבדוק הליכי שחזור בסביבות שאינן ייצור במהלך הפריסה הראשונית שלך.
יש לתת לצוות זמן תחזוקה רב ככל האפשר במהלך תרגילים. בעת תכנון זמן תחזוקה, יש להשתמש במדדי השחזור שנלכדים במהלך הבדיקה כהקצאות זמן מינימלי הכרחי.
ככל שתרגילי ה- DR שלך מבשילים, תהיה לך אפשרות לדעת אילו נהלים ניתן להפעיל במקביל ואילו יש להפעיל ברצף. בשלבים מוקדמים של בתרגילי הניסוי שלך, יש להניח שכל נוהל חייב להתבצע ברצף ושיידרש לך לזמן נוסף בכל שלב כדי לטפל בבעיות בלתי צפויות.
יכולות מעבר לגיבוי בעת כשל
Microsoft יישומים עסקיים מספקים יכולות המשכיות עסקית והתאוששות מאסון (BCDR) לכל ה סביבות ייצור ב- Dynamics 365 ו Power Platform תוכנה כשירות (SAAS). למד כיצד Microsoft מבטיח שנתוני הייצור שלך עמידים במהלך הפסקות אזוריות.
רשימת פעולות לביצוע מבחינת מהימנות
עיין במכלול ההמלצות המלא.