Ripristino di emergenza per la piattaforma dati di Azure - Panoramica

Azure Synapse Analytics
Azure Machine Learning
Azure Cosmos DB
Azure Data Lake
Hub eventi di Azure

Panoramica

Questa serie fornisce un esempio illustrativo del modo in cui un'organizzazione potrebbe progettare una strategia di ripristino di emergenza per una piattaforma dati aziendale di Azure.

Azure offre un'ampia gamma di opzioni di resilienza che possono fornire continuità del servizio in caso di emergenza. Ma i livelli di servizio più elevati possono introdurre complessità e un costo premium. Il compromesso dei costi rispetto alla resilienza e alla complessità è il fattore decisionale chiave per la maggior parte dei clienti in merito al ripristino di emergenza.

Anche se in alcuni casi si verificano errori di punto nel servizio di Azure, è necessario notare che i data center Microsoft e i servizi di Azure hanno più livelli di ridondanza predefiniti. Qualsiasi errore è in genere limitato nell'ambito e viene in genere ripristinato entro poche ore. Storicamente è molto più probabile che un servizio chiave come la gestione delle identità verifichi un problema di servizio anziché un'intera area di Azure offline.

Dovrebbe anche essere riconosciuto che gli attacchi informatici, in particolare ransomware, ora rappresentano una minaccia tangibile per qualsiasi ecosistema di dati moderno e possono causare un'interruzione della piattaforma dati. Anche se questo è fuori ambito per questa serie, i clienti sono invitati a implementare controlli contro tali attacchi come parte della progettazione della sicurezza e della resilienza di qualsiasi piattaforma dati.

  • Le linee guida Microsoft sulla protezione ransomware sono disponibili nelle nozioni fondamentali sul cloud di Azure

Ambito

L'ambito di questa serie di articoli include:

  • Ripristino del servizio di una piattaforma dati di Azure da un'emergenza fisica per un utente illustrativo del cliente. Questo cliente illustrativo è:
    • un'organizzazione di medie dimensioni con una funzione di supporto operativo definita, seguendo una metodologia di gestione dei servizi basata su ITIL (Information Technology Infrastructure Library)
    • non nativo del cloud, con le sue principali aziende, servizi condivisi come la gestione degli accessi e l'autenticazione e la gestione degli eventi imprevisti rimangono in locale
    • nel percorso di migrazione cloud ad Azure, abilitato dall'automazione
  • La piattaforma dati di Azure ha implementato le progettazioni seguenti all'interno della tenancy di Azure del cliente
    • Zona di destinazione dell'organizzazione: fornisce le basi della piattaforma, tra cui rete, monitoraggio, sicurezza e così via.
    • Piattaforma Di Analisi di Azure: fornire i componenti dati che supportano le varie soluzioni e i prodotti dati forniti dal servizio
  • Questo processo verrà eseguito da una risorsa tecnica di Azure anziché da uno specialista esperto in materia di Azure (SME). Di conseguenza, le risorse devono avere il livello di conoscenza/competenze seguente
    • Concetti fondamentali di Azure: conoscenza di Azure, dei relativi servizi di base e dei componenti dati
    • Conoscenza di Azure DevOps. Possibilità di esplorare il controllo del codice sorgente ed eseguire distribuzioni della pipeline
  • Questo processo descrive il processo di failover, dal database primario all'area secondaria

Fuori ambito

Gli elementi seguenti sono considerati out-of-scope per questa serie di articoli:

  • Processo di fallback, dall'area secondaria all'area primaria
  • Tutte le applicazioni, i componenti o i sistemi non Azure, inclusi, ma non sono limitati a fornitori locali, altri fornitori di servizi Cloud, servizi Web di terze parti e così via.
  • Ripristino di tutti i servizi upstream, ad esempio reti locali, gateway, servizi condivisi aziendali e così via. prerequisiti per questo processo
  • Ripristino di tutti i servizi downstream, ad esempio sistemi operativi locali, sistemi di creazione di report di terze parti, modellazione dei dati o applicazioni di data science e così via. che dipendono da questo processo per ripristinare i propri servizi
  • Scenari di perdita dei dati, tra cui il ripristino da ransomware o eventi imprevisti di sicurezza dei dati simili
  • Strategie di backup dei dati e piani di ripristino dei dati
  • Definizione della causa radice di un evento di ripristino di emergenza
    • Per gli eventi imprevisti del servizio o dei componenti di Azure, Microsoft pubblica una "Analisi della causa radice" all'interno della pagina Web Stato - Cronologia

Presupposti chiave

I presupposti chiave per questo esempio di ripristino di emergenza sono

  • L'organizzazione segue una metodologia di gestione dei servizi basata su ITIL per il supporto operativo della piattaforma dati di Azure
  • L'organizzazione ha un processo di ripristino di emergenza esistente come parte del framework di ripristino del servizio per gli asset IT
  • "Infrastruttura come codice" (infrastruttura distribuita come codice) è stata usata per distribuire la piattaforma dati di Azure abilitata da un servizio di automazione, ad esempio Azure DevOps o simile
  • Ogni soluzione ospitata dalla piattaforma dati di Azure ha completato una valutazione dell'impatto aziendale o simile, fornendo requisiti di servizio chiari per l'obiettivo del punto di ripristino (RPO), l'obiettivo del tempo di ripristino (RTO) e LTO

Passaggi successivi

Ora che si è appreso lo scenario a livello generale, è possibile passare a informazioni sull'architettura progettata per il caso d'uso.