Condividi tramite


Scenari di failover di Kubernetes in un dispositivo Azure Stack Edge in cluster

Il cluster Kubernetes viene distribuito come piattaforma open source comune per orchestrare le applicazioni in contenitori. Questo articolo descrive il funzionamento di Kubernetes nel dispositivo Azure Stack Edge a 2 nodi, incluse le modalità di errore e le risposte del dispositivo corrispondenti.

Informazioni su Kubernetes in Azure Stack Edge

Nel dispositivo Azure Stack Edge è possibile creare un cluster Kubernetes configurando il calcolo. Quando il ruolo di calcolo è configurato, il cluster Kubernetes, inclusi i nodi master e di lavoro, vengono distribuiti e configurati automaticamente. Questo cluster viene quindi usato per la distribuzione del carico di lavoro tramite kubectl, IoT Edge o Azure Arc.

Il dispositivo Azure Stack Edge è disponibile come configurazione a 1 nodo o una configurazione a 2 nodi che costituisce il cluster di infrastruttura. Il cluster Kubernetes è separato dal cluster di infrastruttura e viene distribuito al di sopra del cluster di infrastruttura. Il cluster di infrastruttura fornisce l'archiviazione permanente per il dispositivo Azure Stack Edge, mentre il cluster Kubernetes è responsabile esclusivamente dell'orchestrazione delle applicazioni.

Il cluster Kubernetes comprende un nodo master e nodi di lavoro. I nodi Kubernetes in un cluster sono macchine virtuali che eseguono le applicazioni e i flussi di lavoro cloud.

  • Il nodo master Kubernetes è responsabile della gestione dello stato desiderato per il cluster. Il nodo master controlla anche il nodo di lavoro.
  • I nodi di lavoro eseguono le applicazioni in contenitori.

Cluster Kubernetes in un dispositivo a due nodi

Il cluster Kubernetes nel dispositivo a 2 nodi ha un nodo master e due nodi di lavoro. Il dispositivo a 2 nodi è a disponibilità elevata e, in caso di errore di uno dei nodi, sia il dispositivo che il cluster Kubernetes continuano a essere in esecuzione. Per altre informazioni sull'architettura del cluster Kubernetes, vedere Concetti di base di Kubernetes.

In un dispositivo Azure Stack Edge a 2 nodi, la macchina virtuale master Kubernetes e una macchina virtuale del ruolo di lavoro Kubernetes vengono eseguite nel nodo A del dispositivo. Nel nodo B viene eseguita una singola macchina virtuale del ruolo di lavoro Kubernetes.

Ogni macchina virtuale del ruolo di lavoro nel cluster Kubernetes è una macchina virtuale Hyper-V aggiunta. Una macchina virtuale bloccata è associata al nodo specifico in cui è in esecuzione. Se il nodo A nel dispositivo ha esito negativo, la macchina virtuale master esegue il failover nel nodo B. Tuttavia, la macchina virtuale di lavoro nel nodo A, che è una macchina virtuale aggiunta, non esegue il failover nel nodo B e viceversa. I pod della macchina virtuale di lavoro nel nodo A vengono invece ribilanciati sul nodo B.

Affinché i pod ribilanciati abbiano una capacità sufficiente per l'esecuzione nel nodo B del dispositivo, il sistema impone che non più del 50% di ogni capacità del nodo A edizione Standard venga usata durante le normali operazioni del cluster Azure Stack Edge a 2 nodi. Questo utilizzo della capacità viene eseguito in base al massimo sforzo e ci sono circostanze (ad esempio, carichi di lavoro che richiedono risorse GPU non disponibili quando vengono ribilanciati a A edizione Standard Nodo B) in cui i pod ribilanciati potrebbero non avere risorse sufficienti per l'esecuzione.

Questi scenari sono descritti in dettaglio nella sezione successiva sulle modalità e sul comportamento degli errori.

Modalità di errore e comportamento

I nodi del dispositivo Azure Stack Edge potrebbero non riuscire in determinate condizioni. Le varie modalità di errore e le risposte del dispositivo corrispondenti sono tabulate in questa sezione.

Errori o riavvii dei nodi di Azure Stack Edge

Node Errori Risposte
Il nodo A presenta errori
(Il nodo B non presenta errori)
Possono verificarsi i possibili errori seguenti:
  • Entrambi gli PSU hanno esito negativo
  • Una o entrambe le porte 3, porta 4 hanno esito negativo
  • Il componente principale ha esito negativo, include scheda madre, DIMM, disco del sistema operativo
  • L'intero nodo ha esito negativo
    Per ognuno di questi errori vengono visualizzate le risposte seguenti:
    • Failover della macchina virtuale master Kubernetes dal nodo A al nodo B
    • La macchina virtuale master richiede alcuni minuti per arrivare al nodo B
    • I pod del nodo A vengono ribilanciati nel nodo B
    • I carichi di lavoro GPU continuano a essere in esecuzione se la GPU è disponibile nel nodo B
    Riavvii del nodo A
    (Il nodo B non presenta errori)
    Riavvii del nodo Al termine del riavvio del nodo A e la macchina virtuale del ruolo di lavoro è disponibile, la macchina virtuale master ribilancia i pod dal nodo B.
    Il nodo B presenta errori
    (Il nodo A non presenta errori)
    Possono verificarsi i possibili errori seguenti:
    • Entrambi gli PSU hanno esito negativo
    • Una o entrambe le porte 3, porta 4 hanno esito negativo
    • Il componente principale ha esito negativo, include scheda madre, DIMM, disco del sistema operativo
    • L'intero nodo ha esito negativo
      Per ognuno di questi errori vengono visualizzate le risposte seguenti:
      • La macchina virtuale master Kubernetes ribilancia i pod dal nodo B. L'operazione potrebbe richiedere alcuni minuti.
      Riavvii del nodo B
      (Il nodo A non presenta errori)
      Riavvii del nodo Al termine del riavvio del nodo B e la macchina virtuale di lavoro è disponibile, la macchina virtuale master ribilancia i pod dal nodo B.

      Aggiornamenti dei nodi di Azure Stack Edge

      Tipo di aggiornamento Risposte
      Aggiornamento del nodo del dispositivo Gli aggiornamenti in sequenza vengono applicati ai nodi del dispositivo e i nodi verranno riavviati.
      Aggiornamento del servizio Kubernetes L'aggiornamento del servizio Kubernetes include:
      • Failover della macchina virtuale master Kubernetes dal nodo A del dispositivo al nodo B del dispositivo
      • Aggiornamento master kubernetes.
      • Aggiornamenti del nodo di lavoro Kubernetes (non necessariamente in questo ordine).
      L'intero processo di aggiornamento potrebbe richiedere almeno 30 minuti e durante questa finestra il cluster Kubernetes è disponibile per qualsiasi operazione di gestione, ad esempio la distribuzione di un nuovo carico di lavoro. Anche se i pod verranno svuotati dal nodo del dispositivo durante l'aggiornamento, i carichi di lavoro potrebbero essere offline per diversi secondi durante questo processo.

      Passaggi successivi

      • Altre informazioni sull'archiviazione Kubernetes nel dispositivo Azure Stack Edge.
      • Informazioni sul modello di rete Kubernetes nel dispositivo Azure Stack Edge.
      • Distribuire Azure Stack Edge nel portale di Azure.