Condividi tramite


Risolvere gli errori del componente aggiuntivo dell'operatore della catena di strumenti per l'intelligenza artificiale di AKS

Questo articolo fornisce indicazioni sulla risoluzione degli errori che possono verificarsi quando si abilita il componente aggiuntivo Toolchain Operator (KAITO) del servizio Azure Kubernetes durante la creazione o l'aggiornamento del cluster.

Prerequisiti

Verificare che gli strumenti seguenti siano installati e configurati. Vengono usate nelle sezioni seguenti.

Sintomi

Il componente aggiuntivo KAITO è costituito da due controller: il gpu-provisioner controller e il workspace controller. Dopo aver abilitato il componente aggiuntivo e distribuito un'area di lavoro KAITO, è possibile che si verifichino uno o più degli errori seguenti nei log dei pod:

Messaggio di errore Motivo
L'area di lavoro non è stata creata Causa 1: Configurazione della risorsa personalizzata KAITO non corretta
Il nodo GPU non è stato creato Causa 2: Limitazioni della quota gpu
La condizione di prontezza della risorsa non è True Causa 3: Tempo di pull lungo per le immagini di inferenza del modello

Causa 1: Configurazione della risorsa personalizzata KAITO non corretta

Dopo aver abilitato il componente aggiuntivo e distribuito una risorsa personalizzata predefinita o personalizzata dell'area di lavoro, il workspace controller include un webhook di convalida. Questo webhook blocca gli errori comuni di impostazione di valori errati nella specifica CR.

Per risolvere il problema, seguire questa procedura:

  1. Controlla i log di gpu-provisioner e workspace dei pod.

  2. Assicurarsi che gli aggiornamenti alle dimensioni della macchina virtuale (VM) GPU soddisfino i requisiti del tuo modello.

  3. Dopo aver creato correttamente l'area di lavoro CR, tenere traccia dello stato di avanzamento della distribuzione eseguendo i comandi seguenti:

    kubectl get machine -o wide
    
    kubectl get workspace -o wide
    

Causa 2: Limitazioni della quota gpu

Il gpu-provisioner controller potrebbe non riuscire a creare nodi GPU a causa di limitazioni di quota nella sottoscrizione o nell'area. In questo caso, puoi controllare lo stato del CR della macchina (CR interno creato dal controller) per i messaggi di errore. La macchina CR creata dal workspace controller ha una kaito.sh/workspace chiave di etichetta il cui valore è il nome dell'area di lavoro.

Per risolvere questo problema, usare uno dei metodi seguenti:

  • Richiedere un aumento della quota di abbonamento per la famiglia di macchine virtuali GPU necessaria per la distribuzione.

  • Controllare la disponibilità dell'istanza GPU nella regione specifica del cluster AKS.

    Se le dimensioni della macchina virtuale GPU necessarie non sono disponibili nell'area corrente, valutare la possibilità di passare a un'area diversa o di selezionare una dimensione di MACCHINA virtuale GPU alternativa.

Causa 3: Tempo di scaricamento lungo per le immagini di inferenza del modello

Se la modalità di accesso alle immagini è impostata su privata, l'immagine di inferenza del modello potrebbe non essere estratta. Questo problema può verificarsi per le immagini con URL specificati e segreti pull.

Le immagini di inferenza sono in genere di grandi dimensioni (30 GB -100 GB), quindi è previsto un tempo di pull delle immagini più lungo. A seconda della configurazione di rete del cluster AKS, il processo di pull potrebbe richiedere fino a decine di minuti.

Contattaci per ricevere assistenza

Per domande o richieste di assistenza, creare una richiesta di supporto o chiedere supporto alla community di Azure. È anche possibile inviare commenti e suggerimenti sul prodotto alla community di commenti e suggerimenti di Azure.