Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Questo articolo fornisce indicazioni sulla risoluzione degli errori che possono verificarsi quando si abilita il componente aggiuntivo Toolchain Operator (KAITO) del servizio Azure Kubernetes durante la creazione o l'aggiornamento del cluster.
Prerequisiti
Verificare che gli strumenti seguenti siano installati e configurati. Vengono usate nelle sezioni seguenti.
- Interfaccia della riga di comando di Azure
- kubectl, il client da riga di comando di Kubernetes
Sintomi
Il componente aggiuntivo KAITO è costituito da due controller: il gpu-provisioner
controller e il workspace
controller. Dopo aver abilitato il componente aggiuntivo e distribuito un'area di lavoro KAITO, è possibile che si verifichino uno o più degli errori seguenti nei log dei pod:
Messaggio di errore | Motivo |
---|---|
L'area di lavoro non è stata creata | Causa 1: Configurazione della risorsa personalizzata KAITO non corretta |
Il nodo GPU non è stato creato | Causa 2: Limitazioni della quota gpu |
La condizione di prontezza della risorsa non è True |
Causa 3: Tempo di pull lungo per le immagini di inferenza del modello |
Causa 1: Configurazione della risorsa personalizzata KAITO non corretta
Dopo aver abilitato il componente aggiuntivo e distribuito una risorsa personalizzata predefinita o personalizzata dell'area di lavoro, il workspace
controller include un webhook di convalida. Questo webhook blocca gli errori comuni di impostazione di valori errati nella specifica CR.
Per risolvere il problema, seguire questa procedura:
Controlla i log di
gpu-provisioner
eworkspace
dei pod.Assicurarsi che gli aggiornamenti alle dimensioni della macchina virtuale (VM) GPU soddisfino i requisiti del tuo modello.
Dopo aver creato correttamente l'area di lavoro CR, tenere traccia dello stato di avanzamento della distribuzione eseguendo i comandi seguenti:
kubectl get machine -o wide
kubectl get workspace -o wide
Causa 2: Limitazioni della quota gpu
Il gpu-provisioner
controller potrebbe non riuscire a creare nodi GPU a causa di limitazioni di quota nella sottoscrizione o nell'area. In questo caso, puoi controllare lo stato del CR della macchina (CR interno creato dal controller) per i messaggi di errore. La macchina CR creata dal workspace
controller ha una kaito.sh/workspace
chiave di etichetta il cui valore è il nome dell'area di lavoro.
Per risolvere questo problema, usare uno dei metodi seguenti:
Richiedere un aumento della quota di abbonamento per la famiglia di macchine virtuali GPU necessaria per la distribuzione.
Controllare la disponibilità dell'istanza GPU nella regione specifica del cluster AKS.
Se le dimensioni della macchina virtuale GPU necessarie non sono disponibili nell'area corrente, valutare la possibilità di passare a un'area diversa o di selezionare una dimensione di MACCHINA virtuale GPU alternativa.
Causa 3: Tempo di scaricamento lungo per le immagini di inferenza del modello
Se la modalità di accesso alle immagini è impostata su privata, l'immagine di inferenza del modello potrebbe non essere estratta. Questo problema può verificarsi per le immagini con URL specificati e segreti pull.
Le immagini di inferenza sono in genere di grandi dimensioni (30 GB -100 GB), quindi è previsto un tempo di pull delle immagini più lungo. A seconda della configurazione di rete del cluster AKS, il processo di pull potrebbe richiedere fino a decine di minuti.
Contattaci per ricevere assistenza
Per domande o richieste di assistenza, creare una richiesta di supporto o chiedere supporto alla community di Azure. È anche possibile inviare commenti e suggerimenti sul prodotto alla community di commenti e suggerimenti di Azure.