Résolution des problèmes liés au déploiement de machines virtuelles dans le GPU Azure Stack Edge Pro
Article
S’APPLIQUE À :Azure Stack Edge Pro : GPUAzure Stack Edge Pro 2Azure Stack Edge Pro RAzure Stack Edge Mini R
Cet article explique comment résoudre les erreurs courantes lors du déploiement de machines virtuelles sur un appareil GPU Azure Stack Edge Pro. L’article fournit une aide pour enquêter sur les causes les plus courantes qui entraînent des dépassements de délai et des problèmes d’approvisionnement de machines virtuelles lors de la création de l’interface réseau et des machines virtuelles.
Pour diagnostiquer tout échec d’approvisionnement de machines virtuelles, recherchez une machine virtuelle défaillante dans les journaux d’invités. Pour connaître les étapes de collecte des journaux invités de machine virtuelle et les inclure dans un package de support, consultez Collecter des journaux invités pour les machines virtuelles sur Azure Stack Edge Pro.
Dépassement du délai d’approvisionnement de machines virtuelles
Cette section décrit la résolution des causes les plus courantes d’un dépassement du délai d’approvisionnement de machines virtuelles.
Lorsque le délai d’approvisionnement de la machine virtuelle expire, l’erreur suivante s’affiche :
Les problèmes suivants sont les causes principales des dépassements du délai d’approvisionnement des machines virtuelles :
L’adresse IP que vous avez attribuée à la machine virtuelle est déjà utilisée. En savoir plus
L’image de machine virtuelle que vous avez utilisée pour déployer la machine virtuelle n’a pas été préparée correctement. En savoir plus
Impossible d’atteindre la passerelle et le serveur DNS par défaut à partir de la machine virtuelle d’invité. En savoir plus
Pendant une installation cloud init, cloud init ne s’est pas exécuté ou a rencontré des problèmes lors de son exécution. (Machines virtuelles Linux uniquement) En savoir plus
Pour une machine virtuelle Linux déployée à l’aide d’une image de machine virtuelle personnalisée, les indicateurs Approvisionnement dans le fichier /etc/waagent.conf ne sont pas corrects. (Machines virtuelles Linux uniquement) En savoir plus
Interface réseau principale attachée à un commutateur virtuel compatible avec SRIOV En savoir plus
L’adresse IP attribuée à la machine virtuelle est déjà utilisée
Description de l’erreur : Une adresse IP statique qui est déjà utilisée a été attribuée à la machine virtuelle et le provisionnement de la machine virtuelle a échoué. Cette erreur se produit lorsque l’adresse IP est utilisée dans le sous-réseau sur lequel la machine virtuelle est déployée. Lorsque vous déployez une machine virtuelle via le portail Azure, le processus vérifie l’existence d’une adresse IP au sein de votre appareil, mais ne peut pas vérifier les adresses IP d’autres services ou machines virtuelles qui pourraient également se trouver sur votre sous-réseau.
Solution suggérée : utilisez une adresse IP statique inutilisée ou une adresse IP dynamique fournie par le serveur DHCP.
Pour vérifier la présence d’une adresse IP en double :
Exécutez les commandes ping et Test-NetConnection suivantes (tnc) à partir de n’importe quelle appliance du même réseau :
Si vous recevez une réponse, l’adresse IP que vous avez attribuée à la nouvelle machine virtuelle est déjà utilisée.
L’image de la machine virtuelle n’est pas préparée correctement
Description de l’erreur : Pour préparer une image de machine virtuelle afin de l’utiliser sur un appareil GPU Azure Stack Edge Pro, vous devez suivre un flux de travail spécifique. Vous devez créer une machine virtuelle de 1re génération dans Azure, personnaliser la machine virtuelle, généraliser le disque dur virtuel, puis télécharger le disque dur virtuel du système d’exploitation pour cette machine virtuelle. L’image préparée doit être un disque dur virtuel de 1re génération avec le type fixe et l’extension de nom de fichier « vhd ».
Solution suggérée : Terminez le flux de travail permettant de préparer votre image de machine virtuelle. Pour obtenir de l’aide, consultez l’un des articles suivants :
Impossible d’atteindre la passerelle et le serveur DNS à partir de la machine virtuelle d’invité
Description de l’erreur : si la passerelle et le serveur DNS par défaut sont impossibles à atteindre pendant le déploiement de la machine virtuelle, le délai d’approvisionnement de la machine virtuelle expire et son déploiement échoue.
Solution suggérée : Vérifiez que la passerelle et le serveur DNS par défaut sont accessibles à partir de la machine virtuelle. Ensuite, répétez le déploiement de la machine virtuelle.
Pour vérifier que la passerelle et le serveur DNS par défaut sont accessibles à partir de la machine virtuelle, procédez comme suit :
ping <default gateway IP address>
ping <DNS server IP address>
Pour connaître les adresses IP de la passerelle et des serveurs DNS par défaut, accédez à l’interface utilisateur locale de votre appareil. Sélectionnez le port qui vous intéresse, puis affichez les paramètres réseau.
Problèmes cloud init (machines virtuelles Linux)
Description de l’erreur :cloud init ne s’est pas exécuté ou des problèmes sont survenus pendant l’exécution de cloud init. cloud-init est utilisé pour personnaliser une machine virtuelle Linux lors de son premier démarrage. Pour plus d’informations, consultez Prise en charge cloud-init pour les machines virtuelles dans Azure.
Solutions suggérées : Pour trouver les problèmes qui sont survenus pendant l’exécution de cloud init :
Recherchez les erreurs cloud init dans les fichiers journaux suivants :
/var/log/cloud-init-output.log
/var/log/cloud-init.log
/var/log/waagent/log
Pour vérifier certains des problèmes les plus courants qui empêchent cloud init de s’exécuter correctement, procédez comme suit :
Assurez-vous que l’image de machine virtuelle est basée sur cloud init. Exécutez la commande suivante :
cloud-init --version
La commande doit renvoyer le numéro de version de cloud init. Si l’image n’est pas basée sur cloud init, la commande ne renverra pas d’informations sur la version.
Pour obtenir de l’aide sur les options de cloud init, exécutez la commande suivante :
cloud-init --help
Assurez-vous que l’instance de cloud init peut s’exécuter correctement avec la source de données définie sur Azure.
Lorsque la source de données est définie sur Azure, l’entrée dans les journaux de cloud init est semblable à celle qui suit.
Si la source de données n’est pas définie sur Azure, vous devrez peut-être modifier votre script cloud init. Pour plus d’informations, consultez Exploration approfondie de cloud-init.
Les indicateurs Approvisionnement ne sont pas définis correctement (machines virtuelles Linux)
Description de l’erreur : Pour déployer correctement une machine virtuelle Linux dans Azure, l’approvisionnement doit être désactivé sur l’image et l’approvisionnement à l’aide de cloud init doit être activé. Les indicateurs Approvisionnement qui définissent ces valeurs sont configurés correctement pour les images de machine virtuelle standard. Si vous utilisez une image de machine virtuelle personnalisée, vous devez vous assurer qu’elles sont correctes.
Solution suggérée : Vérifiez que les indicateurs de provisionnement du fichier /etc/waagent.conf ont les valeurs suivantes :
Fonctionnalité
Valeur requise
Activer l’approvisionnement
Provisioning.Enabled=n
S’appuyer sur cloud-init pour l’approvisionnement
Provisioning.UseCloudInit=y
Interface réseau principale attachée à un commutateur virtuel compatible SRIOV
Description de l’erreur : l’interface réseau principale attachée à un commutateur virtuel avec interface SRIOV (virtualisation I/O à racine unique) a provoqué le contournement du trafic réseau hyper-V, afin que l’hôte ne puisse pas recevoir de requêtes DHCP de la machine virtuelle, ce qui entraîne un délai d’approvisionnement.
Solutions suggérées :
Connectez l’interface réseau principale de la machine virtuelle à un commutateur virtuel sans activer la mise en réseau accélérée.
Sur un appareil Azure Stack Edge Pro 1, les commutateurs virtuels créés sur le port 1 vers le port 4 n’activent pas la mise en réseau accélérée. Sur le port 5 ou le port 6, les commutateurs virtuels activent la mise en réseau accélérée par défaut.
Sur un appareil Azure Stack Edge Pro 2, les commutateurs virtuels créés sur le port 1 vers le port 2 n’activent pas la mise en réseau accélérée. Sur le port 3 ou le port 4, les commutateurs virtuels activent la mise en réseau accélérée par défaut.
Problèmes de création d’interfaces réseau
Cette section fournit une aide concernant les problèmes susceptibles de faire échouer la création d’une interface réseau lors du déploiement d’une machine virtuelle.
Dépassement du délai de création de la carte réseau
Description de l’erreur : La création de l’interface réseau sur la machine virtuelle ne s’est pas terminée dans le délai imparti. Cet échec peut être dû à des problèmes de serveur DHCP dans votre environnement.
Pour vérifier si l’interface réseau a bien été créée, procédez comme suit :
Dans le portail Azure, accédez à la ressource Azure Stack Edge de votre appareil (accédez à Services Edge>Machines virtuelles). Sélectionnez ensuite Déploiements, puis accédez au déploiement de la machine virtuelle.
Si une interface réseau n’a pas été créée, l’erreur suivante s’affiche.
Solution suggérée : Recréez la machine virtuelle et attribuez-lui une adresse IP statique.
Problèmes de création de machines virtuelles
Cette section traite des problèmes courants qui surviennent lors de la création d’une machine virtuelle.
Échec de la création de la machine virtuelle
Description de l’erreur : si vous disposez d’une image de la place de marché créée avec Azure Stack Edge antérieure à 2403, puis que vous créez une machine virtuelle à partir de l’image de la place de marché existante, votre création de machine virtuelle échoue car Azure Stack Edge 2407 a modifié le chemin de téléchargement de l’image de la place de marché.
Solution suggérée : procédez de la manière suivante pour supprimer l’image de la place de marché existante, puis créez une image de la place de marché à partir du portail Azure.
À partir du portail Azure, supprimez l’image de la place de marché existante.
Répertoriez l’ingestion et le travail d’ingestion BlobDownload pour l’image de la place de marché. Procédez de la manière suivante pour vous connecter à Azure Resource Manager.
Exécutez le script suivant pour répertorier les travaux d’ingestion :
Recherchez le nom du travail d’ingestion = Marketplace image sku name et le type = BlobDownload.
Par exemple : nom du travail d’ingestion = Ubuntu-18-04 et type = BlobDownload.
Si le travail d’ingestion se trouve à l’étape 1, procédez de la manière suivante pour supprimer le travail d’ingestion et l’image. Par exemple, le nom du travail d’ingestion dans l’exemple ci-dessus est ubuntu-18-04. En outre, Subscription ID et le nom Resource group se trouvent dans l’exemple.
Si Kubernetes est activé, la mémoire de calcul requise pour Kubernetes et les applications sur le cluster Kubernetes.
La surcharge de chaque machine virtuelle dans Hyper-V.
Solutions suggérées :
Utilisez une taille de machine virtuelle qui nécessite moins de mémoire.
Arrêtez toutes les machines virtuelles qui ne sont pas utilisées à partir du portail avant de déployer la nouvelle machine virtuelle.
Supprimez toutes les machines virtuelles qui ne sont plus utilisées.
Nombre insuffisant de GPU pour créer une machine virtuelle de GPU
Si vous essayez de déployer une machine virtuelle sur un appareil GPU sur lequel Kubernetes est déjà activé, aucune GPU n’est disponible et l’approvisionnement de la machine virtuelle échoue avec l’erreur suivante :
Causes possibles : si Kubernetes est activé avant la création de la machine virtuelle, Kubernetes utilise tous les GPU disponibles et vous ne pourrez pas créer de machines virtuelles de taille GPU. Vous pouvez créer autant de machines virtuelles de taille GPU que le nombre de GPU disponibles. Votre appareil Azure Stack Edge peut être équipé d’un ou de deux GPU.
Solution suggérée : Pour connaître les options de déploiement de machines virtuelles sur un appareil à un ou deux GPU avec Kubernetes configuré, consultez Machines virtuelles GPU et Kubernetes.
Azure HPC est une fonctionnalité cloud conçue spécialement pour les charges de travail HPC et IA, qui utilise des processeurs de pointe et une interconnexion InfiniBand de classe HPC pour offrir les meilleures performances, scalabilité et valeur aux applications. Azure HPC permet aux utilisateurs de laisser libre cours à l’innovation, la productivité et l’agilité métier grâce à une gamme de technologies HPC et IA hautement disponibles qui peuvent être allouées dynamiquement à mesure que vos besoins technico