Création d’un pool partagé de Data Science Virtual Machines

Article
04/17/2024

Dans cet article, vous allez apprendre à créer un pool partagé de DSVM (Data Science Virtual Machine) pour une équipe. L’utilisation d’un pool partagé offre d’importants avantages :

Meilleure utilisation des ressources
Simplification du partage et de la collaboration
Gestion plus efficace des ressources DSVM

Vous pouvez utiliser plusieurs méthodes et technologies pour créer un pool de DSVM. Cet article se concentre sur les pools de machines virtuelles interactives. Un autre exemple d’infrastructure de calcul managée implique la capacité de calcul Azure Machine Learning. Pour plus d’informations, consultez Créer un cluster de calcul.

Pool de machines virtuelles interactives

Un pool de machines virtuelles interactives, partagé par toute une équipe de science des données/IA, offre aux utilisateurs un moyen de se connecter à une instance DSVM disponible, au lieu d’avoir une instance dédiée pour chaque ensemble d’utilisateurs. Cette approche offre une meilleure disponibilité et une utilisation plus efficace des ressources.

Utilisez la technologie des groupes de machines virtuelles identiques Azure pour créer un pool de machines virtuelles interactives. Utilisez des groupes identiques pour créer et gérer un groupe de machines virtuelles identiques disposant d’un équilibrage de charge et d’une mise à l’échelle automatique.

L’utilisateur se connecte à l’adresse IP ou DNS du pool principal. La session est automatiquement acheminée vers une DSVM disponible dans le groupe identique. Comme les utilisateurs souhaitent un environnement cohérent et familier quelle que soit la machine virtuelle à laquelle ils se connectent, toutes les instances de la machine virtuelle dans le groupe identique montent un lecteur réseau partagé. Cela s’apparente à un partage Azure Files ou à un partage NFS (Network File System). L’espace de travail partagé de l’utilisateur est normalement conservé dans le magasin de fichiers partagé monté sur chacune des instances.

Un exemple de modèle Azure Resource Manager qui permet de créer un groupe identique comptant des instances de DSVM Ubuntu se trouve dans GitHub. Le même emplacement héberge un exemple du fichier de paramètres du modèle Azure Resource Manager.

Spécifiez les valeurs pour le fichier de paramètres dans l’interface Azure CLI afin de créer le groupe identique à partir du modèle Azure Resource Manager :

az group create --name [[NAME OF RESOURCE GROUP]] --location [[ Data center. For eg: "West US 2"]
az deployment group create --resource-group  [[NAME OF RESOURCE GROUP ABOVE]]  --template-uri https://raw.githubusercontent.com/Azure/DataScienceVM/master/Scripts/CreateDSVM/Ubuntu/dsvm-vmss-cluster.json --parameters @[[PARAMETER JSON FILE]]

Ces commandes partent du principe que vous disposez des éléments suivants :

Une copie du fichier de paramètres avec les valeurs spécifiées pour votre instance du groupe identique.
Le nombre d’instances de machine virtuelle.
Des pointeurs vers le partage de fichiers Azure.
Des informations d’identification pour le compte de stockage qui sera monté sur chaque machine virtuelle.

Les commandes référencent localement le fichier de paramètres. Vous pouvez également transmettre des paramètres inline, ou inviter à les entrer dans votre script.

Le modèle présenté ci-dessus active le protocole SSH et le port JupyterHub du groupe identique front-end au pool de machines virtuelles DSVM Ubuntu back-end. En tant qu’utilisateur, vous vous connecteriez normalement à la machine virtuelle sur SSH (Secure Shell) ou JupyterHub. Comme la taille des instances de machine virtuelle peut être augmentée ou diminuée de façon dynamique, tout état doit être enregistré dans le partage Azure Files monté. La même approche peut être utilisée pour créer un pool de DSVM Windows.

Le script permettant de monter le partage Azure Files est également disponible dans le référentiel GitHub des machines virtuelles DSVM Azure. Le script monte le partage de fichiers Azure au niveau du point de montage spécifié dans le fichier de paramètres. Le script crée également des liens symboliques pour le lecteur monté dans le répertoire de base initial de l’utilisateur. Un répertoire de notebooks propre à l’utilisateur figurant dans le partage Azure Files est associé par un lien symbolique au répertoire $HOME/notebooks/remote, ce qui permet aux utilisateurs d’accéder à leurs notebooks Jupyter, de les exécuter et de les enregistrer. Vous pouvez utiliser la même convention lorsque vous créez des utilisateurs supplémentaires sur la machine virtuelle, afin de pointer l’espace de travail Jupyter de chaque utilisateur vers le répertoire Azure Files partagé.

Le groupe de machines virtuelles identiques prend en charge la mise à l’échelle automatique. Vous pouvez définir des règles concernant ce qui déclenche la création d’instances supplémentaires ou la diminution du nombre d’instances. Par exemple, vous pouvez effectuer un scale-down jusqu’à ne plus avoir d’instances afin d’économiser sur les coûts d’utilisation de matériel cloud lorsque les machines virtuelles ne sont pas du tout utilisées. Les pages de documentation des groupes de machines virtuelles identiques fournissent des instructions détaillées concernant la mise à l’échelle automatique.

Share via

Création d’un pool partagé de Data Science Virtual Machines

Pool de machines virtuelles interactives

Étapes suivantes

Ressources supplémentaires