Sdílet prostřednictvím


Rychlý start – Nasazení pracovního prostoru Azure CycleCloud pro Slurm pomocí Marketplace

Azure CycleCloud Workspace for Slurm je bezplatná aplikace Marketplace, která poskytuje jednoduchý, zabezpečený a škálovatelný způsob správy výpočetních a úložných prostředků pro úlohy HPC a AI. V tomto rychlém startu nainstalujete pracovní prostor CycleCloud pro Slurm pomocí aplikace Marketplace.

Požadavky

Pro účely tohoto rychlého startu budete potřebovat:

  1. Účet Azure s aktivním předplatným
  2. Role přispěvatele a správce uživatelských přístupů na úrovni předplatného

Jak nasadit?

  • Přihlaste se k webu azure Portal.
  • Klikněte na levý horní + Create a Resource možnost
  • Do pole Search services and marketplace zadejte Slurm a pak vyberte Pracovní prostor Azure CycleCloud proSlurm .
  • Na stránce Pracovního prostoru Azure CycleCloud pro Slurm vyberte Vytvořit.

snímek obrazovky pracovního prostoru Azure CycleCloud pro marketplace Slurm

Základy

  • Na stránce Nový pracovní prostor Azure CycleCloud pro účet Slurm zadejte nebo vyberte následující podrobnosti.
    • předplatné: Vyberte předplatné, které chcete použít, pokud ještě není vybrané.
    • oblast: Vyberte oblast Azure, ve které chcete nasadit pracovní prostor CycleCloud pro prostředí Slurm.
    • skupiny prostředků: Vyberte skupinu prostředků pro účet Azure CycleCloud pro účet Slurm nebo vytvořte novou.
    • Velikost virtuálního počítače CycleCloud: Zvolte novou velikost virtuálního počítače nebo ponechte výchozí
    • uživatelskésprávce: Zadejte jméno a heslo pro účet správce CycleCloudu.
    • veřejný klíč SSH správce: Vyberte veřejný klíč SSH účtu správce přímo nebo pokud je uložený v prostředku klíče SSH v Azure.

snímek obrazovky možností Základy

Systém souborů

Domovský adresář uživatelů – Vytvořit nový

Určete umístění domovského adresáře uživatele. Vytvořte nový Integrovaný systém souborů NFS použije virtuální počítač plánovače jako server NFS s připojeným datovým diskem. snímek obrazovky s připojením systému souborů pro /shared a /home Builtin NFS vytvořit novou obrazovku možností

Vytvořte novou Azure NetApp Files vytvoří účet ANF, fond a svazek zadané kapacity a úrovně služeb. snímek obrazovky s připojením systému souborů pro soubory /shared a /home Azure NetApp files vytvořit novou obrazovku možností

Domovský adresář uživatelů – Použít existující

Pokud máte existující přípojný bod systému souborů NFS, vyberte možnost Použít existující a zadejte nastavení, která chcete připojit. snímek obrazovky s připojením systému souborů pro /shared a /home používat externí možnosti systému souborů NFS

Další připojení systému souborů – Vytvoření nového

Pokud potřebujete připojit další systém souborů pro data projektu, můžete buď vytvořit nový nebo zadat existující. Můžete vytvořit nový svazek Azure NetApp Files nebo spravovaný systém souborů Lustre Azure.

snímek obrazovky s připojením dalšího systému souborů pro vytvoření nového Azure NetApp Files

snímek obrazovky s připojením dalšího systému souborů pro vytvoření nového spravovaného Azure

Další připojení systému souborů – použít existující

Pokud máte existující externí přípojný bod SYSTÉMU SOUBORŮ NFS nebo spravovaný systém souborů Lustre Azure, můžete zadat možnosti připojení.

snímek obrazovky s připojením dalšího systému souborů pro existující externí NFS

Síťování

Tady zadejte, jestli chcete vytvořit novou virtuální síť a podsítě nebo použít existující.

Vytvoření nové virtuální sítě

snímek obrazovky s možnostmi sítě pro vytvoření nové

  • Vyberte CIDR, který se bude shodovat s počtem výpočetních uzlů, na které cílíte, a zadejte základní IP adresu.
  • Osvědčeným postupem je vytvořit Bastion, pokud nemáte přímé připojení poskytované firemním IT oddělením.
  • K zajištění odchozího připojení k internetu se vyžaduje vytvoření služby NAT Gateway. To bude povinné v roce 2025 a některé společnosti již vynucují myšlenkové politiky,
  • Peer to a existing Virtual Network if you already have a HUB to you want to peer that can delivery services like Bastion and a VPN Gateway. Dávejte pozor, abyste vybrali základní IP adresu, která je kompatibilní s vaší partnerskou virtuální sítí. Pokud má partnerský virtuální síť bránu, zkontrolujte průchod bránou.

Použití existující virtuální sítě

Před použitím existující virtuální sítě zkontrolujte požadavky v Plánování pracovního prostoru CycleCloud pro nasazení slurm

snímek obrazovky s možnostmi sítě pro použití existující

Nastavení slurm

Zadejte velikost virtuálního počítače a image, které se mají použít pro Plánovač a uzly Přihlášení. Image jsou image prostředí HPC poskytované na Azure Marketplace s přidruženými identifikátory URI:

Název obrázku Identifikátor uri
Alma Linux 8.7 almalinux:almalinux-hpc:8_7-hpc-gen2:latest
Ubuntu 20.04 microsoft-dsvm:ubuntu-hpc:2004:latest
Ubuntu 22.04 microsoft-dsvm:ubuntu-hpc:2204:latest
Vlastní image Budete muset zadat URN obrázku nebo ID image.

Pokud zvolíte Custom Image musíte zadat identifikátor URN image pro existující image marketplace nebo ID image pro image v Galerii výpočetních prostředků Azure.

Můžete také zkontrolovat Use image on all nodes, pokud chcete, aby plánovač, přihlašovací uzly a výpočetní uzly používaly stejnou image.

Nastavte počet uzlů přihlášení, které chcete zřídit při spuštění, a maximální počet. Nakonec povolením kontrol stavu spustíte kontroly stavu uzlů pro prostředí HPC a oddíly GPU, aby se při jejich spuštění automaticky odebraly uzly, které nejsou v pořádku.

snímek obrazovky s nastavením slurm

Pokud chcete povolit monitorování účtů úloh Slurm, zaškrtněte políčko, aby se zobrazily možnosti připojení. Upozorňujeme, že potřebujete mít dříve nasazený prostředek flexibilního serveru Azure Database for MySQL. Připojení prostřednictvím poskytování plně kvalifikovaného názvu domény nebo privátní IP adresy je k dispozici, pokud se rozhodnete zadat vlastní virtuální síť nebo použít partnerský vztah virtuálních sítí při vytváření nové virtuální sítě v rámci nasazení. Připojení prostřednictvím privátního koncového bodu je navíc k dispozici, pokud se rozhodnete vytvořit novou virtuální síť.

snímek obrazovky s možnostmi nastavení slurm pro databázi účetnictví úloh, přímý plně kvalifikovaný název domény

snímek obrazovky s možnostmi nastavení slurm pro databázi účtů úloh s privátního koncového bodu

Nastavení oddílu

Pracovní prostor Azure CycleCloud pro Slurm se dodává se 3 definovanými oddíly Slurm:

  • HTC : pro embarassingly non-MPI práce,
  • HPC: pro úzce propojené úlohy MPI většinou využívající typy virtuálních počítačů s podporou InfiniBand,
  • GPU: pro úlohy MPI a jiné úlohy než MPI GPU

Obrázek a maximální počet uzlů, které se mají dynamicky zřizovat pomocí CycleCloudu pro každý oddíl, můžete nastavit. Pouze oddíl HTC umožní použití spotových instancí, protože obvykle není osvědčeným postupem používat spotové instance pro úlohy HPC a GPU. Tato nastavení se ale dají po nasazení v uživatelském rozhraní CycleCloudu přepsat.

snímek obrazovky s možnostmi nastavení oddílu

Visačky

Nastavte relevantní značky pro potřebné prostředky. Node Array značky se použijí na virtuální počítače dynamicky zřízené pomocí CycleCloudu.

snímek obrazovky s možnostmi značek

Zkontrolovat a vytvořit

Zkontrolujte možnosti. Tento krok také zpracuje některá ověření. snímek obrazovky s revize

Po úspěšném dokončení kliknutím na tlačítko Vytvořit inicializujete probíhající nasazení snímek obrazovky s probíhajícím nasazením

Postupujte podle stavu nasazení a kroků.

Kontrola nasazení

Připojte se k ccw-cyclecloud-vm pomocí Bastionu s uživatelským jménem a klíči SSH zadanými během nasazení.

snímek obrazovky s nabídkou Připojit s bastionem Snímek obrazovky s možnostmi připojení připojit pomocí Bastionu

Po připojení zkontrolujte protokoly cloud-init a ověřte správnost všeho.

$tail -f -n 25 /var/log/cloud-init-output.log
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Starting cluster ccws....
----------------------------
ccws : allocation -> started
----------------------------
Resource group: 
Cluster nodes:
    scheduler: Off -- --  
Total nodes: 1
CC start_cluster successful
/
exiting after install
Cloud-init v. 23.4-7.el8_10.alma.1 running 'modules:final' at Wed, 12 Jun 2024 10:15:53 +0000. Up 11.84 seconds.
Cloud-init v. 23.4-7.el8_10.alma.1 finished at Wed, 12 Jun 2024 10:28:15 +0000. Datasource DataSourceAzure [seed=/dev/sr0].  Up 754.29 seconds

Pak nastavte připojení mezi vaším klientským počítačem a virtuálním počítačem CycleCloud. Může to být z podnikového IT, SÍTĚ VPN, tunelového propojení Bastionu, připojené veřejné IP adresy, pokud to vaše společnost umožňuje. Připojte se k webovému rozhraní tak, že přejdete na https://<cycleccloud_ip>a ověříte se pomocí uživatelského jména a hesla zadaného během nasazení. Ověřte, že je spuštěný plánovač i uzel Přihlášení.

Připojení k uzlu přihlášení

Pokud používáte Bastion, použijte jeden z pomocných skriptů util/ssh_thru_bastion.sh nebo util/tunnel_thru_bastion.sh připojit, zde. Pokud bastion nepoužíváte, musíte vytvořit přímé připojení sami.