Sdílet prostřednictvím


CycleCloud: Základní koncepty

V nejzákladnějším systému vysokovýkonného výpočetního prostředí (HPC) je fond výpočetních prostředků podporovaných výkonnými systémy souborů a propojených sítěmi s nízkou latencí. Tyto výpočetní prostředky jsou obvykle spravovány plánovači PROSTŘEDÍ HPC, softwarovými aplikacemi, které plánují úlohy.

Vytváření jednotlivých systémů PROSTŘEDÍ HPC v Azure ze základních jednotek infrastruktury, jako jsou Virtual Machines, disky a síťová rozhraní, může být náročné, zejména pokud jsou tyto prostředky dočasné – existují pouze po dobu potřebnou k vyřešení aktuální úlohy prostředí HPC. Kromě toho chtějí operátoři vytvořit několik oddělených prostředí PROSTŘEDÍ HPC, která lze přizpůsobit různým obchodním jednotkám, výzkumným týmům nebo jednotlivcům. Správa těchto více systémů HPC může být provozně složitá.

Co je CycleCloud?

Azure CycleCloud je nástroj, který pomáhá vytvářet systémy HPC v Azure. Orchestruje tyto systémy tak, aby se elasticky zvětšovali podle aktuálních úloh prostředí HPC, aniž by bylo nutné spravovat základní stavební bloky Azure. CycleCloud je navržený týmem zkušených odborníků v prostředí HPC pro správce a uživatele prostředí HPC, zejména pro uživatele, kteří chtějí v Azure vytvářet systémy HPC, které se podobají interní infrastruktuře HPC, kterou znají.

Diagram orchestrace

CycleCloud je z provozního hlediska aplikační server nainstalovaný na virtuálním počítači s Linuxem v Azure nebo na místním serveru, který má přístup k rozhraním API a prostředkům Azure. CycleCloud získává a zřizuje virtuální počítače Azure pro vytváření clusterů CycleCloud, které můžou integrovat plánovače a uživatelské aplikace. CycleCloud také poskytuje integrace automatického škálování pro řadu plánovačů HPC a agenta CycleCloud, který běží na virtuálních počítačích Azure.

Aplikační server

Tento aplikační server poskytuje:

  1. Rozhraní REST API pro vytváření a správu systémů HPC v Azure.
  2. Grafické uživatelské rozhraní, které uživateli umožňuje spravovat a monitorovat systémy PROSTŘEDÍ HPC.
  3. Rozhraní příkazového řádku, které usnadňuje integraci CycleCloudu do existujících pracovních postupů.
  4. Interní úložiště dat NoSQL, které ukládá do mezipaměti stav clusteru a uzlu.
  5. Systém přidělování a orchestrace, který získává a spravuje virtuální počítače Azure
  6. Systém monitorování uzlů pro existující virtuální počítače, který upozorňuje na změny stavu.

Integrace

CycleCloud také poskytuje řadu integrací do běžných plánovačů a virtuálních počítačů Azure. Zadáte:

  1. Systém přípravy a konfigurace uzlu pro převod zřízeného virtuálního počítače na uzel prostředí HPC.
  2. Automatické škálování plánovačů prostředí HPC, které překládají požadavky na úlohy plánovače HPC na prostředky Azure.

Co může CycleCloud dělat

CycleCloud je určen operátorům prostředí HPC (správcům a uživatelům), kteří nasazují systémy HPC v Azure a chtějí replikovat infrastrukturu, kterou interně provozují, od plánovače HPC po přípojné body systému souborů pro instalace aplikací a přístup k datům. Tito uživatelé se zajímají zejména o podporu aplikací, modulů pracovních postupů a výpočetních kanálů, aniž by museli přeusvědčit své interní procesy.

CycleCloud poskytuje bohatou a deklarativní syntaxi šablon, která uživatelům umožňuje popsat systém prostředí HPC od topologie clusteru (počet a typy uzlů clusteru) až po přípojné body a aplikace, které se nasadí na každém uzlu. CycleCloud je navržený pro práci s plánovači prostředí HPC, jako jsou PBSPro, Slurm, IBM LSF, Grid Engine a HT Condor, a umožňuje uživatelům vytvářet různé fronty v každém plánovači a mapovat je na výpočetní uzly různých velikostí virtuálních počítačů v Azure. Moduly plug-in automatického škálování jsou navíc integrované s hlavními uzly plánovače, které naslouchají frontám úloh v každém systému, a odpovídajícím způsobem velikost výpočetního clusteru pomocí interakce s rozhraním REST API automatického škálování spuštěným na aplikačním serveru.

Kromě zřizování a vytváření uzlů prostředí HPC poskytuje CycleCloud také architekturu pro přípravu a konfiguraci virtuálního počítače, v podstatě poskytuje systém pro převod holého virtuálního počítače na funkční součást systému PROSTŘEDÍ HPC. Prostřednictvím této architektury můžou uživatelé na virtuálním počítači provádět konfiguraci poslední míle.

CycleCloud navíc poskytuje následující funkce:

  • Uživatelský přístup

    CycleCloud se dodává s integrovanou podporou vytváření místních uživatelských účtů na každém uzlu systému HPC. V tomto systému lze přístup uživatelů řídit prostřednictvím jedné roviny správy bez nasazení adresářové služby.

  • Monitorování

    Metriky na úrovni uzlů se shromažďují a zobrazují v uživatelském rozhraní CycleCloudu. Jsou užitečné pro monitorování zatížení systému a dají se připojit ke službám generování sestav a upozorňování.

  • Protokolování

    CycleCloud poskytuje systém pro protokolování aktivit a událostí na úrovni uzlu a aplikačního serveru.

  • Přenositelnost

    Systém nevyžaduje použití konkrétní image virtuálního počítače nebo operačního systému. CycleCloud podporuje hlavní operační systémy Windows a Linux na uzlech PROSTŘEDÍ HPC. Uživatelé si navíc můžou vytvořit vlastní image virtuálního počítače a použít ji ve svém systému HPC.

  • Infrastruktura jako kód

    Vzhledem k tomu, že vše vytvořené v CycleCloudu je definováno v šablonách a konfiguračních skriptech, jsou systémy HPC nasazené prostřednictvím CycleCloudu opakovatelné a přenosné. To zajišťuje konzistenci operátorů při nasazování systémů HPC v různých prostředích: sandbox, vývoj, testování a produkce. Operátoři mohou také nasadit identické systémy PROSTŘEDÍ HPC pro různé obchodní skupiny nebo týmy pro oddělení účetnictví.

  • Volně svázané nebo úzce propojené úlohy

    Clustery prostředí HPC vytvořené službou CycleCloud jsou navržené nejen tak, aby podporovaly volně vázané nebo trapně paralelní úlohy, u kterých je primárním problémem škálování (velikost clusteru). Clustery CycleCloud jsou také navrženy s ohledem na páteřní síť Infiniband Azure a podporují úzce propojené úlohy nebo úlohy založené na MPI, kde je klíčová blízkost uzlu a latence sítě. Tyto koncepty škálování na více instancí a úzce propojené koncepty jsou pevně v integraci plánovačů, které CycleCloud podporuje.