Obliczenia o wysokiej wydajności (HPC) na platformie Azure

2025-04-03

Wprowadzenie do wysokowydajnych obliczeń (HPC)

Obliczenia o wysokiej wydajności (HPC), nazywane również "dużymi obliczeniami", używają dużej liczby komputerów z procesorem CPU lub procesorem GPU do rozwiązywania złożonych zadań matematycznych.

Wiele branży używa obliczeń HPC do rozwiązywania niektórych ze swoich najtrudniejszych problemów. Obejmują one obciążenia, takie jak:

Genomics
Symulacje dotyczące ropy naftowej i gazu
Finanse
Projektowanie półprzewodników
Projektowanie
Modelowanie zjawisk pogodowych

Jak obliczenia HPC różnią się w chmurze?

Jedną z podstawowych różnic między lokalnym systemem HPC a jednym w chmurze jest możliwość dynamicznego dodawania i usuwania zasobów w miarę ich potrzeb. Dynamiczne skalowanie usuwa „wąskie gardło” możliwości obliczeniowych i pozwala klientom dopasować rozmiar infrastruktury odpowiednio do wymagań ich zadań.

Poniższe artykuły zawierają więcej szczegółów dotyczących tej funkcji dynamicznego skalowania.

Lista kontrolna wdrażania

Gdy chcesz zaimplementować własne rozwiązanie HPC na platformie Azure, pamiętaj o sprawdzeniu następujących kwestii:

Wybieranie odpowiedniej architektury na podstawie wymagań
Dowiedz się, które opcje obliczeniowe są odpowiednie dla Twojego obciążenia
Identyfikowanie odpowiedniego rozwiązania do magazynowania zaspokajającego Twoje potrzeby
Decydowanie o sposobie, w jaki zamierzasz zarządzać wszystkimi swoimi zasobami
Optymalizowanie swojej aplikacji pod kątem chmury
Zabezpieczanie infrastruktury

Infrastruktura

Istnieje wiele składników infrastruktury, które są niezbędne do utworzenia systemu HPC. Zasoby obliczeniowe, magazyn i sieć zapewniają podstawowe składniki, bez względu na sposób zarządzania obciążeniami HPC.

Obliczyć

Platforma Azure oferuje szeroką gamę rozmiarów zoptymalizowanych pod kątem obciążeń intensywnie korzystających zarówno z procesora CPU, jak i GPU.

Maszyny wirtualne oparte na procesorze CPU

Maszyny wirtualne z obsługą procesorów GPU

Maszyny wirtualne z serii N są wyposażone w procesory GPU NVIDIA zaprojektowane pod kątem aplikacji wymagających dużych obciążeń obliczeniowych lub graficznych, takich jak uczenie sztucznej inteligencji (AI) i wizualizacja.

Przechowywanie

Duże obciążenia usług Batch i HPC mają wymagania dotyczące magazynu danych i dostępu, które przekraczają możliwości tradycyjnych systemów plików w chmurze. Istnieje wiele rozwiązań, które zarządzają zarówno szybkością, jak i potrzebami pojemności aplikacji HPC na platformie Azure:

Aby uzyskać więcej informacji na temat porównywania rozwiązań Lustre, GlusterFS i BeeGFS na platformie Azure, zapoznaj się z książką elektroniczną Parallel Files Systems na platformie Azure i blogiem Lustre na platformie Azure.

Sieciowanie

Maszyny wirtualne H16r, H16mr, A8 i A9 mogą łączyć się z siecią zaplecza RDMA o wysokiej przepływności. Ta sieć może zwiększyć wydajność ściśle powiązanych aplikacji równoległych działających w ramach interfejsu Microsoft Message Passing Interface lepiej znanego jako MPI lub Intel MPI.

Zarządzanie

Zrób to sam

Tworzenie systemu HPC od podstaw na platformie Azure zapewnia znaczną elastyczność, ale często wymaga bardzo intensywnej konserwacji.

Skonfiguruj własne środowisko klastra na maszynach wirtualnych platformy Azure lub w zestawach skalowania maszyn wirtualnych.
Użyj szablonów usługi Azure Resource Manager do wdrażania wiodących menedżerów obciążeń, infrastruktury i aplikacji.
Wybierz rozmiary maszyn wirtualnych HPC i GPU, które obejmują wyspecjalizowany sprzęt i połączenia sieciowe dla obciążeń MPI lub GPU.
Dodaj pamięć masową o wysokiej wydajności dla obciążeń intensywnie wykorzystujących I/O.

Chmura hybrydowa i rozprzestrzenianie chmury

Jeśli masz istniejący lokalny system HPC, który chcesz połączyć się z platformą Azure, istnieje kilka zasobów, które pomogą Ci rozpocząć pracę.

Najpierw przejrzyj artykuł Opcje łączenia sieci lokalnej z platformą Azure w dokumentacji. W tym miejscu możesz znaleźć dodatkowe informacje na temat tych opcji łączności:

Po bezpiecznym nawiązaniu łączności sieciowej można zacząć korzystać z zasobów obliczeniowych chmury na żądanie, wykorzystując możliwości skalowania istniejącego menedżera obciążeń.

Rozwiązania z witryny Marketplace

W witrynie Azure Marketplace jest dostępnych wiele menedżerów obciążeń.

Usługa Azure Batch

Azure Batch to usługa platformy do wydajnego uruchamiania aplikacji równoległych i HPC na dużą skalę w chmurze. Usługa Azure Batch umożliwia planowanie pracy wymagającej intensywnych obliczeń do wykonania w zarządzanej puli maszyn wirtualnych oraz automatyczne skalowanie zasobów obliczeniowych w celu spełnienia wymagań związanych z zadaniami.

Deweloperzy lub dostawcy oprogramowania jako usługi mogą używać narzędzi i zestawów SDK usługi Batch do integrowania aplikacji HPC lub obciążeń kontenerów z platformą Azure, przemieszczania danych na platformę Azure i tworzenia potoków wykonywania zadań.

W usłudze Azure Batch wszystkie usługi działają w chmurze, na poniższym obrazie przedstawiono wygląd architektury w usłudze Azure Batch, konfiguracje skalowalności i harmonogramu zadań uruchomione w chmurze, a wyniki i raporty mogą być wysyłane do środowiska lokalnego.

Diagram przedstawia przykład architekturę HPC dla usługi Azure Batch.

Azure CycleCloud

Azure CycleCloud udostępnia najprostsze rozwiązanie do zarządzania obciążeniami HPC przy użyciu dowolnego harmonogramu (takiego jak Slurm, Grid Engine, HPC Pack, HTCondor, LSF, PBS Pro lub Symphony) na platformie Azure

Narzędzie CycleCloud umożliwia:

Wdrożyć pełne klastry i inne zasoby, w tym harmonizator, maszyny wirtualne do obliczeń, magazynowanie, sieć i pamięć podręczną.
Koordynowanie przepływów pracy, danych i przepływów chmurowych.
Zapewnianie administratorom pełnej kontroli nad tym, którzy użytkownicy mogą uruchamiać zadania oraz gdzie i jakim kosztem mogą to robić
Dostosowywanie i optymalizowanie klastrów za pomocą zaawansowanych zasad i funkcji zarządzania, w tym kontroli kosztów, integracji z usługą Active Directory, monitorowania i raportowania
Użyj swoich bieżących aplikacji i harmonogramu zadań bez modyfikacji.
Wykorzystaj wbudowane autoskalowanie oraz sprawdzone architektury referencyjne dla szerokiego zakresu obciążeń HPC i branż.

Model skalowania hybrydowego/chmurowego

Na tym przykładzie hybrydowym widać wyraźnie, jak te usługi są dystrybuowane między chmurą a środowiskiem lokalnym. Możliwość przeprowadzania zadań w obu typach obciążeń. Diagram przedstawia przykładową architekturę HPC dla rozwiązania CycleCloud na platformie Azure w środowisku hybrydowym.

Model natywny dla chmury

Poniższy przykładowy diagram modelu natywnego w chmurze pokazuje, jak obciążenie w chmurze będzie obsługiwać wszystko, zachowując jednocześnie połączenie ze środowiskiem lokalnym.

Diagram przedstawia przykładową architekturę HPC dla rozwiązania CycleCloud na platformie Azure w modelu natywnym dla chmury.

Tabela porównawcza

Funkcja	Usługa Azure Batch	Azure CycleCloud
Planista	API i narzędzia Azure Batch oraz skrypty wiersza poleceń w portalu Azure (natywne dla chmury).	Użyj standardowych harmonogramów HPC, takich jak Slurm, PBS Pro, LSF, Grid Engine i HTCondor, lub rozszerz wtyczki autoskalowania CycleCloud, aby pracować z własnym harmonogramem.
Zasoby obliczeniowe	Węzły oprogramowania jako usługi — platforma jako usługa	Oprogramowanie Platforma jako usługa – Platforma jako usługa
Narzędzia do monitorowania	Azure Monitor	Azure Monitor, Grafana
Dostosowanie	Zwyczajowe pule obrazów, obrazy stron trzecich, dostęp do interfejsu API Batch.	Korzystanie z kompleksowego interfejsu API RESTful w celu dostosowywania i rozszerzania funkcjonalności, wdrażania własnego harmonogramu i obsługi istniejących menedżerów obciążeń
Integracja	Potoki usługi Synapse, Azure Data Factory, Azure CLI	Wbudowany interfejs wiersza polecenia dla systemów Windows i Linux
Typ użytkownika	Deweloperzy	Klasyczni administratorzy i użytkownicy HPC
Typ pracy	Partia, Przepływy pracy	Ściśle powiązane (Message Passing Interface/MPI).
Obsługa systemu Windows	Tak	Różni się w zależności od wyboru harmonogramu

Menedżerowie obciążeń

Poniżej przedstawiono przykłady menedżerów obciążeń i klastra, którzy mogą być uruchamiani w infrastrukturze platformy Azure. Utwórz samodzielne klastry na maszynach wirtualnych platformy Azure lub rozszerz moc obliczeniową z klastra lokalnego na maszyny wirtualne platformy Azure.

Obliczenia lotu Alces
Bright Cluster Manager
Altair PBS działa
Ponowne skalowanie
Altair Silnik Siatki
Microsoft HPC Pack
- Pakiet HPC Pack dla systemu Windows
- Pakiet HPC Pack dla systemu Linux

Kontenery

Do zarządzania niektórymi obciążeniami HPC można także używać kontenerów. Usługi, takie jak Azure Kubernetes Service (AKS), ułatwiają wdrażanie zarządzanego klastra Kubernetes na platformie Azure.

Zarządzanie kosztami

Zarządzanie kosztami obliczeniowymi HPC na platformie Azure można realizować na kilka różnych sposobów. Przejrzyj opcje zakupu platformy Azure, aby znaleźć metodę, która sprawdza się najlepiej w Twojej organizacji.

Zabezpieczenia

Aby poznać omówienie najlepszych rozwiązań dotyczących zabezpieczeń na platformie Azure, przejrzyj dokumentację zabezpieczeń platformy Azure.

Oprócz konfiguracji sieci dostępnych w sekcji Skalowanie w chmurze można zaimplementować konfigurację piasty/szprychy w celu odizolowania zasobów obliczeniowych:

Aplikacje HPC

Uruchom niestandardowe lub komercyjne aplikacje HPC na platformie Azure. Kilka przykładów w tej sekcji jest badanych w testach porównawczych pod kątem wydajnego skalowania przy użyciu dodatkowych maszyn wirtualnych lub rdzeni obliczeniowych. Odwiedź portal Azure Marketplace, aby uzyskać rozwiązania gotowe do wdrożenia.

Uwaga

Skontaktuj się z dostawcą aplikacji komercyjnej w celu uzyskania informacji na temat licencjonowania lub innych ograniczeń związanych z uruchamianiem w chmurze. Nie wszyscy dostawcy oferują licencjonowanie w modelu pay-as-you-go. Dla danego rozwiązania może być konieczne posiadanie serwera licencyjnego w chmurze lub połączenie z lokalnym serwerem licencji.

Aplikacje inżynieryjne

Oprogramowanie graficzne i renderujące

Programy Autodesk Maya, 3ds Max i Arnold w usłudze Azure Batch

Sztuczna inteligencja i uczenie głębokie

Zestaw narzędzi usług Microsoft Cognitive

Dostawcy interfejsu MPI

Microsoft MPI

Wizualizacja zdalna

Uruchamianie maszyn wirtualnych opartych na procesorze GPU na platformie Azure w tym samym regionie co dane wyjściowe HPC w celu uzyskania najmniejszego opóźnienia, dostępu i wizualizacji zdalnej za pośrednictwem usługi Azure Virtual Desktop.

Komputery stacjonarne z systemem Windows korzystające z usługi Azure Virtual Desktop na platformie Azure

Tworzenie środowiska VDI dla komputerów stacjonarnych z systemem Windows przy użyciu usługi Azure Virtual Desktop na platformie Azure.

Testy porównawcze wydajności

Testy porównawcze środowisk obliczeniowych

Historie klientów

Istnieje wielu klientów, którzy odnotowali wielki sukces dzięki użyciu platformy Azure na potrzeby obciążeń HPC. Kilka z analiz przypadków tych klientów zamieszczono poniżej:

Inne istotne informacje

Zanim podejmiesz próbę uruchomienia obciążeń na dużą skalę, upewnij się, że Twój limit przydziału procesorów wirtualnych został podwyższony.

Następne kroki

Najnowsze ogłoszenia można znaleźć w następujących zasobach:

Blog zespołu usług Microsoft HPC i Batch
Odwiedź blog platformy Azure.

Przykłady usługi Microsoft Batch

Te samouczki zawierają szczegółowe informacje na temat uruchamiania aplikacji w usłudze Microsoft Batch:

Styl architektury dużych obliczeń

Udostępnij za pośrednictwem

Łączenie sieci lokalnej z platformą Azure za pomocą bramy sieci VPN

Łączenie sieci lokalnej z platformą Azure przy użyciu usługi ExpressRoute z trybem failover sieci VPN

Zastosuj topologię sieci piasty i szprych na platformie Azure

Zaimplementowanie modelu sieciowego typu piasta-szprychy z usługami wspólnymi na platformie Azure

Komputery stacjonarne z systemem Windows korzystające z usługi Azure Virtual Desktop na platformie Azure