Udostępnij za pośrednictwem


Przewodnik migracji obciążeń obliczeniowych procesora GPU na platformie Azure

Ponieważ bardziej zaawansowane procesory GPU stają się dostępne na platformie handlowej i w centrach danych platformy Microsoft Azure, zalecamy ponowne ocenianie wydajności obciążeń i rozważanie migracji do nowszych procesorów GPU.

Z tego samego powodu, jak również w celu utrzymania wysokiej jakości i niezawodnej oferty usług platforma Azure okresowo wycofuje sprzęt, który obsługuje starsze rozmiary maszyn wirtualnych. Pierwszą grupą produktów GPU, które mają zostać wycofane w Azure, są maszyny wirtualne serii NC, NC v2 i ND, które są odpowiednio obsługiwane przez akceleratory GPU NVIDIA Tesla K80, P100 i P40 centrum danych. Produkty te zostaną wycofane 31 sierpnia 2023 r., a najstarsze maszyny wirtualne z tej serii zostaną uruchomione w 2016 roku.

Od tego czasu procesory GPU poczyniły niesamowite postępy wraz z całą branżą uczenia głębokiego i HPC, zwykle przekraczając podwojenie wydajności między pokoleniami. Od czasu premiery procesorów GPU NVIDIA K80, P40 i P100 platforma Azure dostarczyła wiele nowszych generacji i kategorii produktów maszyn wirtualnych wyposażonych w przyspieszone procesory GPU i sztuczną inteligencję, w oparciu o procesory GPU T4, V100 i A100 GPU, a także wyróżniane przez opcjonalne funkcje, takie jak sieci szkieletowe połączenia oparte na technologii InfiniBand. Są to wszystkie opcje, które zachęcamy klientów do eksplorowania jako ścieżek migracji.

W większości przypadków dramatyczny wzrost wydajności oferowany przez nowsze generacje GPU obniża całkowity koszt posiadania, zmniejszając czas trwania zadań dla zadań z elastycznym przydziałem zasobów lub redukując liczbę ogólnych maszyn wirtualnych z obsługą GPU wymaganych do pokrycia stałego zapotrzebowania na zasoby obliczeniowe, mimo że koszty na godzinę GPU mogą się różnić. Oprócz tych korzyści klienci mogą poprawić czas rozwiązania za pomocą maszyn wirtualnych o wyższej wydajności oraz poprawić kondycję i obsługę swojego rozwiązania, przyjmując nowsze oprogramowanie, środowisko uruchomieniowe CUDA i wersje sterowników.

Migracja a optymalizacja

Platforma Azure rozpoznaje, że klienci mają wiele wymagań, które mogą dyktować wybór określonego produktu maszyny wirtualnej GPU, w tym zagadnienia dotyczące architektury procesora GPU, połączeń między układami, całkowitych kosztów posiadania (TCO), czasu potrzebnego na rozwiązanie oraz dostępności regionalnej na podstawie wymagań dotyczących lokalizacji zgodności lub opóźnień, a niektóre z tych wymagań mogą się nawet zmieniać z czasem.

Jednocześnie przyspieszanie procesora GPU to nowy i szybko ewoluujący obszar.

W związku z tym nie ma uniwersalnych wskazówek dla tego obszaru produktowego, a migracja jest idealnym momentem na przemyślenie potencjalnie znacznych zmian w obciążeniu, takich jak przejście z modelu wdrażania klastrowego na jedną dużą maszynę wirtualną z 8-GPU lub odwrotnie, wykorzystanie typów danych o zredukowanej precyzji, przyjęcie funkcji takich jak wieloinstancyjny GPU, i wiele innych.

Rozważania tego typu, kiedy są podejmowane w kontekście dramatycznych wzrostów wydajności GPU z generacji na generację, gdzie funkcja taka jak dodanie rdzeni TensorCore może zwiększyć wydajność nawet dziesięciokrotnie, są niezwykle specyficzne dla danego rodzaju obciążenia.

Połączenie migracji z architekturą re-aplikacji może przynieść ogromną wartość i poprawę kosztów i czasu rozwiązania.

Jednak tego rodzaju ulepszenia wykraczają poza zakres tego dokumentu, który ma na celu skupienie się na bezpośrednich klasach równoważności dla uogólnionych obciążeń, które mogą być obecnie uruchamiane przez klientów, w celu zidentyfikowania najbardziej podobnych opcji maszyn wirtualnych zarówno w cenie , jak i wydajności procesora GPU dla istniejących rodzin maszyn wirtualnych przechodzących emeryturę.

W związku z tym w tym dokumencie przyjęto założenie, że użytkownik może nie mieć żadnych szczegółowych informacji ani kontroli nad właściwościami specyficznymi dla obciążenia, takimi jak liczba wymaganych wystąpień maszyn wirtualnych, procesorów GPU, połączeń międzyoperacyjnych i nie tylko.

NC-Series maszyny wirtualne z procesorami GPU NVIDIA K80

Maszyny wirtualne z serii NC (v1) są najstarszym typem maszyn wirtualnych z przyspieszonym procesorem GPU platformy Azure, obsługiwanym przez od 1 do 4 akceleratorów procesora GPU nvidia Tesla K80 w połączeniu z procesorami Intel Xeon E5-2690 v3 (Haswell). Kiedyś sztandarowy typ maszyny wirtualnej dla wymagających zastosowań AI, uczenia maszynowego i HPC, pozostały popularnym wyborem aż do późnego etapu cyklu życia produktu (w szczególności dzięki promocyjnym cenom serii NC) dla użytkowników, którzy cenili bardzo niski bezwzględny koszt za godzinę pracy GPU, zamiast wyższą efektywność względem kosztu przypadającego na jednostkę GPU.

Obecnie, biorąc pod uwagę stosunkowo niską wydajność obliczeniową starzejącej się platformy procesora GPU NVIDIA K80, w porównaniu z serią maszyn wirtualnych z nowszymi procesorami GPU, popularnym przypadkiem użycia dla serii NC jest wnioskowanie w czasie rzeczywistym i obciążenia analityczne, gdzie przyspieszona maszyna wirtualna musi być dostępna w stanie stabilnym, aby obsługiwać żądania od aplikacji w miarę ich nadejścia. W takich przypadkach rozmiar woluminu lub partii żądań może być niewystarczający, aby korzystać z bardziej wydajnych procesorów GPU. Maszyny wirtualne NC są również popularne wśród deweloperów i studentów uczących się, opracowujących lub eksperymentujących z przyspieszaniem GPU, którzy potrzebują niedrogiego celu do wdrożenia CUDA opartego na chmurze, na którym można iterować bez konieczności osiągania poziomu produkcyjnego.

Ogólnie rzecz biorąc, klienci NC-Series powinni rozważyć przejście bezpośrednio z rozmiarów NC na rozmiary NC T4 v3, nową platformę Azure akcelerowaną przez GPU dla lekkich obciążeń, zasilaną przez procesory NVIDIA Tesla T4.

Bieżący rozmiar maszyny wirtualnej Rozmiar docelowej maszyny wirtualnej Różnica w specyfikacji
Standard_NC6
Standard_NC6_Promo
Standard_NC4as_T4_v3
lub
Standard_NC8as_T4
Procesor: Intel Haswell vs AMD Rome
Liczba procesorów GPU: 1 (taka sama)
Generacja GPU: NVIDIA Kepler vs Turing (+2 generacje, ~2x FP32 FLOPs)
Pamięć procesora GPU (GiB na procesor GPU): 16 (+4)
Procesor wirtualny: 4 (-2) lub 8 (+2)
GiB pamięci: 16 (-40) lub 56 (to samo)
GiB magazynu tymczasowego (SSD): 180 (-160) lub 360 (+20)
Maksymalna liczba dysków danych: 8 (-4) lub 16 (+4)
Przyspieszona sieć: Tak (+)
Premium Storage: Tak (+)
Standardowa_NC12
Standard_NC12_Promo
Standard_NC16as_T4_v3 Procesor: Intel Haswell vs AMD Rome
Liczba procesorów GPU: 1 (-1)
Generacja GPU: NVIDIA Kepler vs Turing (+2 generacje, ~2x FP32 FLOPs)
Pamięć procesora GPU (GiB na procesor GPU): 16 (+4)
procesor wirtualny: 16 (+4)
GiB pamięci: 110 (-2)
360 GiB tymczasowego magazynowania (SSD) (-320)
Maksymalna liczba dysków danych: 48 (+16)
Przyspieszona sieć: Tak (+)
Premium Storage: Tak (+)
Standard_NC24
Standard_NC24_Promo
Standard_NC64as_T4_v3* Procesor: Intel Haswell vs AMD Rome
Liczba procesorów GPU: 4 (taka sama)
Generacja GPU: NVIDIA Kepler vs Turing (+2 generacje, ~2x FP32 FLOPS)
Pamięć procesora GPU (GiB na procesor GPU): 16 (+4)
Procesor wirtualny: 64 (+40)
GiB pamięci: 440 (+216)
GiB magazynu tymczasowego (SSD): 2880 (+1440)
Maksymalna liczba dysków danych: 32 (-32)
Przyspieszona sieć: Tak (+)
Premium Storage: Tak (+)
Standard_NC24r
Standard_NC24r_Promo
Standard_NC64as_T4_v3* Procesor: Intel Haswell vs AMD Rome
Liczba procesorów GPU: 4 (taka sama)
Generacja GPU: NVIDIA Kepler vs Turing (+2 generacje, ~2x FP32 FLOPs)
Pamięć procesora GPU (GiB na procesor GPU): 16 (+4)
Procesor wirtualny: 64 (+40)
GiB pamięci: 440 (+216)
GiB magazynu tymczasowego (SSD): 2880 (+1440)
Maksymalna liczba dysków danych: 32 (-32)
Przyspieszona sieć: Tak (+)
Premium Storage: Tak (+)
Połączenie InfiniBand: Nie

Maszyny wirtualne z serii NC w wersji 2 wyposażone w procesory GPU NVIDIA Tesla P100

Maszyny wirtualne z serii NC w wersji 2 są flagową platformą przeznaczoną dla obciążeń sztucznej inteligencji i uczenia głębokiego. Oferują doskonałą wydajność w szkoleniu modeli głębokiego uczenia, z wydajnością na GPU około 2 razy wyższą niż oryginalna NC-Series. Systemy te są wyposażone w karty NVIDIA Tesla P100 oraz procesory Intel Xeon E5-2690 v4 (Broadwell). Podobnie jak NC i ND-Series, NC v2-Series oferuje konfigurację z dodatkową siecią o niskim opóźnieniu i wysokiej przepustowości za pośrednictwem RDMA oraz łączności InfiniBand, dzięki czemu można uruchamiać zadania trenowania na dużą skalę obejmujące wiele procesorów GPU.

Ogólnie rzecz biorąc, klienci NCv2-Series powinni rozważyć bezpośrednie przejście do rozmiarów NC A100 v4, nowej platformy Azure przyspieszanej przez GPU NVIDIA Ampere A100 PCIe.

Bieżący rozmiar maszyny wirtualnej Rozmiar docelowej maszyny wirtualnej Różnica w specyfikacji
Standard_NC6s_v2 Standard_NC24ads_A100_v4 CPU: Intel Broadwell vs AMD Milan
Liczba procesorów GPU: 1 (taka sama)
Generacja procesora GPU: NVIDIA Pascal a Ampere (+2 generacja)
Pamięć procesora GPU (GiB na procesor GPU): 80 (+64)
Procesor wirtualny: 24 (+18)
GiB pamięci: 220 (+108)
GiB magazynu tymczasowego (SSD): 1123 (+387)
Maksymalna liczba dysków danych: 12 (te same)
Przyspieszona sieć: Tak (+)
Premium Storage: Tak (+)
Standard_NC12s_v2 Standard_NC48ads_A100_v4 CPU: Intel Broadwell vs AMD Milan
Liczba procesorów GPU: 2 (te same)
Generacja procesora GPU: NVIDIA Pascal a Ampere (+2 generacje)
Pamięć procesora GPU (GiB na procesor GPU): 80 (+64)
Procesor wirtualny: 48 (+36)
GiB pamięci: 440 (+216)
GiB magazynu tymczasowego (SSD): 2246 (+772)
Maksymalna liczba dysków danych: 24 (te same)
Przyspieszona sieć: Tak (+)
Przechowywanie Premium: Tak (+)
Standard_NC24s_v2 Standard_NC96ads_A100_v4 CPU: Intel Broadwell vs AMD Milan
Liczba procesorów GPU: 4 (taka sama)
Generacja procesora GPU: NVIDIA Pascal a Ampere (+2 generacje)
Pamięć procesora GPU (GiB na procesor GPU): 80 (+64)
procesor wirtualny: 96 (+72)
GiB pamięci: 880 (+432)
GiB magazynu tymczasowego (SSD): 4492 (+1544)
Maksymalna liczba dysków danych: 32 (te same)
Przyspieszona sieć: Tak (+)
Premium Storage: Tak (+)
Standard_NC24rs_v2 Standard_NC96ads_A100_v4 CPU: Intel Broadwell vs AMD Milan
Liczba procesorów GPU: 4 (takie same)
Generacja procesora GPU: NVIDIA Pascal a Ampere (+2 generacje)
Pamięć procesora GPU (GiB na procesor GPU): 80 (+64)
procesor wirtualny: 96 (+72)
GiB pamięci: 880 (+432)
Pamięć tymczasowa (SSD) GiB: 4492 (+1544)
Maksymalna liczba dysków danych: 32 (te same)
Przyspieszona sieć: Tak (+)
Magazyn premium: Tak (+)
Połączenie infiniBand: nie (-)

ND-Series maszyn wirtualnych z procesorami GPU NVIDIA Tesla P40

Maszyny wirtualne serii ND są platformą średniego zasięgu, pierwotnie zaprojektowaną dla obciążeń związanych ze sztuczną inteligencją i uczeniem głębokim. Dostarczają doskonałą wydajność wnioskowania wsadowego dzięki ulepszonym operacjom zmiennoprzecinkowym o pojedynczej precyzji względem swoich poprzedników, a ich działanie jest wspierane przez karty GPU NVIDIA Tesla P40 oraz procesory Intel Xeon E5-2690 v4 (Broadwell). Podobnie jak NC i NC v2-Series, ND-Series oferuje konfigurację z pomocniczą siecią o niskich opóźnieniach i wysokiej przepływności przez łączność RDMA i InfiniBand, co umożliwia uruchamianie zadań trenowania na dużą skalę obejmujących wiele GPU.

Bieżący rozmiar maszyny wirtualnej Rozmiar docelowej maszyny wirtualnej Różnica w specyfikacji
Standard_ND6 Standard_NC4as_T4_v3
lub
Standard_NC8as_T4_v3
CPU: Intel Broadwell vs AMD Rome
Liczba procesorów GPU: 1 (taka sama)
Generacja procesora GPU: NVIDIA Pascal a Turing (+1 generacja)
Pamięć procesora GPU (GiB na procesor GPU): 16 (-8)
Procesor wirtualny: 4 (-2) lub 8 (+2)
GiB pamięci: 16 (-40) lub 56 (-56)
GiB magazynu tymczasowego (SSD): 180 (-552) lub 360 (-372)
Maksymalna liczba dysków danych: 8 (-4) lub 16 (+4)
Przyspieszona sieć: Tak (+)
Premium Storage: Tak (+)
Standard_ND12 Standard_NC16as_T4_v3 CPU: Intel Broadwell vs AMD Rome
Liczba procesorów GPU: 1 (-1)
Generacja procesora GPU: NVIDIA Pascal a Turing (+1 generacje)
Pamięć procesora GPU (GiB na procesor GPU): 16 (-8)
procesor wirtualny: 16 (+4)
GiB pamięci: 110 (-114)
GiB magazynu tymczasowego (SSD): 360 (-1114)
Maksymalna liczba dysków danych: 48 (+16)
Przyspieszona sieć: Tak (+)
Premium Storage: Tak (+)
Standard_ND24 Standard_NC64as_T4_v3* CPU: Intel Broadwell vs AMD Rome
Liczba procesorów GPU: 4 (taka sama)
Generacja procesora GPU: NVIDIA Pascal a Turing (+1 generacje)
Pamięć procesora GPU (GiB na procesor GPU): 16 (-8)
Procesor wirtualny: 64 (+40)
GiB pamięci: 440 (to samo)
GiB magazynu tymczasowego (SSD): 2880 (to samo)
Maksymalna liczba dysków danych: 32 (te same)
Przyspieszona sieć: Tak (+)
Magazynowanie Premium: Tak (+)
Standard_ND24r Standard_ND96amsr_A100_v4 CPU: Intel Broadwell vs AMD Rome
Liczba procesorów GPU: 8 (+4)
Generacja procesora GPU: NVIDIA Pascal a Ampere (+2 generacja)
Pamięć procesora GPU (GiB na procesor GPU): 80 (+56)
procesor wirtualny: 96 (+72)
GiB pamięci: 1900 (+1452)
GiB magazynu tymczasowego (SSD): 6400 (+3452)
Maksymalna liczba dysków danych: 32 (te same)
Przyspieszona sieć: Tak (+)
Premium Storage: Tak (+)
Tak (to samo): połączenie InfiniBand

Kroki migracji

Zmiany ogólne

  1. Wybierz serię i rozmiar migracji. Skorzystaj z kalkulatora cen , aby uzyskać szczegółowe informacje.

  2. Uzyskaj przydział dla wybranej serii VM

  3. Zmień rozmiar bieżącej maszyny wirtualnej serii N* na rozmiar docelowy. Może to być również dobry moment na zaktualizowanie systemu operacyjnego używanego przez obraz maszyny wirtualnej lub wdrożenie jednego z obrazów HPC ze wstępnie zainstalowanymi sterownikami jako punktem wyjścia.

    Ważne

    Obraz maszyny wirtualnej mógł zostać utworzony przy użyciu starszej wersji środowiska uruchomieniowego CUDA, sterownika NVIDIA i (jeśli dotyczy tylko rozmiarów z włączoną funkcją RDMA) sterowników Mellanox OFED niż wymaga nowa seria maszyn wirtualnych procesora GPU, która może zostać zaktualizowana, postępując zgodnie z instrukcjami w dokumentacji platformy Azure.

Zmiany powodujące niezgodność

Wybierz rozmiar docelowy dla migracji

Po ocenie bieżącego użycia zdecyduj, jakiego typu maszynę wirtualną z procesorem GPU potrzebujesz. W zależności od wymagań dotyczących obciążenia masz kilka różnych opcji.

Uwaga / Notatka

Najlepszym rozwiązaniem jest wybranie rozmiaru maszyny wirtualnej na podstawie kosztów i wydajności. Zalecenia przedstawione w tym przewodniku są oparte na ogólnym, jednorazowym porównaniu metryk wydajności i najbliższego dopasowania w innej serii maszyn wirtualnych. Przed podjęciem decyzji o odpowiednim rozmiarze uzyskaj porównanie kosztów przy użyciu kalkulatora cen platformy Azure.

Ważne

Wszystkie starsze rozmiary NC, NC v2 i ND-Series są dostępne w wielu rozmiarach GPU, w tym rozmiary 4-GPU z i bez połączenia InfiniBand dla obciążeń rozproszonych, ściśle powiązanych, które wymagają większej mocy obliczeniowej niż pojedyncza maszyna wirtualna z 4-GPU lub jeden procesor GPU K80, P40 lub P100. Mimo że powyższe zalecenia oferują prostą ścieżkę do przodu, użytkownicy tych rozmiarów powinni rozważyć osiągnięcie celów wydajności dzięki bardziej wydajnej serii maszyn wirtualnych opartych na procesorze GPU V100 firmy NVIDIA V100, takich jak seria NC v3 iseria ND v2, które zwykle umożliwiają taki sam poziom wydajności obciążenia przy niższych kosztach i z lepszą możliwością zarządzania, zapewniając znacznie większą wydajność procesora GPU i maszyny wirtualnej przed wymaganą konfiguracją wieloprocesorową i wielowężową, odpowiednio.

Uzyskaj limit przydziału dla docelowej rodziny maszyn wirtualnych

Postępuj zgodnie z przewodnikiem , aby zażądać zwiększenia limitu przydziału procesorów wirtualnych według rodziny maszyn wirtualnych. Wybierz docelowy rozmiar maszyny wirtualnej wybrany do migracji.

Zmienianie rozmiaru bieżącej maszyny wirtualnej

Możesz zmienić rozmiar maszyny wirtualnej.

Dalsze kroki

Aby uzyskać pełną listę rozmiarów maszyn wirtualnych z obsługą procesora GPU, zobacz GPU — przyspieszone obliczenia — omówienie