Seria ND A100 v4

Dotyczy: ✔️ Maszyny wirtualne z systemem Linux — elastyczne zestawy ✔️ ✔️ skalowania jednolite zestawy skalowania.

Maszyna wirtualna z serii ND A100 w wersji 4 to nowy flagowy dodatek do rodziny procesorów GPU platformy Azure. Jest ona przeznaczona dla zaawansowanych Edukacja trenowania i ściśle sprzężonych obciążeń HPC skalowanych w górę i skalowanych w poziomie.

Seria ND A100 v4 rozpoczyna się od jednej maszyny wirtualnej i ośmiu procesorów GPU NVIDIA Ampere A100 40 GB Tensor Core. Wdrożenia oparte na systemie ND A100 w wersji 4 mogą być skalowane w górę do tysięcy procesorów GPU z przepustowością połączenia wzajemnego na maszynę wirtualną o pojemności 1,6 TB/s. Każdy procesor GPU na maszynie wirtualnej jest dostarczany z własnym dedykowanym, niezależnym od topologii połączeniem NVIDIA Mellanox HDR InfiniBand o pojemności 200 GB/s. Te połączenia są konfigurowane automatycznie między maszynami wirtualnymi zajmującymi ten sam zestaw skalowania maszyn wirtualnych i obsługują funkcję GPUDirect RDMA.

Każdy procesor GPU oferuje łączność NVLINK 3.0 na potrzeby komunikacji na maszynie wirtualnej, a wystąpienie jest wspierane przez 96 rdzeni procesora CPU AMD Epyc™ 7V12 (Rzym).

Te wystąpienia zapewniają doskonałą wydajność dla wielu narzędzi sztucznej inteligencji, uczenia maszynowego i analizy, które obsługują przyspieszanie procesora GPU "out-of-the-box", takie jak TensorFlow, Pytorch, Caffe, RAPIDS i inne struktury. Ponadto połączenie infiniBand skalowalnego w poziomie jest obsługiwane przez duży zestaw istniejących narzędzi sztucznej inteligencji i HPC opartych na bibliotekach komunikacyjnych NCCL2 firmy NVIDIA na potrzeby bezproblemowego klastrowania procesorów GPU.

Ważne

Aby rozpocząć pracę z maszynami wirtualnymi ND A100 v4, zapoznaj się z tematem Konfiguracja i optymalizacja obciążenia HPC, aby zapoznać się z krokami, takimi jak konfiguracja sterownika i sieci. Ze względu na zwiększoną ilość operacji we/wy pamięci procesora GPU procesor ND A100 v4 wymaga użycia maszyn wirtualnych generacji 2 i obrazów platformy handlowej.

pomoc techniczna platformy Azure s Ubuntu 20.04/22.04, RHEL 7.9/8.7/9.3, AlmaLinux 8.8/9.2 i SLES 15 dla maszyn wirtualnych ND A100 v4. W witrynie Azure Marketplace są dostępne oferty zoptymalizowanych i wstępnie skonfigurowanych obrazów maszyn wirtualnych z systemem Linux dla obciążeń HPC/AI z różnymi zainstalowanymi narzędziami i bibliotekami HPC, dlatego są one zdecydowanie zalecane. Obecnie obsługiwane są obrazy maszyn wirtualnych z systemem Ubuntu-HPC 20.04/22.04 i AlmaLinux-HPC 8.6/8.7.


Premium Storage: obsługiwane
Buforowanie usługi Premium Storage: obsługiwane
Dyski w warstwie Ultra: obsługiwane (dowiedz się więcej o dostępności, użyciu i wydajności)
Migracja na żywo: nieobsługiwana
Aktualizacje zachowywania pamięci: nieobsługiwane
Obsługa generowania maszyn wirtualnych: generacja 2
Przyspieszona sieć: obsługiwana
Efemeryczne dyski systemu operacyjnego: obsługiwane
InfiniBand: obsługiwane, GPUDirect RDMA, 8 x 200 Gigabit HDR
NVIDIA NVLink Interconnect: obsługiwane
Wirtualizacja zagnieżdżona: nieobsługiwana

Rozmiar Procesor wirtualny Pamięć: GiB Magazyn tymczasowy (SSD): GiB Procesor GPU Pamięć procesora GPU: GiB Maks. liczba dysków danych Maksymalna przepływność niebuforowanych dysków: liczba operacji we/wy na sekundę / MB/s Maksymalna przepustowość sieci Maksymalna liczba kart sieciowych
Standard_ND96asr_A100_v4 96 900 6000 8 A100 40 GB procesorów GPU (NVLink 3.0) 320 32 80,000 / 800 24 000 Mb/s 8

Definicje tabel rozmiaru

  • Pojemność magazynu jest podawana w jednostkach GiB (1024^3 bajtów). Podczas porównywania dysków mierzonych w GB (1000^3 bajtów) z dyskami mierzonymi w GiB (1024^3) pamiętaj, że liczby pojemności podane w GiB mogą wydawać się mniejsze. Na przykład 1023 GiB = 1098,4 GB.

  • Przepływność dysku mierzona jest jako liczba operacji wejścia/wyjścia na sekundę i MB/s, gdzie 1 MB/s = 10^6 bajtów/s.

  • Dyski danych mogą działać w trybie buforowanym lub niebuforowanym. Dla pracy dysku danych w trybie buforowanym tryb pamięci podręcznej hosta jest ustawiony na wartość ReadOnly lub ReadWrite. Dla pracy dysku danych bez buforowania tryb pamięci podręcznej hosta jest ustawiony na wartość None.

  • Aby dowiedzieć się, jak uzyskać najlepszą wydajność magazynu dla maszyn wirtualnych, zobacz Wydajność maszyny wirtualnej i dysku.

  • Oczekiwana przepustowość sieci to maksymalna zagregowana przepustowość przydzielona na typ maszyny wirtualnej dla wszystkich kart sieciowych dla wszystkich miejsc docelowych. Aby uzyskać więcej informacji, zobacz Przepustowość sieci maszyny wirtualnej.

    Górne limity nie są gwarantowane. Wskazówki dotyczące ofert limitów dotyczące wybierania odpowiedniego typu maszyny wirtualnej dla zamierzonej aplikacji. Rzeczywista wydajność sieci zależy od kilku czynników, w tym przeciążenia sieci, obciążeń aplikacji i ustawień sieci. Aby uzyskać informacje na temat optymalizowania przepływności sieci, zobacz Optymalizowanie przepływności sieci dla maszyn wirtualnych platformy Azure. Aby osiągnąć oczekiwaną wydajność sieci w systemie Linux lub Windows, może być konieczne wybranie określonej wersji lub zoptymalizowanie maszyny wirtualnej. Aby uzyskać więcej informacji, zobacz Testowanie przepustowości/przepływności (NTTTCP).

Inne rozmiary i informacje

Kalkulator cen: Kalkulator cen

Aby uzyskać więcej informacji na temat typów dysków, zobacz Jakie typy dysków są dostępne na platformie Azure?

Następne kroki

Dowiedz się więcej o tym, jak jednostki obliczeniowe platformy Azure (ACU) mogą ułatwić porównanie wydajności obliczeń w jednostkach SKU platformy Azure.