Udostępnij za pośrednictwem


Optymalizowanie wydajności usługi Azure Managed Lustre

W tej dokumentacji opisano sposób konfigurowania sieci dla maszyn wirtualnych klienta i systemów plików Azure Managed Lustre (AMLFS) wpływa na ogólną wydajność.

Przepływność i opóźnienie sieci między usługą AMLFS a klientami bezpośrednio wpływa na czas ukończenia zadania. Aby uzyskać przewidywalną, wysoką wydajność, postępuj zgodnie z następującymi zasadami projektowania:

  • Używaj przyspieszonej sieci na wszystkich maszynach wirtualnych klienta.
  • Umieść maszyny wirtualne AMLFS i klienckie w tej samej strefie dostępności w regionach obsługujących strefy dostępności.
  • Zachowaj routing sieciowy między klientami i AMLFS tak bezpośrednio, jak to możliwe, przy minimalnych lub bez dodatkowych przeskoków w ścieżce danych.

Założenia dotyczące środowiska

Te zalecenia zakładają następujące środowisko:

Wymagania dotyczące przyspieszonej sieci

Przyspieszona sieć używa wirtualizacji we/wy z jednym elementem głównym (SR-IOV) w celu zapewnienia wyższej przepływności, mniejszego opóźnienia i mniejszego zakłócenia w porównaniu z podstawowymi kartami sieciowymi. W przypadku obciążeń AMLFS intensywnie korzystających z operacji we/wy firma Microsoft zdecydowanie zaleca włączenie przyspieszonej sieci na wszystkich maszynach wirtualnych klienckich. Aby uzyskać więcej informacji, zobacz Omówienie przyspieszonej sieci platformy Azure.

Zaplanuj maszyny wirtualne klienta dla systemu AMLFS w następujący sposób:

  • Określanie priorytetów rozmiarów maszyn wirtualnych obsługujących przyspieszoną sieć. Obejmuje to wszystkie rozmiary maszyn wirtualnych hpc i sztucznej inteligencji platformy Azure.
  • Włącz przyspieszoną sieć podczas tworzenia interfejsu sieciowego lub zaktualizuj interfejs z włączoną przyspieszoną siecią, jeśli rozmiar maszyny wirtualnej go obsługuje. Aby zapoznać się z opcjami krok po kroku w portalu, interfejsie wiersza polecenia platformy Azure i programie PowerShell, zobacz Zarządzanie przyspieszoną siecią dla usługi Azure Virtual Machines.
  • Podczas wdrażania maszyn wirtualnych klienta przy użyciu interfejsu wiersza polecenia platformy Azure, aplikacji Bicep, programu Terraform lub szablonów usługi ARM skonfiguruj interfejsy sieciowe tak, aby przyspieszona sieć została domyślnie włączona.
  • Podczas aprowizowania pul klientów za pośrednictwem koordynatorów, takich jak Azure CycleCloud, Azure Batch lub Azure Kubernetes Service (AKS), upewnij się, że pula węzłów lub definicje maszyn wirtualnych określają rozmiary maszyn wirtualnych i ustawienia karty sieciowej, które obsługują i włączają przyspieszoną sieć.

Możesz sprawdzić, czy przyspieszona sieć jest włączona na maszynie wirtualnej klienta, wykonując następujące czynności:

  • W witrynie Azure Portal należy otworzyć zasób interfejsu sieciowego i potwierdzić, że dla przyspieszonej sieciustawiono wartość Włączone.
  • Na maszynie wirtualnej sprawdź, czy interfejs sieciowy używa przyspieszonego sterownika sieciowego zgodnie z dokumentacją dystrybucji.

Aby uzyskać więcej opcji potwierdzenia ustawienia ze skryptów lub narzędzi wiersza polecenia, zobacz Potwierdzanie włączenia przyspieszonej sieci.

Włączenie przyspieszonej sieci na wszystkich klientach AMLFS pomaga zmaksymalizować przepływność na węzeł i zmniejszyć obciążenie procesora CPU w przypadku przetwarzania sieci, co jest ważne w przypadku obciążeń lustra wysoce równoległych.

Zagadnienia dotyczące strefy dostępności

W regionach obsługujących strefy dostępności system AMLFS jest zawsze wdrażany w określonej strefie dostępności. Wyrównuj położenie maszyny wirtualnej klienta ze strefą AMLFS, aby zminimalizować opóźnienia i uniknąć ruchu między strefami. Aby zapoznać się z omówieniem stref dostępności na platformie Azure, zobacz Omówienie stref dostępności.

Postępuj zgodnie z następującymi wytycznymi:

  • Podczas wdrażania maszyn wirtualnych klienta umieść je w tej samej strefie dostępności co system plików AMLFS.
  • Unikaj projektów, w których klienci w jednej strefie uzyskują dostęp przede wszystkim do amLFS w innej strefie, ponieważ ruch między strefami może zwiększyć opóźnienie.
  • W przypadku dużych klastrów grupuj klientów według obciążenia lub typu zadania i zachowaj każdą grupę w tej samej strefie co używane wystąpienie AMLFS.

Jeśli musisz obejmować wiele stref ze względu na odporność lub wydajność operacyjną, a opóźnienie między strefami obniża wydajność, rozważ:

  • Utrzymywanie zadań wymagających opóźnień lub intensywnie korzystających z przepustowości w tej samej strefie co AMLFS.
  • Używanie dodatkowych wystąpień AMLFS w innych strefach do lokalizowania dostępu do danych dla oddzielnych obciążeń.

Aby sprawdzić, które rozmiary maszyn wirtualnych są dostępne w każdej strefie dostępności dla danego regionu, skorzystaj ze wskazówek dotyczących interfejsu wiersza polecenia platformy Azure lub programu PowerShell w temacie Sprawdzanie dostępności jednostki SKU maszyny wirtualnej.

Zagadnienia dotyczące topologii sieci

Każdy dodatkowy przeskok sieciowy między maszynami wirtualnymi klienta a serwerem AMLFS może dodać opóźnienie, zmniejszyć przepływność i wprowadzić zakłócenia. Aby uzyskać najlepszą wydajność, wdróż maszyny wirtualne AMLFS i klienckie w tej samej sieci wirtualnej i użyj bezpośredniego routingu między podsieciami bez dodatkowych wirtualnych urządzeń sieciowych lub przeskoków pośrednich na ścieżce danych. Jeśli używasz tras zdefiniowanych przez użytkownika (UDR) w sieci wirtualnej, upewnij się, że nie przesłaniają one tras systemowych między podsieciami klienta i podsiecią AMLFS, aby ruch Lustre pozostał na ścieżce bezpośredniej.

Dalsze kroki

W tym artykule przedstawiono sposób optymalizacji wydajności amLFS przez dostrajanie konfiguracji sieci, umieszczania strefy dostępności i routingu.

Aby jeszcze bardziej zoptymalizować wdrożenie, zobacz: