Produkcja magazynu HPC

Artykuł
04/03/2024

Dostęp do magazynu jest ważną częścią planowania wydajności obciążeń HPC. Poniższe materiały pomagają usprawnić proces podejmowania decyzji i zminimalizować wszelkie nieporozumienia dotyczące możliwości określonego rozwiązania magazynu (lub brak możliwości).

Uwagi dotyczące projektowania

Ważne jest, aby upewnić się, że wymagane dane są odbierane do maszyn klastra HPC w odpowiednim czasie. Chcesz również upewnić się, że wyniki z tych poszczególnych maszyn są szybko zapisywane i dostępne do dalszej analizy.

Rozkład ruchu obciążenia

Uwzględnianie typów ruchu generowanego przez środowisko HPC i procesów. Ten krok jest szczególnie ważny, jeśli planujesz uruchamianie wielu typów obciążeń i planujesz używać magazynu do innych celów. Rozważ i zarejestruj następujące typy ruchu:

Pojedynczy strumień a wiele strumieni
Stosunek ruchu odczytu do zapisu ruchu
Średnie rozmiary i liczby plików
Wzorce dostępu losowego i sekwencyjnego

Lokalizacja danych

Następna kategoria odpowiada za lokalizację danych. Świadomość lokalności pomaga określić, czy można używać kopiowania, buforowania lub synchronizacji jako strategii przenoszenia danych. Poniżej przedstawiono elementy lokalne, które należy sprawdzić wcześniej:

Dane źródłowe lokalnie, na platformie Azure lub na obu tych platformach?
Wyniki danych lokalnych, na platformie Azure, czy obu?
Obciążenia HPC na platformie Azure, które mają być koordynowane z osiami czasu modyfikacji danych źródłowych?
Poufne/dane HIPAA?

Wymagania dotyczące wydajności

Wymagania dotyczące wydajności rozwiązań magazynu są ogólnie podsumowane w następujący sposób:

Przepływność pojedynczego strumienia (w gb/ps)
Przepływność wielu strumieni (w gb/ps)
Oczekiwano maksymalnej liczby operacji we/wy na sekundę
Średnie opóźnienie (ms)

Każda kwestia ma wpływ na wydajność, więc te liczby reprezentują przewodnik, który należy osiągnąć w konkretnym rozwiązaniu. Na przykład może istnieć obciążenie HPC, które wykonuje obszerne tworzenie i usuwanie plików w ramach przepływu pracy. Te operacje mogą mieć wpływ na ogólną przepływność.

Metody dostępu

Należy uwzględnić wymagany protokół dostępu klienta i wyjaśnić, jakie funkcje protokołu są potrzebne. Istnieją różne wersje systemu plików NFS i SMB.

Oto kilka kwestii do rozważenia:

Wymagane wersje NFS/SMB
Oczekiwane funkcje protokołu (listy ACL, szyfrowanie)
Równoległe rozwiązanie systemu plików

Łączne wymaganie dotyczące pojemności

Pojemność magazynu na platformie Azure to kolejna kwestia. Ułatwia to informowanie o ogólnym koszcie rozwiązania. Jeśli planujesz przechowywać dużą ilość danych przez długi czas, warto rozważyć warstwowanie w ramach rozwiązania magazynu. Obsługa warstw zapewnia tańsze opcje magazynowania w połączeniu z magazynem o wyższych kosztach, ale o wyższej wydajności w warstwie Gorąca. W związku z tym należy ocenić wymagania dotyczące pojemności w następujący sposób:

Łączna wymagana pojemność
Łączna wymagana pojemność warstwy gorąca
Łączna wymagana pojemność warstwy ciepłej
Łączna wymagana pojemność warstwy zimnej

Metoda uwierzytelniania i autoryzacji

Jeśli chodzi o wymagania dotyczące uwierzytelniania i autoryzacji, takie jak używanie serwera LDAP lub środowiska usługi Active Directory, zapewnia uwzględnienie odpowiednich systemów pomocniczych dla architektury. Jeśli musisz obsługiwać funkcje, takie jak mapowanie identyfikatora UID/GID dla użytkowników usługi Active Directory, upewnij się, że rozwiązanie magazynu obsługuje tę funkcję.

Oto kilka kwestii do rozważenia:

Lokalne (tylko identyfikator UID/GID na serwerze plików)
Katalog (LDAP, Active Directory)
Mapowanie identyfikatora UID/GID na użytkowników usługi Active Directory?

Porównanie typowych rozwiązań usługi Azure Storage

Kategoria	Azure Blob Storage	Azure Files	Azure Managed Lustre	Azure NetApp Files
Przypadki użycia	Usługa Azure Blob Storage najlepiej nadaje się do obciążeń dostępu sekwencyjnego na dużą skalę, w których dane są pozyskiwane raz z niewielką liczbą modyfikacji lub bez dalszych modyfikacji. Usługa Blob Storage oferuje najniższy całkowity koszt posiadania, jeśli nie ma żadnej konserwacji. Przykładowe scenariusze to: dane analityczne na dużą skalę, wrażliwe na przepływność obliczenia o wysokiej wydajności, kopie zapasowe i archiwum, autonomiczna jazda, renderowanie multimediów lub sekwencjonowanie genomiczne.	Usługa Azure Files to usługa o wysokiej dostępności, która najlepiej nadaje się do obciążeń dostępu losowego. W przypadku udziałów NFS usługa Azure Files zapewnia pełną obsługę systemu plików POSIX. Można go łatwo używać z platform kontenerów, takich jak Azure Container Instance (ACI) i Azure Kubernetes Service (AKS), z wbudowanym sterownikiem CSI i platformami opartymi na maszynach wirtualnych. Przykładowe scenariusze to: Pliki udostępnione, bazy danych, katalogi główne, tradycyjne aplikacje, ERP, CMS, migracje NAS, które nie wymagają zaawansowanego zarządzania, i niestandardowe aplikacje wymagające magazynu plików skalowalnego w poziomie.	Azure Managed Lustre to w pełni zarządzany równoległy system plików najlepiej dopasowany do średnich i dużych obciążeń HPC. Umożliwia aplikacjom HPC w chmurze bez przerywania zgodności aplikacji, zapewniając znane funkcje równoległego systemu plików Lustre, zachowania i wydajność, zabezpieczając długoterminowe inwestycje w aplikacje.	W pełni zarządzana usługa plików w chmurze obsługiwana przez usługę NetApp z zaawansowanymi możliwościami zarządzania. Usługa NetApp Files jest odpowiednia dla obciążeń wymagających dostępu losowego i zapewnia szeroką obsługę protokołów i możliwości ochrony danych. Przykładowe scenariusze to: lokalna migracja serwera NAS przedsiębiorstwa, która wymaga rozbudowanych możliwości zarządzania, obciążeń wrażliwych na opóźnienia, takich jak SAP HANA, wrażliwe na opóźnienia lub intensywne obliczenia o wysokiej wydajności lub obciążenia wymagające jednoczesnego dostępu do wielu protokołów.
Dostępne protokoły	NFS 3.0 RESZTA Usługa Data Lake Storage 2. generacji	SMB NFS 4.1 (Brak współdziałania między żadnym protokołem)	Lustre	NFS 3.0 i 4.1 SMB
Kluczowe cechy i funkcje	Zintegrowana z pamięcią podręczną HPC w przypadku obciążeń o małych opóźnieniach. Zintegrowane zarządzanie, w tym cykl życia, niezmienne obiekty blob, tryb failover danych i indeks metadanych.	Strefowo nadmiarowy w celu zapewnienia wysokiej dostępności. Spójne jednocyfrowe opóźnienie milisekundowe. Przewidywalna wydajność i koszt skalowany z pojemnością.	Wysoka pojemność magazynu do 2,5PB. Małe opóźnienie (ok. 2 ms). Uruchamianie nowych klastrów w ciągu kilku minut. Obsługuje konteneryzowane obciążenia za pomocą usługi AKS.	Bardzo małe opóźnienie (tak niskie, jak sub-ms). Zaawansowane możliwości zarządzania protokołu ONTAP usługi NetApp, takie jak SnapMirror w chmurze. Spójne środowisko chmury hybrydowej.
Wydajność (na wolumin)	Do 20 000 operacji we/wy na sekundę do 100 GiB/s przepływności.	Do 100 000 operacji we/wy na sekundę do 80 GiB/s przepływności.	Do 100 000 operacji we/wy na sekundę do 500 GiB/s przepływności.	Maksymalnie 460 000 operacji we/wy na sekundę, do 36 GiB/s przepływności.
Cennik	Cennik usługi Azure Blob Storage	Cennik usługi Azure Files	Cennik usługi Azure Managed Lustre	Cennik usługi Azure NetApp Files

Wdrażanie własnego równoległego systemu plików

Podobnie jak w przypadku systemu plików NFS, można utworzyć wielowęźleowy system plików BeeGFS lub Lustre. Wydajność takich systemów zależy w dużej mierze od wybranego typu maszyn wirtualnych. Możesz użyć obrazów znajdujących się w witrynie Azure Marketplace for BeeGFS lub implementacji Lustre przez nazwę DDN o nazwie Whamcloud. Korzystanie z obrazów innych firm od dostawców, takich jak BeeGFS lub DDN, umożliwia zakup ich pomocy technicznej. W przeciwnym razie można użyć zarówno beeGFS, jak i Lustre, korzystając z licencji GPL bez innych opłat (poza maszynami i dyskami). Te narzędzia są łatwe do wdrożenia przy użyciu skryptów HPC platformy Azure z efemerycznych dysków lokalnych (dla plików tymczasowych) lub Ssd w warstwie Premium/Ultra na potrzeby magazynu trwałego.

Cray ClusterStor

Jednym z największych wyzwań związanych z większymi obciążeniami jest replikowanie czystej wydajności "bez systemu operacyjnego" dużych klastrów obliczeniowych działających obok dużych środowisk Lustre (pod względem przepływności TB/s i ewentualnie Petabajtów magazynu). Teraz możesz uruchamiać te obciążenia za pomocą rozwiązania Azure Cray ClusterStor. Takie podejście to czyste, bez systemu operacyjnego Wdrożenie Lustre umieszczone w odpowiednim centrum danych platformy Azure. Równoległe systemy plików, takie jak BeeGFS i Lustre, zapewniają najwyższą wydajność ze względu na ich architekturę. Jednak ta architektura jest dostarczana z wysoką ceną zarządzania i dlatego wykorzystuje te technologie.

Następne kroki

W poniższych artykułach przedstawiono wskazówki dotyczące poszczególnych kroków wdrażania chmury w środowiskach produkcyjnych HPC.

Udostępnij za pośrednictwem