Udostępnij za pośrednictwem


Pule platformy Apache Spark przyspieszone za pomocą procesora GPU w usłudze Azure Synapse Analytics (przestarzałe)

Usługa Azure Synapse Analytics obsługuje teraz pule platformy Apache Spark przyspieszone za pomocą procesorów graficznych (GPU).

Korzystając z procesorów GPU firmy NVIDIA, analitycy danych i inżynierowie mogą skrócić czas potrzebny do uruchamiania potoków integracji danych, oceniania modeli uczenia maszynowego i nie tylko. W tym artykule opisano sposób tworzenia i użycia pul przyspieszonych przez procesor GPU w usłudze Azure Synapse Analytics. W tym artykule opisano również sterowniki i biblioteki procesora GPU, które są wstępnie zainstalowane w ramach środowiska uruchomieniowego przyspieszonego przez procesor GPU.

Uwaga

Wersja zapoznawcza z obsługą procesora GPU usługi Azure Synapse została przestarzała.

Tworzenie puli przyspieszonej przez procesor GPU

Aby uprościć proces tworzenia pul i zarządzania nimi, usługa Azure Synapse zajmuje się wstępnie instalowaniem bibliotek niskiego poziomu i konfigurowaniem wszystkich złożonych wymagań sieciowych między węzłami obliczeniowymi. Ta integracja umożliwia użytkownikom rozpoczęcie pracy z procesorem GPU — przyspieszone pule w ciągu zaledwie kilku minut.

Uwaga

  • Pule przyspieszone przez procesor GPU można tworzyć w obszarach roboczych znajdujących się w regionach Wschodnie stany USA, Australia Wschodnia i Europa Północna.
  • Pule przyspieszone przez procesor GPU są dostępne tylko w środowisku uruchomieniowym platformy Apache Spark 3.

Środowisko uruchomieniowe przyspieszane przez procesor GPU

Sterownik GPU NVIDIA, CUDA i cuDNN

Usługa Azure Synapse Analytics oferuje teraz przyspieszone przez procesor GPU pule platformy Apache Spark, które obejmują różne biblioteki i konfiguracje firmy NVIDIA. Domyślnie usługa Azure Synapse Analytics instaluje sterownik i biblioteki NVIDIA wymagane do używania procesorów GPU w wystąpieniach sterowników platformy Spark i procesów roboczych:

  • CUDA 11.2
  • libnccl2=2.8.4
  • libnccl-dev=2.8.4
  • libcudnn8=8.1.1
  • libcudnn8-dev=8.1.1

Uwaga

To oprogramowanie zawiera kod źródłowy dostarczony przez firmę NVIDIA Corporation. W szczególności w celu obsługi pul przyspieszonych przez procesor GPU pule platformy Apache Spark usługi Azure Synapse zawierają kod z przykładów CUDA.

Umowa licencyjna użytkownika oprogramowania NVIDIA (EULA)

Po wybraniu opcji sprzętu przyspieszonego przez procesor GPU w usłudze Synapse Spark niejawnie wyrażasz zgodę na warunki i postanowienia opisane w umowach LICENCYJNYCH FIRMY NVIDIA w odniesieniu do:

Przyspieszanie obciążeń ETL

Dzięki wbudowanej obsłudze akceleratora RAPIDS firmy NVIDIA dla platformy Apache Spark przyspieszone pule platformy Spark z procesorem GPU w usłudze Azure Synapse mogą zapewnić znaczne ulepszenia wydajności w porównaniu ze standardowymi testami porównawczymi analitycznymi bez konieczności wprowadzania żadnych zmian w kodzie. Ten pakiet jest oparty na procesorach NVIDIA CUDA i UCX oraz umożliwia przyspieszone procesory GPU operacje SQL, ramki danych i przetasowania platformy Spark. Ponieważ nie ma żadnych zmian w kodzie wymaganych do wykorzystania tych przyspieszań, użytkownicy mogą również przyspieszyć potoki danych, które opierają się na usłudze Delta Lake lub indeksowaniu funkcji Hyperspace firmy Microsoft w programie Linux Foundation.

Aby dowiedzieć się więcej o sposobie korzystania z akceleratora NVIDIA RAPIDS z przyspieszoną pulą procesora GPU w usłudze Azure Synapse Analytics, odwiedź ten przewodnik, aby dowiedzieć się, jak poprawić wydajność za pomocą rozwiązania RAPIDS.

Trenowanie modeli uczenia głębokiego

Modele uczenia głębokiego często intensywnie korzystają z danych i obliczeń. W związku z tym organizacje często przyspieszają proces trenowania za pomocą klastrów z obsługą procesora GPU. W usłudze Azure Synapse Analytics organizacje mogą tworzyć modele przy użyciu struktur, takich jak TensorFlow i PyTorch. Następnie użytkownicy mogą skalować swoje modele uczenia głębokiego w górę za pomocą platform Horovod i Petastorm.

Aby dowiedzieć się więcej na temat trenowania rozproszonych modeli uczenia głębokiego, odwiedź następujące przewodniki: Samouczek : trenowanie rozproszone przy użyciu platform Horovod i TensorFlow - Samouczek: trenowanie rozproszone przy użyciu platform Horovod i PyTorch

Ulepszanie obciążeń oceniania uczenia maszynowego

Wiele organizacji polega na dużych zadaniach oceniania wsadowego do częstego wykonywania w wąskich oknach czasu. Aby uzyskać ulepszone zadania oceniania wsadowego, można również użyć pul spark przyspieszanych przez procesor GPU z biblioteką Hummingbird firmy Microsoft. Dzięki programowi Hummingbird użytkownicy mogą korzystać z tradycyjnych modeli uczenia maszynowego opartego na drzewie i kompilować je w obliczeniach tensorowych. Hummingbird umożliwia użytkownikom bezproblemowe wykorzystanie natywnego przyspieszania sprzętowego i struktur sieci neuronowych w celu przyspieszenia oceniania modelu uczenia maszynowego bez konieczności ponownego zapisywania modeli.

Następne kroki