Aracılığıyla paylaş


Azure Synapse Analytics'te GPU hızlandırmalı Apache Spark havuzları (kullanım dışı)

Azure Synapse Analytics artık grafik işleme birimleri (GPU) ile hızlandırılmış Apache Spark havuzlarını destekliyor.

Veri bilimciler ve mühendisler, NVIDIA GPU'larını kullanarak veri tümleştirme işlem hatlarını çalıştırmak, makine öğrenmesi modellerini puanlar ve daha fazlasını yapmak için gereken süreyi kısaltabilir. Bu makalede, GPU hızlandırmalı havuzların Azure Synapse Analytics ile nasıl oluşturulabileceği ve kullanılabilmesi açıklanmaktadır. Bu makalede, GPU hızlandırılmış çalışma zamanının bir parçası olarak önceden yüklenmiş GPU sürücüleri ve kitaplıkları da ayrıntılı olarak açıklanmaktadır.

Dikkat

Apache Spark 3.1 ve 3.2 için Azure Synapse Runtime'da GPU'lar için kullanımdan kaldırma ve devre dışı bırakma bildirimi

  • GPU hızlandırılmış önizlemesi artık Apache Spark 3.2 (kullanım dışı) çalışma zamanında kullanım dışı bırakılmıştır. Kullanım dışı bırakılan çalışma zamanlarında hata ve özellik düzeltmeleri olmaz. Spark 3.2'de bu çalışma zamanı ve buna karşılık gelen GPU hızlandırılmış önizlemesi 8 Temmuz 2024 itibarıyla kullanımdan kaldırılmış ve devre dışı bırakılmıştır.
  • GPU hızlandırılmış önizlemesi artık Azure Synapse 3.1 (kullanım dışı) çalışma zamanında kullanım dışı bırakılmıştır. Apache Spark 3.1 için Azure Synapse Runtime, 26 Ocak 2023 itibarıyla destek sonuna ulaşmıştır ve resmi destek 26 Ocak 2024'e kadar sona ermiştir ve bu tarihten sonra destek biletleri, hata düzeltmeleri veya güvenlik güncelleştirmeleri ile ilgili daha fazla adresleme yapılmamıştır.

Not

Azure Synapse GPU özellikli önizleme artık kullanım dışı bırakıldı.

GPU hızlandırmalı havuz oluşturma

Azure Synapse, havuz oluşturma ve yönetme sürecini basitleştirmek için düşük düzeyli kitaplıkları önceden yükleme ve işlem düğümleri arasında tüm karmaşık ağ gereksinimlerini ayarlama işlemlerini üstlenir. Bu tümleştirme, kullanıcıların yalnızca birkaç dakika içinde GPU hızlandırılmış havuzları kullanmaya başlamasını sağlar.

Not

  • GPU hızlandırmalı havuzlar Doğu ABD, Doğu Avustralya ve Kuzey Avrupa'da bulunan çalışma alanlarında oluşturulabilir.
  • GPU hızlandırmalı havuzlar yalnızca Apache Spark 3 çalışma zamanıyla kullanılabilir.

GPU hızlandırmalı çalışma zamanı

NVIDIA GPU sürücüsü, CUDA ve cuDNN

Azure Synapse Analytics artık çeşitli NVIDIA kitaplıklarını ve yapılandırmalarını içeren GPU hızlandırmalı Apache Spark havuzları sunuyor. Varsayılan olarak Azure Synapse Analytics, Spark sürücüsünde ve çalışan örneklerinde GPU'ları kullanmak için gereken NVIDIA sürücüsünü ve kitaplıklarını yükler:

  • CUDA 11.2
  • libnccl2=2.8.4
  • libnccl-dev=2.8.4
  • libcudnn8=8.1.1
  • libcudnn8-dev=8.1.1

Not

Bu yazılım, NVIDIA Corporation tarafından sağlanan kaynak kodunu içerir. Özellikle, GPU hızlandırmalı havuzları desteklemek için Azure Synapse Apache Spark havuzları CUDA Örneklerinden kod içerir.

NVIDIA Son Kullanıcı Lisans Sözleşmesi (EULA)

Synapse Spark'ta GPU hızlandırmalı bir Donanım seçeneğini belirlediğinizde, NVIDIA EULA'da belirtilen hüküm ve koşulları aşağıdakilerle ilgili olarak örtük olarak kabul etmiş olursunuz:

ETL iş yüklerini hızlandırma

NVIDIA'nın Apache Spark için RAPIDS Hızlandırıcısı'na yönelik yerleşik destek sayesinde Azure Synapse'teki GPU hızlandırılmış Spark havuzları, kod değişikliği gerektirmeden standart analitik karşılaştırmalara kıyasla önemli performans iyileştirmeleri sağlayabilir. Bu paket NVIDIA CUDA ve UCX'in üzerine kurulmuştur ve GPU hızlandırmalı SQL, DataFrame işlemleri ve Spark karıştırmalarını etkinleştirir. Bu hızlandırmalardan yararlanmak için kod değişikliği gerekmediğinden, kullanıcılar Linux Foundation'ın Delta Lake'ine veya Microsoft'un Hiper Alan dizinine dayanan veri işlem hatlarını da hızlandırabilir.

NVIDIA RAPIDS Hızlandırıcısını Azure Synapse Analytics'teki GPU hızlandırılmış havuzunuzla nasıl kullanabileceğiniz hakkında daha fazla bilgi edinmek için RAPIDS ile performansı iyileştirme hakkında bu kılavuzu ziyaret edin.

Derin öğrenme modellerini eğitin

Derin öğrenme modelleri genellikle veri ve hesaplama yoğunluklu bir modeldir. Bu nedenle kuruluşlar genellikle GPU özellikli kümelerle eğitim sürecini hızlandırır. Azure Synapse Analytics'te kuruluşlar Tensorflow ve PyTorch gibi çerçeveleri kullanarak modeller oluşturabilir. Daha sonra kullanıcılar Horovod ve Petastorm ile derin öğrenme modellerinin ölçeğini artırabilir.

Dağıtılmış derin öğrenme modellerini nasıl eğitebileceğiniz hakkında daha fazla bilgi edinmek için şu kılavuzları ziyaret edin: - Öğretici: Horovod ve Tensorflow - ile dağıtılmış eğitim Öğreticisi: Horovod ve PyTorch ile dağıtılmış eğitim

Makine öğrenmesi puanlama iş yüklerini geliştirme

Birçok kuruluş, dar zaman aralıkları sırasında sık sık yürütmek için büyük toplu puanlama işlerini kullanır. İyileştirilmiş toplu puanlama işleri elde etmek için Microsoft'un Hummingbird kitaplığıyla GPU hızlandırılmış Spark havuzlarını da kullanabilirsiniz. Sinekkuşu ile kullanıcılar geleneksel, ağaç tabanlı ML modellerini alabilir ve bunları tensor hesaplamalarında derleyebilir. Sinekkuşu, kullanıcıların daha sonra modellerini yeniden yazmaya gerek kalmadan ML modeli puanlamalarını hızlandırmak için yerel donanım hızlandırma ve sinir ağı çerçevelerinden sorunsuz bir şekilde yararlanmasını sağlar.

Sonraki adımlar