GPU özellikli işlem

2025-03-11

Not

Gpu özellikli bazı örnek türleri Beta'ndedir ve işlem oluşturma sırasında sürücü ve çalışan türlerini seçtiğinizde açılan listede bu şekilde işaretlenir.

Genel bakış

Azure Databricks, grafik işleme birimleri (GPU) ile işlem hızlandırmayı destekler. Bu makalede GPU özellikli örneklerle işlem oluşturma ve bu örneklerde yüklü GPU sürücüleri ve kitaplıkları açıklanmaktadır.

GPU özellikli işlemde derin öğrenme hakkında daha fazla bilgi edinmek için bkz . Derin öğrenme.

GPU işlem oluşturma

GPU işlemi oluşturmak, herhangi bir işlem oluşturmaya benzer. Aşağıdakileri aklınızda bulundurmanız gerekir:

Databricks Runtime Sürümü, Çalışma Zamanı 13.3 LTS ML (GPU, Scala 2.12.15, Spark 3.4.1) gibi GPU özellikli bir sürüm olmalıdır.
Çalışan Türü ve Sürücü Türü GPU örneği türleri olmalıdır.

Desteklenen örnek türleri

Uyarı

Azure Databricks, Azure'ın Nc24rs'yi 31 Mart 2025'te ve NC6s_v3, NC12s_v3 ve NC24s_v3'yi 30 Eylül 2025'te kullanımdan kaldırmasından dolayı artık NC v3 örnek türü serisi kullanılarak hesaplama birimlerini oluşturmayı desteklemeyecektir.

Azure Databricks aşağıdaki örnek türlerini destekler:

NCads_H100_v5

GPU Türü: NVIDIA H100 NVL GPU

Örnek Adı	GPU sayısı	GPU Belleği	vCPU'ler	CPU Belleği
Standard_NC40ads_H100_v5	1	94 GB	40	320 GB
Standard_NC80adis_H100_v5	2	94 GB x 2	80	640 GB

NC_A100_v4

GPU Türü: NVIDIA A100 PCIe GPU

Örnek Adı	GPU sayısı	GPU Belleği	vCPU'lar	CPU Belleği
Standard_NC24ads_A100_v4	1	80 GB	24	220 GB
Standard_NC48ads_A100_v4	1	80 GB x 2	48	440 GB
Standard_NC96ads_A100_v4	1	80 GB x 4	96	880 GB

NDasrA100_v4

GPU Türü: NVIDIA Ampere A100 40 GB Tensor Core GPU

Örnek Adı	GPU sayısı	GPU Belleği	vCPU'lar	CPU Belleği
Standard_ND96asr_v4	8	40 GB x 8	96	900 GB

NVadsA10_v5

GPU Türü: NVIDIA A10 GPU

Örnek Adı	GPU sayısı	GPU Belleği	vCPU'lar	CPU Belleği
Standard_NV36ads_A10_v5	1	24 GB	36	440 GB
Standard_NV36adms_A10_v5	1	24 GB	36	880 GB
Standard_NV72ads_A10_v5	2	24 GB x 2	72	880 GB

NCasT4_v3

GPU Türü: NVIDIA T4 GPU

Örnek Adı	GPU sayısı	GPU Belleği	vCPU'lar	CPU Belleği
Standard_NC4as_T4_v3	1	16 GB	4	28 GB
Standard_NC8as_T4_v3	1	16 GB	8	56 GB
Standard_NC16as_T4_v3	1	16 GB	16	110 GB
Standard_NC64as_T4_v3	4	16 GB x 4	64	440 GB

NC_v3

GPU Türü: NVIDIA Tesla V100 GPU

Örnek Adı	GPU sayısı	GPU Belleği	vCPU'lar	CPU Belleği
Standard_NC6s_v3	1	16 GB	6	112 GB
Standard_NC12s_v3	2	16 GB x 2	12	224 GB
Standard_NC24s_v3	4	16 GB x 4	24	448 GB
Standard_NC24rs_v3	4	16 GB x 4	24	448 GB

Desteklenen GPU örneği türlerinin ve bunların kullanılabilirlik bölgelerinin up-totarih listesi için bkz. Azure Databricks Fiyatlandırma . GPU özellikli işlemi başlatmak için Azure Databricks dağıtımınızın desteklenen bir bölgede bulunması gerekir.

GPU zamanlaması

GPU zamanlaması, Spark görevlerini çok sayıda GPU arasında verimli bir şekilde dağıtır.

Databricks Runtime, Apache Spark 3.0'dan GPU kullanan zamanlamayı destekler. Azure Databricks bunu GPU işlemde önceden yapılandırıyor.

Not

GPU zamanlaması tek düğümlü işlemde etkin değildir.

AI ve ML için GPU zamanlaması

spark.task.resource.gpu.amount , yapılandırmanız gerekebilecek GPU kullanan zamanlamayla ilgili tek Spark yapılandırmasıdır. Varsayılan yapılandırma, tüm GPU düğümlerini kullanıyorsanız dağıtılmış çıkarım iş yükleri ve dağıtılmış eğitim için iyi bir temel olan görev başına bir GPU kullanır.

Dağıtılmış eğitim sırasında iletişim yükünü azaltmak için Databricks, spark.task.resource.gpu.amount'yı işlem Spark yapılandırmasında çalışan düğüm başına GPU sayısına ayarlamanızı önerir. Bu, her Spark çalışanı için yalnızca bir Spark görevi oluşturur ve bu çalışan düğümündeki tüm GPU'ları aynı göreve atar.

Dağıtılmış derin öğrenme çıkarımı için paralelleştirmeyi artırmak için, spark.task.resource.gpu.amount 1/2, 1/3, 1/4, ... gibi kesirli değerlere ayarlayabilirsiniz. 1/N. Bu, GPU'lardan daha fazla Spark görevi oluşturur ve çıkarım isteklerini paralel olarak işlemek için daha fazla eşzamanlı görev sağlar. Örneğin, spark.task.resource.gpu.amount0.5, 0.33veya 0.25olarak ayarlarsanız, kullanılabilir GPU'lar görev sayısı iki, üç veya dörte bölünür.

GPU dizinleri

Azure Databricks, PySpark görevleri için atanan GPU'ları otomatik olarak sıfır tabanlı dizinlerle yeniden eşler. Görev başına bir GPU kullanan varsayılan yapılandırma için, göreve hangi GPU'nun atandığını denetlemeden varsayılan GPU'yı kullanabilirsiniz. Görev başına birden çok GPU ayarlarsanız (örneğin, 4), atanan GPU'ların dizinleri her zaman 0, 1, 2 ve 3'tür. Atanan GPU'ların fiziksel dizinlerine ihtiyacınız varsa bunları CUDA_VISIBLE_DEVICES ortam değişkeninden alabilirsiniz.

Scala kullanıyorsanız, göreve atanan GPU'ların dizinlerini TaskContext.resources().get("gpu")'dan alabilirsiniz.

NVIDIA GPU sürücüsü, CUDA ve cuDNN

Azure Databricks, Spark sürücüsünde ve çalışan örneklerinde GPU'ları kullanmak için gereken NVIDIA sürücüsünü ve kitaplıklarını yükler:

CUDA Araç Seti, altında /usr/local/cudayüklüdür.
cuDNN: NVIDIA CUDA Derin Sinir Ağı Kitaplığı.
NCCL: NVIDIA Kolektif İletişim Kitaplığı.

Dahil edilen NVIDIA sürücüsünün sürümü CUDA 11.0'ı destekleyen 535.54.03 sürümüdür. NV A10 v5 örnek türü serisi için, dahil edilen NVIDIA sürücüsünün sürümü şudur535.154.05.

Dahil edilen kitaplıkların sürümleri için, kullandığınız belirli Databricks Runtime sürümünün sürüm notlarına bakın.

Not

Bu yazılım, NVIDIA Corporation tarafından sağlanan kaynak kodunu içerir. Özellikle GPU'ları desteklemek için Azure Databricks CUDA Örneklerinden kod içerir.

NVIDIA Son Kullanıcı Lisans Sözleşmesi (EULA)

Azure Databricks'te GPU özellikli bir "Databricks Çalışma Zamanı Sürümü" seçtiğinizde CUDA, cuDNN ve Tesla kitaplıkları ve NCCL kitaplığı için NVIDIA Son Kullanıcı Lisans Sözleşmesi (NCCL Eki ile) ile ilgili olarak NVIDIA EULA'da belirtilen hüküm ve koşulları örtük olarak kabul etmiş olursunuz.

GPU hesaplama üzerinde Databricks Container Services

Önemli

Bu özellik Genel Önizlemededir.

Özelleştirilmiş kitaplıklarla taşınabilir derin öğrenme ortamları oluşturmak için GPU'larla işlem üzerinde Databricks Container Services'i kullanabilirsiniz. Yönergeler için Databricks Container Service ile kapsayıcıları özelleştirme bölümüne bakın.

GPU işlem için özel görüntüler oluşturmak için GPU için Databricks Runtime ML yerine standart bir çalışma zamanı sürümü seçmeniz gerekir. Kendi Docker kapsayıcınızı kullanseçeneğini belirlediğinizde, standart bir çalışma zamanı sürümüyle GPU hesaplamasını seçebilirsiniz. GPU için özel görüntüler, GPU için Databricks Runtime ML'den farklı olan resmi CUDA kapsayıcılarını temel alır.

GPU işlemi için özel görüntüler oluşturduğunuzda, ana makinedeki sürücü sürümüyle eşleşmesi gerektiğinden NVIDIA sürücü sürümünü değiştiremezsiniz.

databricksruntime Docker Hub, GPU özelliğine sahip örnek temel görüntüler içerir. Bu görüntüleri oluşturmak için kullanılan Dockerfile'lar örnek kapsayıcılar GitHub deposuiçinde bulunur ve örnek görüntülerin sağladığı ve bunların nasıl özelleştirileceğine ilişkin ayrıntılar da bulunur.