Computação habilitada para GPU

Artigo
03/20/2024

Nota

Alguns tipos de instância habilitados para GPU estão em Beta e são marcados como tal na lista suspensa quando você seleciona os tipos de driver e trabalho durante a criação da computação.

Descrição geral

O Azure Databricks dá suporte à computação acelerada com unidades de processamento gráfico (GPUs). Este artigo descreve como criar computação com instâncias habilitadas para GPU e descreve os drivers e bibliotecas de GPU instalados nessas instâncias.

Para saber mais sobre o deep learning em computação habilitada para GPU, consulte Deep learning.

Criar uma computação de GPU

Criar uma computação GPU é semelhante a criar qualquer computação. Você deve ter em mente o seguinte:

A versão de tempo de execução do Databricks deve ser uma versão habilitada para GPU, como Runtime 13.3 LTS ML (GPU, Scala 2.12.15, Spark 3.4.1).
O Tipo de Trabalho e o Tipo de Driver devem ser tipos de instância de GPU.

Tipos de instância suportados

O Azure Databricks dá suporte aos seguintes tipos de instância:

Série de tipos de instância NC: Standard_NC12, Standard_NC24
Série de tipos de instância NC v3: Standard_NC6s_v3, Standard_NC12s_v3 Standard_NC24s_v3
Série de tipos de instância NC T4 v3: Standard_NC4as_T4_v3, Standard_NC8as_T4_v3, Standard_NC16as_T4_v3 Standard_NC64as_T4_v3
Série de tipos de instância NC A100 v4: Standard_NC24ads_A100_v4, Standard_NC48ads_A100_v4 Standard_NC96ads_A100_v4
Série de tipos de instância ND A100 v4: Standard_ND96asr_v4
Série de tipos de instância NV A10 v5: Standard_NV36ads_A10_v5, Standard_NV36adms_A10_v5 Standard_NV72ads_A10_v5
- Standard_NV72ads_A10_v5 não é compatível com o PyTorch 2.0+ e gera um erro CUDA ao executar cargas de trabalho multi-GPU. Como o Databricks Runtime ML 14.0 e superior pré-instala o PyTorch 2.0+, sugerimos usar o Databricks Runtime ML 13.x ou executar pip install torch==1.13.1 manualmente se você estiver executando o PyTorch em cargas de trabalho com várias GPUs.

Consulte Preços do Azure Databricks para obter uma lista atualizada dos tipos de instância de GPU suportados e suas regiões de disponibilidade. Sua implantação do Azure Databricks deve residir em uma região com suporte para iniciar a computação habilitada para GPU.

Agendamento de GPU

O Databricks Runtime suporta agendamento com reconhecimento de GPU a partir do Apache Spark 3.0. O Azure Databricks pré-configura na computação da GPU.

O agendamento de GPU não está habilitado na computação de nó único.

spark.task.resource.gpu.amount é a única configuração do Spark relacionada ao agendamento com reconhecimento de GPU que talvez seja necessário alterar. A configuração padrão usa uma GPU por tarefa, o que é ideal para cargas de trabalho de inferência distribuída e treinamento distribuído, se você usar todos os nós da GPU. Para fazer treinamento distribuído em um subconjunto de nós, o que ajuda a reduzir a sobrecarga de comunicação durante o treinamento distribuído, o Databricks recomenda definir spark.task.resource.gpu.amount o número de GPUs por nó de trabalho na configuração do Spark de computação.

Para tarefas do PySpark, o Azure Databricks remapeia automaticamente a(s) GPU(s) atribuída(s) para os índices 0, 1, .... Na configuração padrão que usa uma GPU por tarefa, seu código pode simplesmente usar a GPU padrão sem verificar qual GPU está atribuída à tarefa. Se você definir várias GPUs por tarefa, por exemplo 4, seu código pode assumir que os índices das GPUs atribuídas são sempre 0, 1, 2 e 3. Se você precisar dos índices físicos das GPUs atribuídas, poderá obtê-los da CUDA_VISIBLE_DEVICES variável de ambiente.

Se você usar o Scala, poderá obter os índices das GPUs atribuídas à tarefa em TaskContext.resources().get("gpu").

Para versões do Databricks Runtime abaixo da 7.0, para evitar conflitos entre várias tarefas do Spark que tentam usar a mesma GPU, o Azure Databricks configura automaticamente a computação da GPU para que haja no máximo uma tarefa em execução por nó. Dessa forma, a tarefa pode usar todas as GPUs no nó sem entrar em conflitos com outras tarefas.

Driver de GPU NVIDIA, CUDA e cuDNN

O Azure Databricks instala o driver NVIDIA e as bibliotecas necessárias para usar GPUs em instâncias de trabalho e driver do Spark:

CUDA Toolkit, instalado em /usr/local/cuda.
cuDNN: Biblioteca de Redes Neurais Profundas NVIDIA CUDA.
NCCL: Biblioteca de Comunicações Coletivas NVIDIA.

A versão do driver NVIDIA incluído é 535.54.03, que suporta CUDA 11.0. Para a série de tipos de instância NV A10 v5, a versão do driver NVIDIA incluída é 525.105.17.

Para obter as versões das bibliotecas incluídas, consulte as notas de versão da versão específica do Databricks Runtime que você está usando.

Nota

Este software contém o código fonte fornecido pela NVIDIA Corporation. Especificamente, para dar suporte a GPUs, o Azure Databricks inclui código de Exemplos CUDA.

Contrato de Licença de Usuário Final (EULA) da NVIDIA

Ao selecionar uma "Versão de Tempo de Execução do Databricks" habilitada para GPU no Azure Databricks, você concorda implicitamente com os termos e condições descritos no EULA da NVIDIA em relação às bibliotecas CUDA, cuDNN e Tesla e com o Contrato de Licença de Usuário Final da NVIDIA (com Suplemento NCCL) para a biblioteca NCCL.

Serviços de contêiner Databricks na computação de GPU

Importante

Esta funcionalidade está em Pré-visualização Pública.

Você pode usar o Databricks Container Services na computação com GPUs para criar ambientes portáteis de aprendizado profundo com bibliotecas personalizadas. Consulte Personalizar contêineres com o Databricks Container Service para obter instruções.

Para criar imagens personalizadas para computação de GPU, você deve selecionar uma versão de tempo de execução padrão em vez de Databricks Runtime ML para GPU. Ao selecionar Usar seu próprio contêiner do Docker, você pode escolher computação de GPU com uma versão de tempo de execução padrão. As imagens personalizadas para GPU são baseadas nos contêineres CUDA oficiais, que é diferente do Databricks Runtime ML para GPU.

Quando você cria imagens personalizadas para computação de GPU, não é possível alterar a versão do driver NVIDIA, porque ela deve corresponder à versão do driver na máquina host.

O databricksruntimeDocker Hub contém imagens base de exemplo com capacidade de GPU. Os Dockerfiles usados para gerar essas imagens estão localizados no repositório GitHub de contêineres de exemplo, que também tem detalhes sobre o que as imagens de exemplo fornecem e como personalizá-las.