다음을 통해 공유


다중 GPU 및 다중 노드 분산 학습

중요합니다

이 기능은 베타 버전으로 제공됩니다. 작업 영역 관리자는 미리 보기 페이지에서 이 기능에 대한 액세스를 제어할 수 있습니다. Azure Databricks 미리 보기 관리를 참조하세요.

이 페이지에는 서버리스 GPU 컴퓨팅을 사용하는 다중 노드 및 다중 GPU 분산 학습에 대한 Notebook 예제가 있습니다. 이러한 예제에서는 성능 향상을 위해 여러 GPU 및 노드에서 학습 크기를 조정하는 방법을 보여 줍니다.

병렬 처리 기술 선택

여러 GPU에서 모델 학습의 크기를 조정하는 경우 올바른 병렬 처리 기술을 선택하는 것은 모델 크기, 사용 가능한 GPU 메모리 및 성능 요구 사항에 따라 달라집니다.

기술 사용 시기
DDP(분산 데이터 병렬) 전체 모델은 단일 GPU 메모리에 적합합니다. 데이터 처리량의 크기를 조정해야 합니다.
FSDP(완전히 분할된 데이터 병렬) 단일 GPU 메모리에 맞지 않는 매우 큰 모델
DeepSpeed ZeRO 고급 메모리 최적화 요구 사항이 있는 대형 모델

각 기술에 대한 자세한 내용은 DDP, FSDPDeepSpeed를 참조하세요.

기술 및 프레임워크별 Notebook 예제

다음 표에서는 사용 중인 프레임워크/라이브러리 및 적용된 병렬 처리 기술을 사용하여 예제 Notebook을 구성합니다. 여러 전자 필기장이 단일 셀에 나타날 수 있습니다.

프레임워크/라이브러리 DDP 예제 FSDP 예제 DeepSpeed 예제
PyTorch(네이티브) 간단한 MLP 신경망
RetinaNet 이미지 검색
10M 매개 변수 변환기
Huggingface TRL Gpt OSS 20B 미세 조정 Gpt OSS 120B 미세 조정 라마 3.2 1B 미세 조정
언슬로드 라마 3.2 3B 미세 조정
Axolotl Olmo3 7B 미세 조정
모자이크 LLM Foundry 라마 3.2 8B 미세 조정
레이 트레인 FashionMNIST의 ResNet18(컴퓨터 비전)
번개 2 타워 추천 시스템

시작하기

다음 Notebook에는 서버리스 GPU Python API 를 사용하여 분산 학습을 위해 여러 A10 GPU를 시작하는 방법에 대한 기본 예제가 있습니다.

서버리스 GPU API: A10 스타터

노트북 받기