다중 GPU 및 다중 노드 분산 학습

중요합니다

이 기능은 베타 버전으로 제공됩니다. 작업 영역 관리자는 미리 보기 페이지에서 이 기능에 대한 액세스를 제어할 수 있습니다. Azure Databricks 미리 보기 관리를 참조하세요.

이 페이지에는 서버리스 GPU 컴퓨팅을 사용하는 다중 노드 및 다중 GPU 분산 학습에 대한 Notebook 예제가 있습니다. 이러한 예제에서는 성능 향상을 위해 여러 GPU 및 노드에서 학습 크기를 조정하는 방법을 보여 줍니다.

병렬 처리 기술 선택

여러 GPU에서 모델 학습의 크기를 조정하는 경우 올바른 병렬 처리 기술을 선택하는 것은 모델 크기, 사용 가능한 GPU 메모리 및 성능 요구 사항에 따라 달라집니다.

기술	사용 시기
DDP(분산 데이터 병렬)	전체 모델은 단일 GPU 메모리에 적합합니다. 데이터 처리량의 크기를 조정해야 합니다.
FSDP(완전히 분할된 데이터 병렬)	단일 GPU 메모리에 맞지 않는 매우 큰 모델
DeepSpeed ZeRO	고급 메모리 최적화 요구 사항이 있는 대형 모델

각 기술에 대한 자세한 내용은 DDP, FSDP 및 DeepSpeed를 참조하세요.

다음 표에서는 사용 중인 프레임워크/라이브러리 및 적용된 병렬 처리 기술을 사용하여 예제 Notebook을 구성합니다. 여러 전자 필기장이 단일 셀에 나타날 수 있습니다.

프레임워크/라이브러리	DDP 예제	FSDP 예제	DeepSpeed 예제
PyTorch(네이티브)	간단한 MLP 신경망 RetinaNet 이미지 검색	10M 매개 변수 변환기	—
Huggingface TRL	Gpt OSS 20B 미세 조정	Gpt OSS 120B 미세 조정	라마 3.2 1B 미세 조정
언슬로드	라마 3.2 3B 미세 조정	—	—
Axolotl	Olmo3 7B 미세 조정	—	—
모자이크 LLM Foundry	라마 3.2 8B 미세 조정	—	—
레이 트레인	FashionMNIST의 ResNet18(컴퓨터 비전)	—	—
번개	2 타워 추천 시스템	—	—

다음 Notebook에는 서버리스 GPU Python API 를 사용하여 분산 학습을 위해 여러 A10 GPU를 시작하는 방법에 대한 기본 예제가 있습니다.

이 페이지가 도움이 되었나요?