중요합니다
이 기능은 베타 버전으로 제공됩니다. 작업 영역 관리자는 미리 보기 페이지에서 이 기능에 대한 액세스를 제어할 수 있습니다. Azure Databricks 미리 보기 관리를 참조하세요.
이 페이지에는 서버리스 GPU 컴퓨팅을 사용하는 다중 노드 및 다중 GPU 분산 학습에 대한 Notebook 예제가 있습니다. 이러한 예제에서는 성능 향상을 위해 여러 GPU 및 노드에서 학습 크기를 조정하는 방법을 보여 줍니다.
병렬 처리 기술 선택
여러 GPU에서 모델 학습의 크기를 조정하는 경우 올바른 병렬 처리 기술을 선택하는 것은 모델 크기, 사용 가능한 GPU 메모리 및 성능 요구 사항에 따라 달라집니다.
| 기술 | 사용 시기 |
|---|---|
| DDP(분산 데이터 병렬) | 전체 모델은 단일 GPU 메모리에 적합합니다. 데이터 처리량의 크기를 조정해야 합니다. |
| FSDP(완전히 분할된 데이터 병렬) | 단일 GPU 메모리에 맞지 않는 매우 큰 모델 |
| DeepSpeed ZeRO | 고급 메모리 최적화 요구 사항이 있는 대형 모델 |
각 기술에 대한 자세한 내용은 DDP, FSDP 및 DeepSpeed를 참조하세요.
기술 및 프레임워크별 Notebook 예제
다음 표에서는 사용 중인 프레임워크/라이브러리 및 적용된 병렬 처리 기술을 사용하여 예제 Notebook을 구성합니다. 여러 전자 필기장이 단일 셀에 나타날 수 있습니다.
| 프레임워크/라이브러리 | DDP 예제 | FSDP 예제 | DeepSpeed 예제 |
|---|---|---|---|
| PyTorch(네이티브) |
간단한 MLP 신경망 RetinaNet 이미지 검색 |
10M 매개 변수 변환기 | — |
| Huggingface TRL | Gpt OSS 20B 미세 조정 | Gpt OSS 120B 미세 조정 | 라마 3.2 1B 미세 조정 |
| 언슬로드 | 라마 3.2 3B 미세 조정 | — | — |
| Axolotl | Olmo3 7B 미세 조정 | — | — |
| 모자이크 LLM Foundry | 라마 3.2 8B 미세 조정 | — | — |
| 레이 트레인 | FashionMNIST의 ResNet18(컴퓨터 비전) | — | — |
| 번개 | 2 타워 추천 시스템 | — | — |
시작하기
다음 Notebook에는 서버리스 GPU Python API 를 사용하여 분산 학습을 위해 여러 A10 GPU를 시작하는 방법에 대한 기본 예제가 있습니다.