DeepSpeed 배포자를 통한 분산 학습
이 문서에서는 DeepSpeed 배포 자를 사용하여 PyTorch ML 모델에서 분산 학습을 수행하는 방법을 설명합니다.
DeepSpeed 배포자는 TorchDistributor 를 기반으로 하며 더 높은 컴퓨팅 성능이 필요하지만 메모리 제약 조건으로 제한되는 모델을 사용하는 고객에게 권장되는 솔루션입니다.
DeepSpeed 라이브러리는 Microsoft에서 개발한 오픈 소스 라이브러리이며 Databricks Runtime 14.0 ML 이상에서 사용할 수 있습니다. 최적화된 메모리 사용량, 통신 오버헤드 감소 및 표준 하드웨어에서 달성할 수 없는 모델 및 학습 프로시저의 크기 조정을 허용하는 고급 파이프라인 병렬 처리를 제공합니다.
다음은 DeepSpeed 배포자에서 유용한 예제 시나리오입니다.
- GPU 메모리가 부족합니다.
- 대규모 모델 학습.
- 일괄 처리 유추 중과 같은 대용량 입력 데이터입니다.
DeepSpeed를 사용하여 분산 학습을 위한 예제 Notebook
다음 Notebook 예제에서는 DeepSpeed 배포자를 사용하여 분산 학습을 수행하는 방법을 보여 줍니다.