다음을 통해 공유


DeepSpeed 배포자를 통한 분산 학습

이 문서에서는 DeepSpeed 배포 자를 사용하여 PyTorch ML 모델에서 분산 학습을 수행하는 방법을 설명합니다.

DeepSpeed 배포자는 TorchDistributor 를 기반으로 하며 더 높은 컴퓨팅 성능이 필요하지만 메모리 제약 조건으로 제한되는 모델을 사용하는 고객에게 권장되는 솔루션입니다.

DeepSpeed 라이브러리는 Microsoft에서 개발한 오픈 소스 라이브러리이며 Databricks Runtime 14.0 ML 이상에서 사용할 수 있습니다. 최적화된 메모리 사용량, 통신 오버헤드 감소 및 표준 하드웨어에서 달성할 수 없는 모델 및 학습 프로시저의 크기 조정을 허용하는 고급 파이프라인 병렬 처리를 제공합니다.

다음은 DeepSpeed 배포자에서 유용한 예제 시나리오입니다.

  • GPU 메모리가 부족합니다.
  • 대규모 모델 학습.
  • 일괄 처리 유추 중과 같은 대용량 입력 데이터입니다.

DeepSpeed를 사용하여 분산 학습을 위한 예제 Notebook

다음 Notebook 예제에서는 DeepSpeed 배포자를 사용하여 분산 학습을 수행하는 방법을 보여 줍니다.

전자 필기장을 사용하여 Llama 2 7B 채팅 DeepspeedTorchDistributor 미세 조정

Notebook 가져오기