Distribuerad utbildning med DeepSpeed-distributör

Artikel
03/01/2024

Den här artikeln beskriver hur du utför distribuerad träning på PyTorch ML-modeller med hjälp av DeepSpeed-distributören .

DeepSpeed-distributören bygger på TorchDistributor och är en rekommenderad lösning för kunder med modeller som kräver högre beräkningskraft, men som begränsas av minnesbegränsningar.

DeepSpeed-biblioteket är ett bibliotek med öppen källkod som utvecklats av Microsoft och är tillgängligt i Databricks Runtime 14.0 ML eller senare. Den erbjuder optimerad minnesanvändning, minskad kommunikationsbelastning och avancerad pipelineparallellitet som möjliggör skalning av modeller och träningsprocedurer som annars skulle vara ouppnåeliga på standardmaskinvara.

Följande är exempelscenarier där DeepSpeed-distributören är fördelaktig:

Lågt GPU-minne.
Stor modellträning.
Stora indata, till exempel vid batchinferens.

Exempel på notebook-fil för distribuerad träning med DeepSpeed

Följande notebook-exempel visar hur du utför distribuerad träning med DeepSpeed-distributören.

Finjustera Llama 2 7B Chatta med `DeepspeedTorchDistributor` notebook-fil

Hämta notebook-fil

Dela via

Distribuerad utbildning med DeepSpeed-distributör

Exempel på notebook-fil för distribuerad träning med DeepSpeed

Finjustera Llama 2 7B Chatta med `DeepspeedTorchDistributor` notebook-fil

Feedback

Ytterligare resurser

Dela via

Distribuerad utbildning med DeepSpeed-distributör

Exempel på notebook-fil för distribuerad träning med DeepSpeed

Finjustera Llama 2 7B Chatta med DeepspeedTorchDistributor notebook-fil

Feedback

Ytterligare resurser

Finjustera Llama 2 7B Chatta med `DeepspeedTorchDistributor` notebook-fil