Förbereda data för distribuerad träning

2024-09-27

I den här artikeln beskrivs metoderna för att förbereda data för distribuerad träning: Mosaic Streaming och TFRecords.

Mosaikströmning (rekommenderas)

Mosaic Streaming är ett bibliotek för datainläsning med öppen källkod som möjliggör effektiv strömning av stora datamängder från molnlagring. Det här biblioteket utmärker sig när det gäller hantering av massiva datamängder som inte får plats i minnet, eftersom det är särskilt utformat för distribuerad träning av stora modeller med flera noder. Mosaic Streaming erbjuder sömlös integrering med PyTorch och MosaicML-ekosystemet. Följande artikel illustrerar det här användningsfallet:

Läsa in data med Mosaic Streaming

TFRecord

Du kan också använda TFRecord-format som datakälla för distribuerad djupinlärning. TFRecord-format är ett enkelt postorienterat binärt format som många TensorFlow-program använder för träningsdata.

tf.data.TFRecordDataset är TensorFlow-datauppsättningen, som består av poster från TFRecords-filer. Mer information om hur du använder TFRecord-data finns i TensorFlow-guiden Använda TFRecord-data.

Följande artiklar beskriver och illustrerar de rekommenderade sätten att spara dina data i TFRecord-filer och läsa in TFRecord-filer:

Spara Apache Spark DataFrames som TFRecord-filer

Dela via

Förbereda data för distribuerad träning

Mosaikströmning (rekommenderas)

TFRecord

Feedback

Ytterligare resurser