Dela via


Förbereda data för distribuerad träning

Den här artikeln beskriver tre metoder för att förbereda data för distribuerad träning: Mosaic Streaming, Petastorm och TFRecords.

Mosaic Streaming är ett bibliotek för datainläsning med öppen källkod som möjliggör effektiv strömning av stora datamängder från molnlagring. Det här biblioteket utmärker sig när det gäller hantering av massiva datamängder som inte får plats i minnet, eftersom det är särskilt utformat för distribuerad träning av stora modeller med flera noder. Mosaic Streaming erbjuder sömlös integrering med PyTorch och MosaicML-ekosystemet. Följande artikel illustrerar det här användningsfallet:

Petastorm

Petastorm är ett dataåtkomstbibliotek med öppen källkod som möjliggör direkt inläsning av data som lagras i Apache Parquet-format. Detta är praktiskt för Azure Databricks- och Apache Spark-användare eftersom Parquet är det rekommenderade dataformatet. Följande artikel illustrerar det här användningsfallet:

TFRecord

Du kan också använda TFRecord-format som datakälla för distribuerad djupinlärning. TFRecord-format är ett enkelt postorienterat binärt format som många TensorFlow-program använder för träningsdata.

tf.data.TFRecordDataset är TensorFlow-datauppsättningen, som består av poster från TFRecords-filer. Mer information om hur du använder TFRecord-data finns i TensorFlow-guiden Använda TFRecord-data.

Följande artiklar beskriver och illustrerar de rekommenderade sätten att spara dina data i TFRecord-filer och läsa in TFRecord-filer: