Dağıtılmış eğitim için verileri hazırlama
Bu makalede, dağıtılmış eğitim için veri hazırlama yöntemleri açıklanmaktadır: Mozaik Akış ve TFRecords.
Mozaik Akış (Önerilen)
Mozaik Akış , büyük veri kümelerinin bulut depolama alanından verimli bir şekilde akışını sağlayan bir açık kaynak veri yükleme kitaplığıdır. Bu kitaplık, büyük modellerin çok düğümlü, dağıtılmış eğitimi için özel olarak tasarlandığından belleğe sığmayan büyük veri kümelerini işleme konusunda çok başarılıdır. Mozaik Akış, PyTorch ve MozaikML ekosistemi ile sorunsuz tümleştirme sunar. Aşağıdaki makalede bu kullanım örneği gösterilmektedir:
TFRecord
Dağıtılmış derin öğrenme için veri kaynağı olarak TFRecord biçimini de kullanabilirsiniz. TFRecord biçimi, birçok TensorFlow uygulamasının eğitim verileri için kullandığı basit bir kayıt odaklı ikili biçimdir.
tf.data.TFRecordDataset , TFRecords dosyalarındaki kayıtlardan oluşan TensorFlow veri kümesidir. TFRecord verilerini kullanma hakkında daha fazla ayrıntı için TFRecord verilerini kullanma TensorFlow kılavuzuna bakın.
Aşağıdaki makalelerde verilerinizi TFRecord dosyalarına kaydetmenin ve TFRecord dosyalarını yüklemenin önerilen yolları açıklanmaktadır: