Подготовка данных для распределенного обучения

В этой статье описываются методы подготовки данных для распределенного обучения: Mosaic Streaming и TFRecords.

Потоковая мозаика

Mosaic Streaming — это библиотека для передачи данных с открытым исходным кодом, которая позволяет эффективно отправлять большие наборы данных из облачного хранилища. Эта библиотека отлично подходит для обработки больших наборов данных, которые не соответствуют памяти, так как она специально предназначена для многоузлового распределенного обучения больших моделей. Mosaic Streaming предлагает бесшовную интеграцию с PyTorch и экосистемой MosaicML. Следующая статья иллюстрирует этот вариант использования:

TFRecord

В качестве источника данных для распределенного глубокого обучения можно также использовать формат TFRecord. TFRecord — это простой двоичный формат, предназначенный для работы с записями, который используется многими приложениями TensorFlow для обучающих данных.

tf.data.TFRecordDataset — это набор данных TensorFlow, который содержит записи из файлов TFRecords. Дополнительные сведения о том, как использовать данные TFRecord, см. в статье Использование данных TFRecord руководства TensorFlow.

В следующих статьях описываются и иллюстрируются рекомендуемые способы сохранения данных в файлах TFRecord и загрузки файлов TFRecord: