Подготовка данных для распределенного обучения

В этой статье описываются методы подготовки данных для распределенного обучения: Mosaic Streaming и TFRecords.

Потоковая мозаика

Mosaic Streaming — это библиотека для передачи данных с открытым исходным кодом, которая позволяет эффективно отправлять большие наборы данных из облачного хранилища. Эта библиотека отлично подходит для обработки больших наборов данных, которые не соответствуют памяти, так как она специально предназначена для многоузлового распределенного обучения больших моделей. Mosaic Streaming предлагает бесшовную интеграцию с PyTorch и экосистемой MosaicML. Следующая статья иллюстрирует этот вариант использования:

Загрузка данных с помощью Mosaic Streaming

TFRecord

В качестве источника данных для распределенного глубокого обучения можно также использовать формат TFRecord. TFRecord — это простой двоичный формат, предназначенный для работы с записями, который используется многими приложениями TensorFlow для обучающих данных.

tf.data.TFRecordDataset — это набор данных TensorFlow, который содержит записи из файлов TFRecords. Дополнительные сведения о том, как использовать данные TFRecord, см. в статье Использование данных TFRecord руководства TensorFlow.

В следующих статьях описываются и иллюстрируются рекомендуемые способы сохранения данных в файлах TFRecord и загрузки файлов TFRecord:

Сохранение кадров данных Apache Spark в виде файлов TFRecord

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2026-05-14

Подготовка данных для распределенного обучения

Потоковая мозаика

TFRecord

Обратная связь

Дополнительные ресурсы