分散トレーニング用にデータを準備する
この記事では、分散型トレーニング用のデータを準備するための方法である Mosaic ストリーミングおよび TFRecords について説明します。
Mosaic ストリーミング (推奨)
Mosaic ストリーミングは、クラウド ストレージからの大規模なデータセットの効率的なストリーミングを有効にするライブラリを読み込むオープンソース データです。 このライブラリは、大規模モデルのマルチノードの分散トレーニング用に特別に設計されているため、メモリに適合しない膨大なデータセットの処理に優れています。 Mosaic ストリーミングは PyTorch や MosaicML エコシステムとシームレスに統合できます。 次の記事では、このユース ケースを示しています。
TFRecord
また、分散ディープ ラーニングのデータ ソースとして、TFRecord 形式を使用することもできます。 TFRecord 形式は、多くの TensorFlow アプリケーションでデータのトレーニングに使用される、単純なレコード指向のバイナリ形式です。
tf.data.TFRecordDataset は、TFRecords ファイルのレコードで構成される TensorFlow データセットです。 TFRecord データの使用方法の詳細については、TensorFlow ガイドの TFRecord データの消費のセクションを参照してください。
次の記事では、データを TFRecord ファイルに保存し、TFRecord ファイルを読み込むためのお勧めの方法について説明します。