分散トレーニング用にデータを準備する

この記事では、分散型トレーニング用のデータを準備するための方法である Mosaic ストリーミングおよび TFRecords について説明します。

Mosaic ストリーミング (推奨)

Mosaic ストリーミングは、クラウドストレージから大規模なデータセットを効率的にストリーミングできるオープンソースのデータ読み込みライブラリです。このライブラリは、大規模なモデルのマルチノード分散トレーニング用に特別に設計されているため、メモリに収まらない大規模なデータセットの処理に優れています。 Mosaic ストリーミングは PyTorch や MosaicML エコシステムとシームレスに統合できます。次の記事では、このユースケースを示しています。

Mosaic ストリーミングを使用してデータを読み込む

TFRecord

また、分散ディープラーニングのデータソースとして、TFRecord 形式を使用することもできます。 TFRecord 形式は、多くの TensorFlow アプリケーションでデータのトレーニングに使用される、単純なレコード指向のバイナリ形式です。

tf.data.TFRecordDataset は、TFRecords ファイルのレコードで構成される TensorFlow データセットです。 TFRecord データの使用方法の詳細については、TensorFlow ガイドの TFRecord データの消費のセクションを参照してください。

次の記事では、データを TFRecord ファイルに保存し、TFRecord ファイルを読み込むためのお勧めの方法について説明します。

Apache Spark DataFrames を TFRecord ファイルとして保存する

フィードバック

このページはお役に立ちましたか?

Last updated on 2026-05-03

分散トレーニング用にデータを準備する

Mosaic ストリーミング (推奨)

TFRecord

フィードバック

その他のリソース