分散トレーニング用にデータを準備する

この記事では、分散トレーニング用のデータを準備するための 2 つの方法である Petastorm および TFRecords について説明します。

Petastorm は、Apache Parquet 形式で格納されたデータを直接読み込めるようにするオープンソースのデータ アクセス ライブラリです。 Parquet は推奨されるデータ形式であるため、Azure Databricks や Apache Spark のユーザーにとっては便利です。 次の記事では、このユース ケースを示しています。

TFRecord

また、分散ディープ ラーニングのデータ ソースとして、TFRecord 形式を使用することもできます。 TFRecord 形式は、多くの TensorFlow アプリケーションでデータのトレーニングに使用される、単純なレコード指向のバイナリ形式です。

tf.data.TFRecordDataset は、TFRecords ファイルのレコードで構成される TensorFlow データセットです。 TFRecord データの使用方法の詳細については、TensorFlow ガイドの TFRecord データの消費のセクションを参照してください。

次の記事では、データを TFRecord ファイルに保存し、TFRecord ファイルを読み込むためのお勧めの方法について説明します。