Share via


Aufbereiten von Daten für verteiltes Training

In diesem Abschnitt werden zwei Methoden behandelt, mit denen Daten für verteiltes Training aufbereitet werden können: „Petastorm“ und „TFRecords“.

Petastorm ist eine Open Source-Datenzugriffsbibliothek, die das direkte Laden von Daten ermöglicht, die im Apache Parquet-Format gespeichert sind. Dies ist praktisch für Azure Databricks und Apache Spark, da Parquet das empfohlene Datenformat ist. Der folgende Artikel veranschaulicht diesen Anwendungsfall:

TFRecord

Sie können auch das TFRecord-Format als Datenquelle für verteiltes Deep Learning verwenden. Das TFRecord-Format ist ein einfaches datensatzorientiertes Binärformat, das von vielen TensorFlow-Anwendungen zum Trainieren von Daten verwendet wird.

tf.data.TFRecordDataset ist das TensorFlow-Dataset, das aus Datensätzen aus TFRecords-Dateien besteht. Weitere Informationen zur Verwendung von TFRecord-Daten finden Sie im TensorFlow-Handbuch Verwenden von TFRecord-Daten.

In den folgenden Artikeln werden die empfohlenen Methoden zum Speichern Ihrer Daten in TFRecord-Dateien und Laden von TFRecord-Dateien beschrieben und veranschaulicht: