Aufbereiten von Daten für verteiltes Training

Artikel
09/30/2024

In diesem Artikel werden die Methoden zum Vorbereiten von Daten für das verteilte Training behandelt: Mosaic Streaming und TFRecords.

Mosaic-Streaming (empfohlen)

Mosaic-Streaming ist eine Open-Source-Datenladebibliothek, die das effiziente Streamen großer Datasets aus Cloudspeicher ermöglicht. Diese Bibliothek eignet sich besonders gut für die Verarbeitung massiver Datasets, die nicht in den Arbeitsspeicher passen, da sie speziell für das verteilte Training großer Modelle in mehreren Knoten entwickelt wurde. Mosaic-Streaming bietet nahtlose Integration mit PyTorch und dem MosaicML-Ökosystem. Der folgende Artikel veranschaulicht diesen Anwendungsfall:

Laden von Daten mit Mosaic-Streaming

TFRecord

Sie können auch das TFRecord-Format als Datenquelle für verteiltes Deep Learning verwenden. Das TFRecord-Format ist ein einfaches datensatzorientiertes Binärformat, das von vielen TensorFlow-Anwendungen zum Trainieren von Daten verwendet wird.

tf.data.TFRecordDataset ist das TensorFlow-Dataset, das aus Datensätzen aus TFRecords-Dateien besteht. Weitere Informationen zur Verwendung von TFRecord-Daten finden Sie im TensorFlow-Handbuch Verwenden von TFRecord-Daten.

In den folgenden Artikeln werden die empfohlenen Methoden zum Speichern Ihrer Daten in TFRecord-Dateien und Laden von TFRecord-Dateien beschrieben und veranschaulicht:

Speichern von Apache Spark-DataFrames in TFRecord-Dateien

Freigeben über

Aufbereiten von Daten für verteiltes Training

Mosaic-Streaming (empfohlen)

TFRecord

Feedback

Zusätzliche Ressourcen