Préparer les données pour l’entraînement distribué

2025-05-10

Cet article décrit les méthodes de préparation des données pour l’apprentissage distribué : Mosaic Streaming et TFRecords.

Mosaic Streaming (recommandé)

Mosaic Streaming est une bibliothèque de chargement de données open source qui permet le streaming efficace de grands jeux de données depuis un stockage cloud. Cette bibliothèque excelle dans la gestion de jeux de données massifs qui ne tiennent pas en mémoire, car elle est spécifiquement conçue pour l'entraînement de modèles volumineux sur plusieurs nœuds de manière distribuée. Mosaic Streaming offre une intégration facile à PyTorch et à l’écosystème MosaicML. L’article suivant illustre ce cas d’usage :

Charger des données en utilisant Mosaic Streaming

TFRecord

Vous pouvez également utiliser le format TFRecord comme source de données pour l’apprentissage profond distribué. Le format TFRecord est un format binaire simple orienté enregistrement que de nombreuses applications TensorFlow utilisent pour les données de formation.

tf. Data. TFRecordDataset est le jeu de données TensorFlow, qui est constitué d’enregistrements de fichiers TFRecords. Pour plus d’informations sur la façon de consommer des données TFRecord, consultez le guide TensorFlow utilisation des données TFRecord.

Les articles suivants décrivent et illustrent les méthodes recommandées pour enregistrer vos données dans des fichiers TFRecord et charger des fichiers TFRecord :

Enregistrer des DataFrames Apache Spark en tant que fichiers TFRecord

Partager via

Préparer les données pour l’entraînement distribué

Mosaic Streaming (recommandé)

TFRecord

Commentaires

Ressources supplémentaires