Partager via


Préparer les données pour l’entraînement distribué

Cet article décrit trois méthodes de préparation des données pour l’apprentissage distribué : Mosaic Streaming, Petastorm et TFRecords.

Mosaic Streaming est une bibliothèque de chargement de données open source qui permet le streaming efficace de grands jeux de données depuis un stockage cloud. Cette bibliothèque excelle dans la gestion de jeux de données massifs qui ne tiennent pas en mémoire, car elle est spécifiquement conçue pour l’apprentissage distribué de grands modèles sur plusieurs nœuds. Mosaic Streaming offre une intégration facile à PyTorch et à l’écosystème MosaicML. L’article suivant illustre ce cas d’usage :

Petastorm

Petastorm est une bibliothèque open source d’accès aux données qui permet de charger directement des données stockées au format Apache parquet. Cela est pratique pour les utilisateurs Azure Databricks et Apache Spark, car parquet est le format de données recommandé. L’article suivant illustre ce cas d’usage :

TFRecord

Vous pouvez également utiliser le format TFRecord comme source de données pour l’apprentissage profond distribué. Le format TFRecord est un format binaire simple orienté enregistrement que de nombreuses applications TensorFlow utilisent pour les données de formation.

tf. Data. TFRecordDataset est le jeu de données TensorFlow, qui est constitué d’enregistrements de fichiers TFRecords. Pour plus d’informations sur la façon de consommer des données TFRecord, consultez le guide TensorFlow utilisation des données TFRecord.

Les articles suivants décrivent et illustrent les méthodes recommandées pour enregistrer vos données dans des fichiers TFRecord et charger des fichiers TFRecord :