Préparer les données pour l’entraînement distribué

Cet article décrit deux méthodes de préparation des données pour la formation distribuée : Petastorm et TFRecords.

Petastorm est une bibliothèque open source d’accès aux données qui permet de charger directement des données stockées au format Apache parquet. Cela est pratique pour les utilisateurs Azure Databricks et Apache Spark, car parquet est le format de données recommandé. L’article suivant illustre ce cas d’usage :

TFRecord

Vous pouvez également utiliser le format TFRecord comme source de données pour l’apprentissage profond distribué. Le format TFRecord est un format binaire simple orienté enregistrement que de nombreuses applications TensorFlow utilisent pour les données de formation.

tf. Data. TFRecordDataset est le jeu de données TensorFlow, qui est constitué d’enregistrements de fichiers TFRecords. Pour plus d’informations sur la façon de consommer des données TFRecord, consultez le guide TensorFlow utilisation des données TFRecord.

Les articles suivants décrivent et illustrent les méthodes recommandées pour enregistrer vos données dans des fichiers TFRecord et charger des fichiers TFRecord :