Apache Spark DataFrames opslaan als TFRecord-bestanden

In dit artikel leest u hoe u spark-tensorflow-connector gebruikt om Apache Spark DataFrames op te slaan in TFRecord-bestanden en TFRecord te laden met TensorFlow.

De TFRecord-bestandsindeling is een eenvoudige, op records gerichte binaire indeling voor ML-trainingsgegevens. Met de klasse tf.data.TFRecordDataset kunt u de inhoud van een of meer TFRecord-bestanden streamen als onderdeel van een invoerpijplijn.

Bibliotheek gebruiken spark-tensorflow-connector

U kunt spark-tensorflow-connector gebruiken om Apache Spark DataFrames op te slaan in TFRecord-bestanden.

spark-tensorflow-connector is een bibliotheek in het TensorFlow-ecosysteem dat conversie mogelijk maakt tussen Spark DataFrames en TFRecords (een populaire indeling voor het opslaan van gegevens voor TensorFlow). Met spark-tensorflow-connector kunt u Spark DataFrame-API's gebruiken om TFRecords-bestanden in DataFrames te lezen en DataFrames als TFRecords te schrijven.

Notitie

De spark-tensorflow-connector bibliotheek is opgenomen in Databricks Runtime voor Machine Learning. Als u de releaseversies en compatibiliteit van Databricks Runtime wilt gebruiken spark-tensorflow-connector, moet u de bibliotheek installeren vanuit Maven. Zie het Maven- of Spark-pakket voor meer informatie.

Voorbeeld: Gegevens laden uit TFRecord-bestanden met TensorFlow

In het voorbeeldnotebook ziet u hoe u gegevens van Apache Spark DataFrames opslaat in TFRecord-bestanden en TFRecord-bestanden laadt voor ML-training.

U kunt de TFRecord-bestanden laden met behulp van de tf.data.TFRecordDataset klasse. Zie [Een TFRecord-bestand lezen](https://www.tensorflow.org/ tutorials/load_data/tfrecord#reading_a_tfrecord_file) van TensorFlow voor meer informatie.

Afbeeldingsgegevens voorbereiden voor gedistribueerd DL-notebook

Notebook downloaden