Apache Spark-adatkeretek mentése TFRecord fájlokként
Ez a cikk bemutatja, hogyan mentheti az Apache Spark DataFrame-eket a TFRecord fájlokba, és hogyan töltheti be a TFRecordot a TensorFlow-nal.
A TFRecord fájlformátum egy egyszerű, rekordorientált bináris formátum az ML-betanítási adatokhoz. A tf.data.TFRecordDataset osztály lehetővé teszi, hogy egy vagy több TFRecord fájl tartalmát streamelje egy bemeneti folyamat részeként.
Tár használata spark-tensorflow-connector
Spark-tensorflow-connector használatával mentheti az Apache Spark DataFrame-eket a TFRecord fájlokba.
spark-tensorflow-connector
A TensorFlow-ökoszisztémán belüli kódtár, amely lehetővé teszi a Spark DataFrames és a TFRecords közötti átalakítást (a TensorFlow-adatok tárolásának népszerű formátuma). A Spark-tensorflow-connector használatával a Spark DataFrame API-kkal beolvashatja a TFRecords-fájlokat a DataFrame-be, és adatkereteket írhat TFRecords-ként.
Megjegyzés:
A spark-tensorflow-connector
kódtár a Databricks Runtime for Machine Tanulás része. spark-tensorflow-connector
A Databricks Runtime kiadási jegyzeteinek verzióihoz és kompatibilitásához telepítenie kell a kódtárat a Mavenből. Részletekért lásd: Maven vagy Spark-csomag .
Példa: Adatok betöltése TFRecord fájlokból a TensorFlow használatával
A példajegyzetfüzet bemutatja, hogyan menthet adatokat az Apache Spark DataFrame-ekből AFRecord-fájlokba, és hogyan tölthet be TFRecord-fájlokat az ML-betanításhoz.
A TFRecord fájlokat az osztály használatával töltheti tf.data.TFRecordDataset
be. Részletekért lásd: [TFRecord fájl olvasása](https://www.tensorflow.org/ oktatóanyagok/load_data/tfrecord#reading_a_tfrecord_file) a TensorFlow-ból.