Apache Spark-adatkeretek mentése TFRecord fájlokként

Ez a cikk bemutatja, hogyan mentheti az Apache Spark DataFrame-eket a TFRecord fájlokba, és hogyan töltheti be a TFRecordot a TensorFlow-nal.

A TFRecord fájlformátum egy egyszerű, rekordorientált bináris formátum az ML-betanítási adatokhoz. A tf.data.TFRecordDataset osztály lehetővé teszi, hogy egy vagy több TFRecord fájl tartalmát streamelje egy bemeneti folyamat részeként.

Tár használata spark-tensorflow-connector

Spark-tensorflow-connector használatával mentheti az Apache Spark DataFrame-eket a TFRecord fájlokba.

spark-tensorflow-connectorA TensorFlow-ökoszisztémán belüli kódtár, amely lehetővé teszi a Spark DataFrames és a TFRecords közötti átalakítást (a TensorFlow-adatok tárolásának népszerű formátuma). A Spark-tensorflow-connector használatával a Spark DataFrame API-kkal beolvashatja a TFRecords-fájlokat a DataFrame-be, és adatkereteket írhat TFRecords-ként.

Megjegyzés:

A spark-tensorflow-connector kódtár a Databricks Runtime for Machine Tanulás része. spark-tensorflow-connector A Databricks Runtime kiadási jegyzeteinek verzióihoz és kompatibilitásához telepítenie kell a kódtárat a Mavenből. Részletekért lásd: Maven vagy Spark-csomag .

Példa: Adatok betöltése TFRecord fájlokból a TensorFlow használatával

A példajegyzetfüzet bemutatja, hogyan menthet adatokat az Apache Spark DataFrame-ekből AFRecord-fájlokba, és hogyan tölthet be TFRecord-fájlokat az ML-betanításhoz.

A TFRecord fájlokat az osztály használatával töltheti tf.data.TFRecordDataset be. Részletekért lásd: [TFRecord fájl olvasása](https://www.tensorflow.org/ oktatóanyagok/load_data/tfrecord#reading_a_tfrecord_file) a TensorFlow-ból.

Képadatok előkészítése elosztott DL-jegyzetfüzethez

Jegyzetfüzet beszerzése