Apache Spark-adatkeretek mentése TFRecord fájlokként
A TFRecord fájlformátum egy egyszerű rekordorientált bináris formátum az ML-betanítási adatokhoz. A tf.data.TFRecordDataset osztály lehetővé teszi egy vagy több TFRecord-fájl tartalmának átvitelét egy bemeneti folyamat részeként.
Apache Spark-adatkeretek mentése TFRecord-fájlokba
A spark-tensorflow-connector használatával mentheti az Apache Spark DataFrame-eket a TFRecord fájlokba.
spark-tensorflow-connector
a TensorFlow-ökoszisztémán belüli kódtár, amely lehetővé teszi a Spark DataFrames és a TFRecords közötti átalakítást (ez egy népszerű formátum a TensorFlow adatainak tárolására). A Spark-tensorflow-connector használatával a Spark DataFrame API-kkal beolvashatja a TFRecords-fájlokat a DataFrame-be, és adatkereteket írhat TFRecords-ként.
Megjegyzés
A spark-tensorflow-connector
kódtárat a Databricks Runtime for Machine Learning tartalmazza. A Databricks Runtime-on való használatához spark-tensorflow-connector
telepítenie kell a kódtárat a Mavenből. Részletekért lásd: Maven vagy Spark-csomag .
Adatok betöltése TFRecord-fájlokból a TensorFlow használatával
A TFRecord fájlokat az osztály használatával töltheti tf.data.TFRecordDataset
be. A részletekért lásd: TFRecord-fájl olvasása a TensorFlow-ból.
Az alábbi példajegyzetfüzet bemutatja, hogyan menthet adatokat az Apache Spark DataFramesből a TFRecord fájlokba, és hogyan tölthet be TFRecord fájlokat az ML-betanításhoz.