Apache Spark-adatkeretek mentése TFRecord fájlokként

A TFRecord fájlformátum egy egyszerű rekordorientált bináris formátum az ML-betanítási adatokhoz. A tf.data.TFRecordDataset osztály lehetővé teszi egy vagy több TFRecord-fájl tartalmának átvitelét egy bemeneti folyamat részeként.

Apache Spark-adatkeretek mentése TFRecord-fájlokba

A spark-tensorflow-connector használatával mentheti az Apache Spark DataFrame-eket a TFRecord fájlokba.

spark-tensorflow-connector a TensorFlow-ökoszisztémán belüli kódtár, amely lehetővé teszi a Spark DataFrames és a TFRecords közötti átalakítást (ez egy népszerű formátum a TensorFlow adatainak tárolására). A Spark-tensorflow-connector használatával a Spark DataFrame API-kkal beolvashatja a TFRecords-fájlokat a DataFrame-be, és adatkereteket írhat TFRecords-ként.

Megjegyzés

A spark-tensorflow-connector kódtárat a Databricks Runtime for Machine Learning tartalmazza. A Databricks Runtime-on való használatához spark-tensorflow-connector telepítenie kell a kódtárat a Mavenből. Részletekért lásd: Maven vagy Spark-csomag .

Adatok betöltése TFRecord-fájlokból a TensorFlow használatával

A TFRecord fájlokat az osztály használatával töltheti tf.data.TFRecordDataset be. A részletekért lásd: TFRecord-fájl olvasása a TensorFlow-ból.

Az alábbi példajegyzetfüzet bemutatja, hogyan menthet adatokat az Apache Spark DataFramesből a TFRecord fájlokba, és hogyan tölthet be TFRecord fájlokat az ML-betanításhoz.

Képadatok előkészítése elosztott DL-hez

Jegyzetfüzet lekérése