Apache Spark DataFrames'i TFRecord dosyaları olarak kaydetme

Bu makalede Spark-tensorflow-connector kullanarak Apache Spark DataFrames'i TFRecord dosyalarına kaydetme ve TensorFlow ile TFRecord yükleme işlemleri gösterilmektedir.

TFRecord dosya biçimi, ML eğitim verileri için kayıt odaklı basit bir ikili biçimdir. tf.data.TFRecordDataset sınıfı, bir giriş işlem hattının parçası olarak bir veya daha fazla TFRecord dosyasının içeriği üzerinde akış oluşturmanıza olanak tanır.

Kitaplığı kullanma spark-tensorflow-connector

Spark-tensorflow-connector kullanarak Apache Spark DataFrames'i TFRecord dosyalarına kaydedebilirsiniz.

spark-tensorflow-connector, TensorFlow ekosisteminde Spark DataFrames ile TFRecords arasında dönüştürmeyi sağlayan bir kitaplıktır (TensorFlow için verileri depolamak için popüler bir biçimdir). spark-tensorflow-connector ile Spark DataFrame API'lerini kullanarak TFRecords dosyalarını DataFrame'lere okuyabilir ve DataFrame'leri TFRecords olarak yazabilirsiniz.

Dekont

Kitaplık, spark-tensorflow-connector Machine Learning için Databricks Runtime'a dahildir. Databricks Runtime sürüm notları sürümleri ve uyumluluğunda kullanmak spark-tensorflow-connector için kitaplığı Maven'dan yüklemeniz gerekir. Ayrıntılar için bkz . Maven veya Spark paketi .

Örnek: TensorFlow ile TFRecord dosyalarından veri yükleme

Örnek not defteri, Apache Spark DataFrames'ten TFRecord dosyalarına veri kaydetmeyi ve ML eğitimi için TFRecord dosyalarını yüklemeyi gösterir.

TFRecord dosyalarını sınıfını tf.data.TFRecordDataset kullanarak yükleyebilirsiniz. Ayrıntılar için TensorFlow'dan [TFRecord dosyasını okuma](https://www.tensorflow.org/ tutorials/load_data/tfrecord#reading_a_tfrecord_file) bölümüne bakın.

Dağıtılmış DL not defteri için görüntü verilerini hazırlama

Not defterini alma