Apache Spark DataFrames'i TFRecord dosyaları olarak kaydetme
Bu makalede Spark-tensorflow-connector kullanarak Apache Spark DataFrames'i TFRecord dosyalarına kaydetme ve TensorFlow ile TFRecord yükleme işlemleri gösterilmektedir.
TFRecord dosya biçimi, ML eğitim verileri için kayıt odaklı basit bir ikili biçimdir. tf.data.TFRecordDataset sınıfı, bir giriş işlem hattının parçası olarak bir veya daha fazla TFRecord dosyasının içeriği üzerinde akış oluşturmanıza olanak tanır.
Kitaplığı kullanma spark-tensorflow-connector
Spark-tensorflow-connector kullanarak Apache Spark DataFrames'i TFRecord dosyalarına kaydedebilirsiniz.
spark-tensorflow-connector
, TensorFlow ekosisteminde Spark DataFrames ile TFRecords arasında dönüştürmeyi sağlayan bir kitaplıktır (TensorFlow için verileri depolamak için popüler bir biçimdir). spark-tensorflow-connector ile Spark DataFrame API'lerini kullanarak TFRecords dosyalarını DataFrame'lere okuyabilir ve DataFrame'leri TFRecords olarak yazabilirsiniz.
Dekont
Kitaplık, spark-tensorflow-connector
Machine Learning için Databricks Runtime'a dahildir. Databricks Runtime sürüm notları sürümleri ve uyumluluğunda kullanmak spark-tensorflow-connector
için kitaplığı Maven'dan yüklemeniz gerekir. Ayrıntılar için bkz . Maven veya Spark paketi .
Örnek: TensorFlow ile TFRecord dosyalarından veri yükleme
Örnek not defteri, Apache Spark DataFrames'ten TFRecord dosyalarına veri kaydetmeyi ve ML eğitimi için TFRecord dosyalarını yüklemeyi gösterir.
TFRecord dosyalarını sınıfını tf.data.TFRecordDataset
kullanarak yükleyebilirsiniz. Ayrıntılar için TensorFlow'dan [TFRecord dosyasını okuma](https://www.tensorflow.org/ tutorials/load_data/tfrecord#reading_a_tfrecord_file) bölümüne bakın.