Bagikan melalui


Simpan Apache Spark DataFrames sebagai file TFRecord

Artikel ini memperlihatkan kepada Anda cara menggunakan spark-tensorflow-connector untuk menyimpan Apache Spark DataFrames ke file TFRecord dan memuat TFRecord dengan TensorFlow.

Format file TFRecord adalah format biner berorientasi rekaman sederhana untuk data pelatihan ML. Kelas tf.data.TFRecordDataset memungkinkan Anda untuk melakukan stream melalui konten satu atau beberapa file TFRecord sebagai bagian dari alur input.

Gunakan spark-tensorflow-connector pustaka

Anda dapat menggunakan spark-tensorflow-connector untuk menyimpan Apache Spark DataFrames ke file TFRecord.

spark-tensorflow-connector adalah pustaka dalam ekosistem TensorFlow yang memungkinkan konversi antara Spark DataFrames dan TFRecords (format populer untuk menyimpan data untuk TensorFlow). Dengan spark-tensorflow-connector, Anda dapat menggunakan API Spark DataFrame untuk membaca file TFRecords ke Dalam DataFrames dan menulis DataFrames sebagai TFRecords.

Catatan

spark-tensorflow-connector Pustaka disertakan dalam Databricks Runtime untuk Pembelajaran Mesin. Untuk menggunakan spark-tensorflow-connector versi dan kompatibilitas catatan rilis Databricks Runtime, Anda perlu menginstal pustaka dari Maven. Lihat paket Maven atau Spark untuk detail.

Contoh: Memuat data dari file TFRecord dengan TensorFlow

Contoh notebook menunjukkan cara menyimpan data dari Apache Spark DataFrames ke file TFRecord dan memuat file TFRecord untuk pelatihan ML.

Anda dapat memuat file TFRecord menggunakan kelas tf.data.TFRecordDataset. Lihat Membaca file TFRecord dari TensorFlow untuk rincian lebih lanjut.

Menyiapkan data gambar untuk notebook DL Terdistribusi

Dapatkan buku catatan