Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Artikel ini memperlihatkan kepada Anda cara menggunakan spark-tensorflow-connector untuk menyimpan Apache Spark DataFrames ke file TFRecord dan memuat TFRecord dengan TensorFlow.
Format file TFRecord adalah format biner berorientasi rekaman sederhana untuk data pelatihan ML. Kelas tf.data.TFRecordDataset memungkinkan Anda untuk melakukan stream melalui konten satu atau beberapa file TFRecord sebagai bagian dari alur input.
Gunakan spark-tensorflow-connector
pustaka
Anda dapat menggunakan spark-tensorflow-connector untuk menyimpan Apache Spark DataFrames ke file TFRecord.
spark-tensorflow-connector
adalah pustaka dalam ekosistem TensorFlow yang memungkinkan konversi antara Spark DataFrames dan TFRecords (format populer untuk menyimpan data untuk TensorFlow). Dengan spark-tensorflow-connector, Anda dapat menggunakan API Spark DataFrame untuk membaca file TFRecords ke Dalam DataFrames dan menulis DataFrames sebagai TFRecords.
Catatan
spark-tensorflow-connector
Pustaka disertakan dalam Databricks Runtime untuk Pembelajaran Mesin. Untuk menggunakan spark-tensorflow-connector
versi dan kompatibilitas catatan rilis Databricks Runtime, Anda perlu menginstal pustaka dari Maven. Lihat paket Maven atau Spark untuk detail.
Contoh: Memuat data dari file TFRecord dengan TensorFlow
Contoh notebook menunjukkan cara menyimpan data dari Apache Spark DataFrames ke file TFRecord dan memuat file TFRecord untuk pelatihan ML.
Anda dapat memuat file TFRecord menggunakan kelas tf.data.TFRecordDataset
. Lihat Membaca file TFRecord dari TensorFlow untuk rincian lebih lanjut.