Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Artikel ini memperlihatkan kepada Anda cara menggunakan spark-tensorflow-connector untuk menyimpan Apache Spark DataFrames ke file TFRecord dan memuat TFRecord dengan TensorFlow.
Format file TFRecord adalah format biner berorientasi rekaman sederhana untuk data pelatihan ML. Kelas tf.data.TFRecordDataset memungkinkan Anda untuk melakukan stream melalui konten satu atau beberapa file TFRecord sebagai bagian dari alur input.
Gunakan spark-tensorflow-connector pustaka
Anda dapat menggunakan spark-tensorflow-connector untuk menyimpan Apache Spark DataFrames ke file TFRecord.
spark-tensorflow-connector adalah pustaka dalam ekosistem TensorFlow yang memungkinkan konversi antara Spark DataFrames dan TFRecords (format populer untuk menyimpan data untuk TensorFlow). Dengan spark-tensorflow-connector, Anda dapat menggunakan API Spark DataFrame untuk membaca file TFRecords ke Dalam DataFrames dan menulis DataFrames sebagai TFRecords.
Catatan
spark-tensorflow-connector Pustaka disertakan dalam Databricks Runtime untuk Pembelajaran Mesin. Untuk menggunakan spark-tensorflow-connector pada catatan rilis Databricks Runtime yang berkaitan dengan versi dan kompatibilitas, Anda perlu menginstal pustaka dari Maven. Lihat paket Maven atau Spark untuk detail.
Contoh: Memuat data dari file TFRecord dengan TensorFlow
Contoh notebook menunjukkan cara menyimpan data dari Apache Spark DataFrames ke file TFRecord dan memuat file TFRecord untuk pelatihan ML.
Anda dapat memuat file TFRecord menggunakan kelas tf.data.TFRecordDataset. Lihat Membaca file TFRecord dari TensorFlow untuk rincian lebih lanjut.