حفظ Apache Spark DataFrames كملفات TFRecord

توضح هذه المقالة كيفية استخدام spark-tensorflow-connector لحفظ Apache Spark DataFrames إلى ملفات TFRecord وتحميل TFRecord باستخدام TensorFlow.

تنسيق ملف TFRecord هو تنسيق ثنائي بسيط موجه نحو السجل لبيانات تدريب التعلم الآلي. تمكنك فئة tf.data.TFRecordDataset من البث عبر محتويات ملف TFRecord واحد أو أكثر كجزء من مسار الإدخال.

استخدام spark-tensorflow-connector المكتبة

يمكنك استخدام spark-tensorflow-connector لحفظ Apache Spark DataFrames إلى ملفات TFRecord.

spark-tensorflow-connectorهي مكتبة داخل النظام البيئي TensorFlow التي تمكن التحويل بين Spark DataFrames وTFRecords (تنسيق شائع لتخزين البيانات ل TensorFlow). باستخدام spark-tensorflow-connector، يمكنك استخدام واجهات برمجة تطبيقات Spark DataFrame لقراءة ملفات TFRecords في DataFrames وكتابة DataFrames ك TFRecords.

إشعار

يتم spark-tensorflow-connector تضمين المكتبة في وقت تشغيل Databricks التعلم الآلي. للاستخدام spark-tensorflow-connector في إصدارات ملاحظات إصدار Databricks Runtime والتوافق، تحتاج إلى تثبيت المكتبة من Maven. راجع حزمة Maven أو Spark للحصول على التفاصيل.

مثال: تحميل البيانات من ملفات TFRecord باستخدام TensorFlow

يوضح دفتر الملاحظات المثال كيفية حفظ البيانات من Apache Spark DataFrames إلى ملفات TFRecord وتحميل ملفات TFRecord للتدريب على التعلم الآلي.

يمكنك تحميل ملفات TFRecord باستخدام tf.data.TFRecordDataset الفئة . راجع [قراءة ملف TFRecord](https://www.tensorflow.org/ البرامج التعليمية/load_data/tfrecord#reading_a_tfrecord_file) من TensorFlow للحصول على التفاصيل.

إعداد بيانات الصورة لدفتر ملاحظات DL الموزع

الحصول على دفتر الملاحظات