مشاركة عبر


إعداد البيانات للتدريب الموزع

توضح هذه المقالة أساليب إعداد البيانات للتدريب الموزع: تدفق الفسيفساء وTFRecords.

تدفق الفسيفساء هو مكتبة تحميل بيانات مفتوحة المصدر تتيح تدفقا فعالا لمجموعات البيانات الكبيرة من التخزين السحابي. تتفوق هذه المكتبة في التعامل مع مجموعات البيانات الضخمة التي لا تناسب الذاكرة، لأنها مصممة خصيصا للتدريب الموزع متعدد العقد للنماذج الكبيرة. يوفر دفق الفسيفساء تكاملا سلسا مع PyTorch والنظام البنائي ل MosaicML. توضح المقالة التالية حالة الاستخدام هذه:

TFRecord

يمكنك أيضا استخدام تنسيق TFRecord كمصدر بيانات للتعلم العميق الموزع. تنسيق TFRecord هو تنسيق ثنائي بسيط موجه للسجل يستخدمه العديد من تطبيقات TensorFlow لبيانات التدريب.

tf.data.TFRecordDataset هي مجموعة بيانات TensorFlow، والتي تتكون من سجلات من ملفات TFRecords. لمزيد من التفاصيل حول كيفية استهلاك بيانات TFRecord، راجع دليل TensorFlow استهلاك بيانات TFRecord.

تصف المقالات التالية الطرق الموصى بها لحفظ بياناتك في ملفات TFRecord وتوضحها وتحميل ملفات TFRecord: