ملاحظة
يتطلب الوصول إلى هذه الصفحة تخويلاً. يمكنك محاولة تسجيل الدخول أو تغيير الدلائل.
يتطلب الوصول إلى هذه الصفحة تخويلاً. يمكنك محاولة تغيير الدلائل.
توضح هذه المقالة أساليب إعداد البيانات للتدريب الموزع: تدفق الفسيفساء وTFRecords.
تدفق الفسيفساء (مستحسن)
تدفق الفسيفساء هو مكتبة تحميل بيانات مفتوحة المصدر تتيح تدفقا فعالا لمجموعات البيانات الكبيرة من التخزين السحابي. تتفوق هذه المكتبة في التعامل مع مجموعات البيانات الضخمة التي لا تناسب الذاكرة، لأنها مصممة خصيصا للتدريب الموزع متعدد العقد للنماذج الكبيرة. يوفر دفق الفسيفساء تكاملا سلسا مع PyTorch والنظام البنائي ل MosaicML. توضح المقالة التالية حالة الاستخدام هذه:
TFRecord
يمكنك أيضا استخدام تنسيق TFRecord كمصدر بيانات للتعلم العميق الموزع. تنسيق TFRecord هو تنسيق ثنائي بسيط موجه للسجل يستخدمه العديد من تطبيقات TensorFlow لبيانات التدريب.
tf.data.TFRecordDataset هي مجموعة بيانات TensorFlow، والتي تتكون من سجلات من ملفات TFRecords. لمزيد من التفاصيل حول كيفية استهلاك بيانات TFRecord، راجع دليل TensorFlow استهلاك بيانات TFRecord.
تصف المقالات التالية الطرق الموصى بها لحفظ بياناتك في ملفات TFRecord وتوضحها وتحميل ملفات TFRecord: