الحل المرجعي لتطبيقات الصور

تعرف على كيفية الاستدلال على نموذج الصورة الموزعة من دفاتر ملاحظات الحلول المرجعية باستخدام pandas UDF وPyTorch وTensorFlow في تكوين مشترك مشترك بين العديد من تطبيقات الصور في العالم الحقيقي. يفترض هذا التكوين أنك تقوم بتخزين العديد من الصور في مخزن عناصر وأن لديك بشكل اختياري صورا جديدة تصل باستمرار.

سير العمل لاستدلال نموذج الصورة

لنفترض أن لديك العديد من نماذج التعلم العميق المدربة (DL) لتصنيف الصور واكتشاف الكائنات - على سبيل المثال، MobileNetV2 للكشف عن الكائنات البشرية في الصور التي حملها المستخدم للمساعدة في حماية الخصوصية - وتريد تطبيق نماذج DL هذه على الصور المخزنة.

يمكنك إعادة تدريب النماذج وتحديث التنبؤات المحسوبة مسبقا. ومع ذلك، فمن I/O-heavy والحوسبة الثقيلة لتحميل العديد من الصور وتطبيق نماذج DL. لحسن الحظ، فإن حمل عمل الاستدلال متوازي بشكل محرج ومن الناحية النظرية يمكن توزيعه بسهولة. يرشدك هذا الدليل خلال حل عملي يحتوي على مرحلتين رئيسيتين:

  1. صور ETL في جدول Delta باستخدام "المحمل التلقائي"
  2. إجراء الاستدلال الموزع باستخدام pandas UDF

صور ETL في جدول Delta باستخدام "المحمل التلقائي"

بالنسبة لتطبيقات الصور، بما في ذلك مهام التدريب والاستدلال، توصي Databricks بدمج صور ETL في جدول Delta باستخدام "المحمل التلقائي". يساعد "المحمل التلقائي" في إدارة البيانات ويتعامل تلقائيا مع الصور الجديدة التي تصل باستمرار.

مجموعة بيانات صورة ETL في دفتر ملاحظات جدول Delta

الحصول على دفتر ملاحظات

إجراء الاستدلال الموزع باستخدام pandas UDF

تستخدم دفاتر الملاحظات التالية PyTorch وTensorFlow tf. Keras لتوضيح الحل المرجعي.

الاستدلال الموزع عبر دفتر ملاحظات Pytorch وpandas UDF

الحصول على دفتر ملاحظات

الاستدلال الموزع عبر دفتر ملاحظات Keras وpandas UDF

الحصول على دفتر ملاحظات

القيود: أحجام ملفات الصور

بالنسبة لملفات الصور الكبيرة (متوسط حجم الصورة أكبر من 100 ميغابايت)، يوصي Databricks باستخدام جدول Delta فقط لإدارة بيانات التعريف (قائمة أسماء الملفات) وتحميل الصور من مخزن العناصر باستخدام مساراتها عند الحاجة.