Bagikan melalui


Solusi referensi untuk aplikasi gambar

Pelajari cara melakukan inferensi model gambar terdistribusi dari notebook solusi referensi menggunakan panda UDF, PyTorch, dan TensorFlow dalam konfigurasi umum yang dibagikan oleh banyak aplikasi gambar dunia nyata. Konfigurasi ini mengasumsikan bahwa Anda menyimpan banyak gambar di penyimpanan objek dan secara opsional memiliki gambar baru yang terus tiba.

Alur kerja untuk inferensi model gambar

Misalkan Anda memiliki beberapa model pembelajaran mendalam (DL) terlatih untuk klasifikasi citra dan deteksi objek — misalnya, MobileNetV2 untuk mendeteksi objek manusia dalam foto yang diunggah pengguna untuk membantu melindungi privasi — dan Anda ingin menerapkan model DL ini ke citra yang disimpan.

Anda dapat melatih kembali model dan memperbarui prediksi yang dihitung sebelumnya. Namun, I/O-heavy dan compute-heavy memuat banyak citra dan menerapkan model DL. Untungnya, beban kerja inferensi sangat paralel dan secara teori dapat didistribusikan dengan mudah. Panduan ini memandu Anda melalui solusi praktis yang berisi dua tahap utama:

  1. Citra ETL ke dalam tabel Delta menggunakan Auto Loader
  2. Melakukan inferensi terdistribusi menggunakan pandas UDF

Citra ETL ke dalam tabel Delta menggunakan Auto Loader

Untuk aplikasi citra, termasuk tugas pelatihan dan inferensi, Databricks merekomendasikan agar citra ETL Anda masuk ke tabel Delta dengan Auto Loader. Auto Loader membantu pengelolaan data dan secara otomatis menangani citra baru yang terus tiba.

Himpunan data citra ETL ke dalam notebook tabel Delta

Dapatkan buku catatan

Melakukan inferensi terdistribusi menggunakan pandas UDF

Notebook berikut menggunakan PyTorch dan TensorFlow tf.Keras untuk menunjukkan solusi referensi.

Inferensi terdistribusi melalui notebook Pytorch dan pandas UDF

Dapatkan buku catatan

Inferensi terdistribusi melalui notebook Keras dan pandas UDF

Dapatkan buku catatan

Batasan: Ukuran file gambar

Untuk file citra besar (ukuran citra rata-rata lebih besar dari 100 MB), Databricks merekomendasikan menggunakan tabel Delta hanya untuk mengelola metadata (daftar nama file) dan memuat citra dari penyimpanan objek menggunakan jalurnya bila diperlukan.