Эталонное решение для приложений изображений

Узнайте, как сделать вывод модели распределенного образа из записных книжек эталонного решения с помощью определяемой пользователем функции Pandas, PyTorch и TensorFlow в общей конфигурации, совместно используемой многими приложениями для работы с изображениями. В этой конфигурации предполагается, что вы храните много образов в хранилище объектов и при необходимости постоянно поступают новые образы.

Рабочий процесс вывода модели изображений

Предположим, что у вас есть несколько обученных моделей глубокого обучения (DL) для классификации изображений и обнаружения объектов, например MobileNetV2 для обнаружения человеческих объектов на отправленных пользователем фотографиях для защиты конфиденциальности, и вы хотите применить эти модели DL к хранимым изображениям.

Вы можете повторно обучить модели и обновить ранее вычисленные прогнозы. Однако для загрузки большого количества образов и применения моделей DL и операций ввода-вывода и вычислений требуется как высокая нагрузка на операции ввода-вывода, так и для вычислений. К счастью, рабочая нагрузка вывода неловко параллельна и теоретически может быть легко распределена. В этом руководстве описано практическое решение, которое состоит из двух основных этапов:

  1. ETL-образы в разностную таблицу с помощью автозагрузчика
  2. Выполнение распределенного вывода с помощью определяемой пользователем функции Pandas

ETL-образы в разностную таблицу с помощью автозагрузчика

Для приложений для работы с изображениями, включая задачи обучения и вывода, Databricks рекомендует вывести изображения из извлечения, преобразования и загрузки в разностную таблицу с автозагрузчиком. Автозагрузчик помогает управлять данными и автоматически обрабатывает постоянно поступающие новые образы.

Набор данных изображения извлечения и загрузки в записную книжку разностной таблицы

Получение записной книжки

Выполнение распределенного вывода с помощью определяемой пользователем функции Pandas

В следующих записных книжках используются PyTorch и TensorFlow tf. Keras для демонстрации эталонного решения.

Распределенный вывод с помощью записной книжки Pytorch и Pandas UDF

Получение записной книжки

Распределенный вывод с помощью записной книжки UDF Keras и Pandas

Получение записной книжки

Ограничения: размеры файлов изображений

Для больших файлов изображений (средний размер изображения больше 100 МБ) Databricks рекомендует использовать таблицу Delta только для управления метаданными (список имен файлов) и загрузки изображений из хранилища объектов, используя их пути при необходимости.