Solución de referencia para aplicaciones de imagen

Obtenga información sobre cómo realizar la inferencia de modelos de imágenes distribuidas a partir de cuadernos de soluciones de referencia mediante UDF de Pandas, PyTorch y TensorFlow en una configuración común compartida por muchas aplicaciones de imágenes reales. Esta configuración supone que almacena muchas imágenes en un almacén de objetos y, opcionalmente, tiene imágenes nuevas que llegan continuamente.

Flujo de trabajo para la inferencia del modelo de imagen

Supongamos que tiene varios modelos de aprendizaje profundo (DL) entrenados para la clasificación de imágenes y la detección de objetos —por ejemplo, MobileNetV2 para detectar objetos humanos en fotos cargadas por el usuario, para ayudar a proteger la privacidad— y quiere aplicar estos modelos de DL a las imágenes almacenadas.

Puede volver a entrenar los modelos y actualizar las predicciones calculadas previamente. Sin embargo, tanto la E/S como los cálculos son pesados, para cargar muchas imágenes y aplicar modelos de DL. Afortunadamente, la carga de trabajo de inferencia es perfectamente paralela y, en teoría, se puede distribuir fácilmente. Esta guía le ofrece una solución práctica, que contiene dos fases principales:

  1. Imágenes ETL en una tabla Delta mediante Auto Loader
  2. Realización de inferencias distribuidas mediante UDF de Pandas

Imágenes ETL en una tabla Delta mediante Auto Loader

Para las aplicaciones de imagen, incluidas las tareas de entrenamiento e inferencia, Databricks recomienda incluir imágenes ETL en una tabla Delta con Auto Loader. Auto Loader ayuda a la administración de datos y controla automáticamente las nuevas imágenes que llegan continuamente.

Conjunto de datos de imágenes ETL en un cuaderno de tablas de Delta

Obtener el cuaderno

Realización de inferencias distribuidas mediante UDF de Pandas

En los cuadernos siguientes se usa PyTorch y TensorFlow tf.Keras para mostrar la solución de referencia.

Inferencia distribuida a través del cuaderno UDF de Pytorch y Pandas

Obtener el cuaderno

Inferencia distribuida a través del cuaderno UDF de Pytorch y Keras

Obtener el cuaderno

Limitaciones: tamaños de archivo de imagen

En el caso de los archivos de imagen grandes (un tamaño medio de imagen superior a 100 MB), Databricks recomienda usar la tabla Delta solo para administrar los metadatos (lista de nombres de archivo), y cargar las imágenes desde el almacén de objetos mediante sus rutas de acceso, cuando sea necesario.