Partilhar via


Solução de referência para aplicações de imagem

Saiba como fazer a inferência de modelos de imagem distribuídos a partir de blocos de notas de solução de referência com o Pandas UDF, PyTorch e TensorFlow numa configuração comum partilhada por muitas aplicações de imagem do mundo real. Esta configuração pressupõe que armazena muitas imagens num arquivo de objetos e, opcionalmente, tem novas imagens que chegam continuamente.

Fluxo de trabalho para inferência do modelo de imagem

Suponha que tem vários modelos de aprendizagem profunda (DL) preparados para classificação de imagens e deteção de objetos( por exemplo, MobileNetV2 para detetar objetos humanos em fotografias carregadas pelo utilizador para ajudar a proteger a privacidade) e quer aplicar estes modelos DL às imagens armazenadas.

Pode voltar a preparar os modelos e atualizar predições calculadas anteriormente. No entanto, é pesado de E/S e computação para carregar muitas imagens e aplicar modelos de DL. Felizmente, a carga de trabalho de inferência é embaraçosamente paralela e, em teoria, pode ser distribuída facilmente. Este guia orienta-o através de uma solução prática que contém duas fases principais:

  1. ETL images into a Delta table using Auto Loader
  2. Executar inferência distribuída com o Pandas UDF

ETL images into a Delta table using Auto Loader

Para aplicações de imagem, incluindo tarefas de preparação e inferência, o Databricks recomenda que etl imagens numa tabela Delta com o Carregador Automático. O Carregador Automático ajuda a gestão de dados e processa automaticamente novas imagens que chegam continuamente.

Conjunto de dados de imagem ETL num bloco de notas de tabela Delta

Obter bloco de notas

Executar inferência distribuída com o Pandas UDF

Os blocos de notas seguintes utilizam o PyTorch e o TensorFlow tf. Keras para demonstrar a solução de referência.

Inferência distribuída através do bloco de notas UDF do Pytorch e pandas

Obter bloco de notas

Inferência distribuída através do bloco de notas UDF do Keras e pandas

Obter bloco de notas

Limitações: Tamanhos dos ficheiros de imagem

Para ficheiros de imagens grandes (tamanho médio de imagem superior a 100 MB), o Databricks recomenda utilizar a tabela Delta apenas para gerir os metadados (lista de nomes de ficheiros) e carregar as imagens do arquivo de objetos com os respetivos caminhos quando necessário.