이미지 애플리케이션에 대한 참조 솔루션

많은 실제 이미지 애플리케이션에서 공유하는 공통 구성에서 pandas UDF, PyTorch 및 TensorFlow를 사용하여 참조 솔루션 Notebook에서 분산 이미지 모델 유추를 수행하는 방법을 알아봅니다. 이 구성에서는 개체 저장소에 많은 이미지를 저장하고 필요에 따라 지속적으로 새 이미지를 도착한다고 가정합니다.

이미지 모델 추론에 대한 워크플로

이미지 분류 및 개체 검색을 위한 학습된 DL(딥 러닝) 모델이 여러 개인 정보 보호를 위해 사용자가 업로드한 사진에서 인간 개체를 검색하는 MobileNetV2와 같이 이러한 DL 모델을 저장된 이미지에 적용한다고 가정합니다.

모델을 다시 학습시키고 이전에 계산된 예측을 업데이트할 수 있습니다. 그러나 많은 이미지를 로드하고 DL 모델을 적용하는 것은 I/O가 많고 컴퓨팅이 많은 것입니다. 다행히 유추 워크로드는 병렬 처리가 쉽지 않으며 이론적으로 쉽게 배포할 수 있습니다. 이 가이드에서는 두 가지 주요 단계를 포함하는 실용적인 솔루션을 안내합니다.

  1. 자동 로더를 사용하여 델타 테이블에 ETL 이미지
  2. pandas UDF를 사용하여 분산 유추 수행

자동 로더를 사용하여 델타 테이블에 ETL 이미지

학습 및 유추 작업을 포함한 이미지 애플리케이션의 경우 Databricks는 자동 로더를 사용하여 델타 테이블에 이미지를 ETL하는 것이 좋습니다. 자동 로더는 데이터 관리를 돕고 지속적으로 도착하는 새 이미지를 자동으로 처리합니다.

Delta 테이블 Notebook에 대한 ETL 이미지 데이터 세트

Notebook 가져오기

pandas UDF를 사용하여 분산 유추 수행

다음 Notebook에서는 PyTorch 및 TensorFlow tf를 사용합니다. 참조 솔루션을 보여 주는 Keras입니다.

Pytorch 및 pandas UDF Notebook을 통한 분산 유추

Notebook 가져오기

Keras 및 pandas UDF Notebook을 통한 분산 유추

Notebook 가져오기

제한 사항: 이미지 파일 크기

큰 이미지 파일(평균 이미지 크기가 100MB보다 큰 이미지 크기)의 경우 Databricks는 델타 테이블만 사용하여 메타데이터(파일 이름 목록)를 관리하고 필요한 경우 경로를 사용하여 개체 저장소에서 이미지를 로드하는 것이 좋습니다.