이미지 애플리케이션에 대한 참조 솔루션
많은 실제 이미지 애플리케이션에서 공유하는 공통 구성에서 pandas UDF, PyTorch 및 TensorFlow를 사용하여 참조 솔루션 Notebook에서 분산 이미지 모델 유추를 수행하는 방법을 알아봅니다. 이 구성에서는 사용자가 개체 저장소에 많은 이미지를 저장하고 있다고 가정하며 선택적으로는 계속해서 새 이미지가 도착한다고 가정합니다.
이미지 모델 추론을 위한 워크플로
이미지 분류 및 개체 감지를 위해 학습된 DL(딥 러닝) 모델이 여러 개 있고(예: 개인 정보 보호를 위해 사용자 업로드 사진에서 사람 개체를 검색하는 MobileNetV2) 이러한 DL 모델을 저장된 이미지에 적용하려고 한다고 가정합니다.
모델을 다시 학습시키고 이전에 계산된 예측을 업데이트할 수 있습니다. 그러나 많은 이미지를 로드하고 DL 모델을 적용하면 I/O와 컴퓨팅이 모두 무거워집니다. 다행스럽게도 유추 워크로드는 처치 곤란 병렬이며 이론상 쉽게 분산될 수 있습니다. 이 가이드는 두 가지 주요 단계를 포함하는 실용적인 솔루션을 안내합니다.
- 자동 로더를 사용하여 Delta 테이블로 이미지를 ETL
- pandas UDF를 사용하여 분산 유추 수행
자동 로더를 사용하여 Delta 테이블로 이미지를 ETL
학습 및 유추 작업을 포함한 이미지 애플리케이션의 경우 Databricks는 자동 로더를 사용하여 이미지를 Delta 테이블로 ETL할 것을 권장합니다. 자동 로더는 데이터 관리를 돕고 지속적으로 도착하는 새 이미지를 자동으로 처리합니다.
이미지 데이터 세트를 Delta 테이블 Notebook으로 ETL
pandas UDF를 사용하여 분산 유추 수행
다음 Notebooks는 PyTorch 및 TensorFlow tf.Keras를 사용하여 참조 솔루션을 시연합니다.
Pytorch 및 pandas UDF Notebook을 통한 분산 유추
Keras 및 pandas UDF Notebook을 통한 분산 유추
제한 사항: 이미지 파일 크기
큰 이미지 파일(평균 이미지 크기가 100MB보다 큼)의 경우 Databricks는 메타데이터(파일 이름 목록)를 관리하는 데만 Delta 테이블을 사용하고 필요할 때 경로를 사용하여 개체 저장소에서 이미지를 로드하는 것이 좋습니다.