映射應用程式的參考解決方案

瞭解如何使用 Pandas UDF、PyTorch 和 TensorFlow,在許多真實世界映射應用程式共用的常見組態中,從參考解決方案筆記本進行分散式映射模型推斷。 此設定假設您在物件存放區中儲存許多影像,並選擇性地持續抵達新的影像。

影像模型推斷的工作流程

假設您有數個定型的深度學習 (DL) 模型來進行影像分類和物件偵測,例如 MobileNetV2 用於偵測使用者上傳相片中的人類物件,以協助保護隱私權,而您想要將這些 DL 模型套用至預存影像。

您可以重新定型模型,並更新先前計算的預測。 不過,載入許多映射並套用 DL 模型,這兩者都是 I/O 繁重和大量計算。 幸好,推斷工作負載是令人令人難得平行的,理論上可以輕易地散發。 本指南將逐步引導您完成包含兩個主要階段的實際解決方案:

  1. 使用自動載入器將 ETL 影像放入 Delta 資料表
  2. 使用 pandas UDF 執行分散式推斷

使用自動載入器將 ETL 影像放入 Delta 資料表

對於影像應用程式,包括定型和推斷工作,Databricks 建議您使用 自動載入器將 ETL 影像轉換成 Delta 資料表。 自動載入器可協助資料管理,並自動處理持續抵達的新影像。

將 ETL 影像資料集放入 Delta 資料表筆記本

取得筆記本

使用 pandas UDF 執行分散式推斷

下列筆記本使用 PyTorch 和 TensorFlow tf。Keras 示範參考解決方案。

透過 Pytorch 和 pandas UDF 筆記本的分散式推斷

取得筆記本

透過 Keras 和 pandas UDF 筆記本的分散式推斷

取得筆記本

限制:影像檔案大小

對於大型影像檔 (平均影像大小大於 100 MB) ,Databricks 建議只使用 Delta 資料表來管理檔案名 (清單) ,並視需要使用其路徑從物件存放區載入影像。