Referenciamegoldás képalkalmazásokhoz
Megtudhatja, hogyan következtethet elosztott képmodellekre a referenciamegoldás-jegyzetfüzetekből a pandas UDF, a PyTorch és a TensorFlow használatával egy olyan közös konfigurációban, amelyet számos valós képalkalmazás közösen használ. Ez a konfiguráció feltételezi, hogy sok képet tárol egy objektumtárolóban, és opcionálisan folyamatosan érkeznek új képek.
Képmodell-következtetés munkafolyamata
Tegyük fel, hogy több betanított mélytanulási (DL) modellel rendelkezik a képbesoroláshoz és az objektumészleléshez – például a MobileNetV2-hez, amely emberi objektumokat észlel a felhasználó által feltöltött fényképeken az adatvédelem érdekében –, és ezeket a DL-modelleket a tárolt képekre szeretné alkalmazni.
Előfordulhat, hogy újra betanítsa a modelleket, és frissíti a korábban kiszámított előrejelzéseket. Azonban az I/O-nehéz és a számítási nehéz is sok lemezkép betöltéséhez és DL-modellek alkalmazásához. Szerencsére a következtetési számítási feladat kínosan párhuzamos, és elméletileg könnyen elosztható. Ez az útmutató végigvezeti egy gyakorlati megoldáson, amely két fő szakaszt tartalmaz:
- ETL-rendszerképek deltatáblába az Automatikus betöltő használatával
- Elosztott következtetés végrehajtása a pandas UDF használatával
ETL-rendszerképek deltatáblába az Automatikus betöltő használatával
Képalkalmazások esetén, beleértve a betanítási és következtetési feladatokat, a Databricks azt javasolja, hogy az automatikus betöltővel ETL-rendszerképeket helyezzen egy Delta-táblába. Az Automatikus betöltő segít az adatkezelésben, és automatikusan kezeli a folyamatosan érkező új képeket.
ETL-rendszerkép adathalmaza Delta-táblajegyzetfüzetbe
Elosztott következtetés végrehajtása a pandas UDF használatával
Az alábbi jegyzetfüzetek a PyTorch és a TensorFlow tf-et használják. Keras a referenciamegoldás bemutatásához.
Elosztott következtetés a Pytorch és a Pandas UDF-notebookon keresztül
Elosztott következtetés Keras és pandas UDF-jegyzetfüzeten keresztül
Korlátozások: Képfájlméretek
Nagyméretű képfájlok (átlagos képméret nagyobb, mint 100 MB) esetén a Databricks azt javasolja, hogy a Delta-táblázatot csak a metaadatok (a fájlnevek listája) kezelésére használja, és szükség esetén töltse be a képeket az objektumtárolóból az elérési útjukkal.