Referenciamegoldás képalkalmazásokhoz

Cikk
08/14/2024

Megtudhatja, hogyan következtethet elosztott képmodellekre a referenciamegoldás-jegyzetfüzetekből a pandas UDF, a PyTorch és a TensorFlow használatával egy olyan közös konfigurációban, amelyet számos valós képalkalmazás közösen használ. Ez a konfiguráció feltételezi, hogy sok képet tárol egy objektumtárolóban, és opcionálisan folyamatosan érkeznek új képek.

Képmodell-következtetés munkafolyamata

Tegyük fel, hogy több betanított mélytanulási (DL) modellel rendelkezik a képbesoroláshoz és az objektumészleléshez – például a MobileNetV2-hez, amely emberi objektumokat észlel a felhasználó által feltöltött fényképeken az adatvédelem érdekében –, és ezeket a DL-modelleket a tárolt képekre szeretné alkalmazni.

Előfordulhat, hogy újra betanítsa a modelleket, és frissíti a korábban kiszámított előrejelzéseket. Azonban az I/O-nehéz és a számítási nehéz is sok lemezkép betöltéséhez és DL-modellek alkalmazásához. Szerencsére a következtetési számítási feladat kínosan párhuzamos, és elméletileg könnyen elosztható. Ez az útmutató végigvezeti egy gyakorlati megoldáson, amely két fő szakaszt tartalmaz:

ETL-rendszerképek deltatáblába az Automatikus betöltő használatával
Elosztott következtetés végrehajtása a pandas UDF használatával

ETL-rendszerképek deltatáblába az Automatikus betöltő használatával

Képalkalmazások esetén, beleértve a betanítási és következtetési feladatokat, a Databricks azt javasolja, hogy az automatikus betöltővel ETL-rendszerképeket helyezzen egy Delta-táblába. Az Automatikus betöltő segít az adatkezelésben, és automatikusan kezeli a folyamatosan érkező új képeket.

ETL-rendszerkép adathalmaza Delta-táblajegyzetfüzetbe

Jegyzetfüzet beszerzése

Elosztott következtetés végrehajtása a pandas UDF használatával

Az alábbi jegyzetfüzetek a PyTorch és a TensorFlow tf-et használják. Keras a referenciamegoldás bemutatásához.

Elosztott következtetés a Pytorch és a Pandas UDF-notebookon keresztül

Jegyzetfüzet beszerzése

Elosztott következtetés Keras és pandas UDF-jegyzetfüzeten keresztül

Jegyzetfüzet beszerzése

Korlátozások: Képfájlméretek

Nagyméretű képfájlok (átlagos képméret nagyobb, mint 100 MB) esetén a Databricks azt javasolja, hogy a Delta-táblázatot csak a metaadatok (a fájlnevek listája) kezelésére használja, és szükség esetén töltse be a képeket az objektumtárolóból az elérési útjukkal.

Megosztás a következőn keresztül:

Referenciamegoldás képalkalmazásokhoz

Képmodell-következtetés munkafolyamata

ETL-rendszerképek deltatáblába az Automatikus betöltő használatával

ETL-rendszerkép adathalmaza Delta-táblajegyzetfüzetbe

Elosztott következtetés végrehajtása a pandas UDF használatával

Elosztott következtetés a Pytorch és a Pandas UDF-notebookon keresztül

Elosztott következtetés Keras és pandas UDF-jegyzetfüzeten keresztül

Korlátozások: Képfájlméretek

Visszajelzés

További források