Referenslösning för avbildningsprogram
Lär dig hur du utför slutsatsdragning av distribuerade avbildningsmodeller från referenslösningsanteckningsböcker med hjälp av Pandas UDF, PyTorch och TensorFlow i en gemensam konfiguration som delas av många verkliga avbildningsprogram. Den här konfigurationen förutsätter att du lagrar många avbildningar i ett objektarkiv och att du eventuellt kontinuerligt kan hämta nya avbildningar.
Arbetsflöde för slutsatsdragning av bildmodell
Anta att du har flera tränade djupinlärningsmodeller (DL) för bildklassificering och objektidentifiering– till exempel MobileNetV2 för att identifiera mänskliga objekt i användaruppladdade foton för att skydda sekretessen – och du vill tillämpa dessa DL-modeller på lagrade bilder.
Du kan träna om modellerna och uppdatera tidigare beräknade förutsägelser. Det är dock både I/O-tungt och beräkningstungt att läsa in många bilder och använda DL-modeller. Lyckligtvis är arbetsbelastningen för slutsatsdragning pinsamt parallell och kan i teorin enkelt distribueras. Den här guiden vägleder dig genom en praktisk lösning som innehåller två huvudsteg:
- ETL-avbildningar i en Delta-tabell med automatisk inläsning
- Utföra distribuerad slutsatsdragning med pandas UDF
ETL-avbildningar i en Delta-tabell med automatisk inläsning
För bildprogram, inklusive tränings- och slutsatsdragningsuppgifter, rekommenderar Databricks att du ETL-avbildningar i en Delta-tabell med autoinläsaren. Den automatiska inläsaren hjälper till med datahantering och hanterar automatiskt nya avbildningar som kommer in kontinuerligt.
ETL-bilddatauppsättning till en Delta-tabellanteckningsbok
Utföra distribuerad slutsatsdragning med pandas UDF
Följande notebook-filer använder PyTorch och TensorFlow tf. Keras för att demonstrera referenslösningen.
Distribuerad slutsatsdragning via Pytorch och pandas UDF-notebook-fil
Distribuerad slutsatsdragning via Keras och Pandas UDF-notebook-fil
Begränsningar: Bildfilstorlekar
För stora bildfiler (genomsnittlig bildstorlek som är större än 100 MB) rekommenderar Databricks att endast använda Delta-tabellen för att hantera metadata (lista över filnamn) och läsa in bilderna från objektlagret med hjälp av sökvägarna när det behövs.