Referentieoplossing voor installatiekopieëntoepassingen
Meer informatie over hoe u gedistribueerde afbeeldingsmodeldeductie uitvoert van referentieoplossingsnotebooks met behulp van pandas UDF, PyTorch en TensorFlow in een gemeenschappelijke configuratie die wordt gedeeld door veel echte installatiekopietoepassingen. Bij deze configuratie wordt ervan uitgegaan dat u veel installatiekopieën opslaat in een objectarchief en eventueel voortdurend nieuwe installatiekopieën hebt.
Werkstroom voor de deductie van het afbeeldingsmodel
Stel dat u verschillende getrainde Deep Learning-modellen (DL) hebt voor afbeeldingsclassificatie en objectdetectie, bijvoorbeeld MobileNetV2 voor het detecteren van menselijke objecten in door de gebruiker geüploade foto's om privacy te beschermen en u wilt deze DL-modellen toepassen op de opgeslagen afbeeldingen.
U kunt de modellen opnieuw trainen en eerder berekende voorspellingen bijwerken. Het is echter zowel I/O-zware als rekenkrachtige om veel installatiekopieën te laden en DL-modellen toe te passen. Gelukkig is de deductieworkload gênant parallel en in theorie kan deze eenvoudig worden gedistribueerd. Deze handleiding begeleidt u door een praktische oplossing die twee belangrijke fasen bevat:
- ETL-installatiekopieën in een Delta-tabel met behulp van automatisch laden
- Gedistribueerde deductie uitvoeren met pandas UDF
ETL-installatiekopieën in een Delta-tabel met behulp van automatisch laden
Voor installatiekopietoepassingen, waaronder trainings- en deductietaken, raadt Databricks u aan OM ETL-installatiekopieën in een Delta-tabel te plaatsen met de Auto Loader. De Auto Loader helpt gegevensbeheer en verwerkt automatisch continu nieuwe installatiekopieën.
ETL-afbeeldingsgegevensset in een Delta-tabelnotitieblok
Gedistribueerde deductie uitvoeren met pandas UDF
De volgende notebooks gebruiken PyTorch en TensorFlow tf. Keras om de referentieoplossing te demonstreren.
Gedistribueerde deductie via Pytorch en pandas UDF-notebook
Gedistribueerde deductie via Keras en pandas UDF-notebook
Beperkingen: Bestandsgrootten van installatiekopieën
Voor grote afbeeldingsbestanden (gemiddelde afbeeldingsgrootte groter dan 100 MB) raadt Databricks aan om alleen de metagegevens (lijst met bestandsnamen) te beheren en de afbeeldingen uit het objectarchief te laden met behulp van hun paden wanneer dat nodig is.