Referentieoplossing voor installatiekopieëntoepassingen

Artikel
08/14/2024

Meer informatie over hoe u gedistribueerde afbeeldingsmodeldeductie uitvoert van referentieoplossingsnotebooks met behulp van pandas UDF, PyTorch en TensorFlow in een gemeenschappelijke configuratie die wordt gedeeld door veel echte installatiekopietoepassingen. Bij deze configuratie wordt ervan uitgegaan dat u veel installatiekopieën opslaat in een objectarchief en eventueel voortdurend nieuwe installatiekopieën hebt.

Werkstroom voor de deductie van het afbeeldingsmodel

Stel dat u verschillende getrainde Deep Learning-modellen (DL) hebt voor afbeeldingsclassificatie en objectdetectie, bijvoorbeeld MobileNetV2 voor het detecteren van menselijke objecten in door de gebruiker geüploade foto's om privacy te beschermen en u wilt deze DL-modellen toepassen op de opgeslagen afbeeldingen.

U kunt de modellen opnieuw trainen en eerder berekende voorspellingen bijwerken. Het is echter zowel I/O-zware als rekenkrachtige om veel installatiekopieën te laden en DL-modellen toe te passen. Gelukkig is de deductieworkload gênant parallel en in theorie kan deze eenvoudig worden gedistribueerd. Deze handleiding begeleidt u door een praktische oplossing die twee belangrijke fasen bevat:

ETL-installatiekopieën in een Delta-tabel met behulp van automatisch laden
Gedistribueerde deductie uitvoeren met pandas UDF

ETL-installatiekopieën in een Delta-tabel met behulp van automatisch laden

Voor installatiekopietoepassingen, waaronder trainings- en deductietaken, raadt Databricks u aan OM ETL-installatiekopieën in een Delta-tabel te plaatsen met de Auto Loader. De Auto Loader helpt gegevensbeheer en verwerkt automatisch continu nieuwe installatiekopieën.

ETL-afbeeldingsgegevensset in een Delta-tabelnotitieblok

Notebook downloaden

Gedistribueerde deductie uitvoeren met pandas UDF

De volgende notebooks gebruiken PyTorch en TensorFlow tf. Keras om de referentieoplossing te demonstreren.

Gedistribueerde deductie via Pytorch en pandas UDF-notebook

Notebook downloaden

Gedistribueerde deductie via Keras en pandas UDF-notebook

Notebook downloaden

Beperkingen: Bestandsgrootten van installatiekopieën

Voor grote afbeeldingsbestanden (gemiddelde afbeeldingsgrootte groter dan 100 MB) raadt Databricks aan om alleen de metagegevens (lijst met bestandsnamen) te beheren en de afbeeldingen uit het objectarchief te laden met behulp van hun paden wanneer dat nodig is.

Delen via

Referentieoplossing voor installatiekopieëntoepassingen

Werkstroom voor de deductie van het afbeeldingsmodel

ETL-installatiekopieën in een Delta-tabel met behulp van automatisch laden

ETL-afbeeldingsgegevensset in een Delta-tabelnotitieblok

Gedistribueerde deductie uitvoeren met pandas UDF

Gedistribueerde deductie via Pytorch en pandas UDF-notebook

Gedistribueerde deductie via Keras en pandas UDF-notebook

Beperkingen: Bestandsgrootten van installatiekopieën

Feedback

Aanvullende resources