Referenzlösung für Bildanwendungen
Erfahren Sie, wie Sie mit Pandas UDF, PyTorch und TensorFlow in einer gemeinsamen Konfiguration, die von vielen realen Bildanwendungen genutzt wird, verteilte Bildmodellrückschlüsse aus Referenzlösungs-Notebooks durchführen. Bei dieser Konfiguration wird davon ausgegangen, dass Sie viele Bilder in einem Objektspeicher speichern und optional ständig neue Bilder eintreffen.
Workflow für Bildmodellrückschlüsse
Angenommen, Sie verfügen über mehrere trainierte Deep Learning-Modelle (DL-Modelle) für die Bildklassifizierung und Objekterkennung, z. B. MobileNetV2 zum Erkennen menschlicher Objekte in von Benutzern hochgeladenen Fotos zu Datenschutzzwecken, und möchten diese DL-Modelle auf die gespeicherten Bilder anwenden.
Sie können die Modelle erneut trainieren und zuvor berechnete Vorhersagen aktualisieren. Das Laden vieler Bilder und die Anwendung von DL-Modellen erfordern jedoch erhebliches E/A und Computing. Glücklicherweise sind Rückschlussworkloads hochgradig parallel und können theoretisch einfach verteilt werden. Dieser Leitfaden führt Sie durch eine praktische Lösung mit zwei Hauptphasen:
- Extrahieren, Transformieren und Laden von Bildern in eine Delta-Tabelle mithilfe des Autoloaders
- Ausführen von verteilten Rückschlüssen mithilfe von pandas UDF
Extrahieren, Transformieren und Laden von Bildern in eine Delta-Tabelle mithilfe des Autoloaders
Für Bildanwendungen, einschließlich Trainings- und Rückschlussaufgaben, empfiehlt Databricks das Extrahieren, Transformieren und Laden von Bildern mit dem Autoloader in eine Delta-Tabelle. Der Autoloader unterstützt die Datenverwaltung und verarbeitet automatisch kontinuierlich eingehende neue Bilder.
Extrahieren, Transformieren und Laden Sie das Bild-Dataset in ein Delta-Tabellennotebook
Ausführen von verteilten Rückschlüssen mithilfe von pandas UDF
Die folgenden Notebooks verwenden PyTorch und TensorFlow tf.Keras, um die Referenzlösung zu veranschaulichen.
Notebook: Verteilter Rückschluss über Pytorch und pandas UDF
Notebook: Verteilter Rückschluss über Keras und pandas UDF
Einschränkungen: Bilddateigrößen
Für große Bilddateien (durchschnittliche Bildgröße größer als 100 MB) empfiehlt Databricks, die Delta-Tabelle nur bei Bedarf zum Verwalten der Metadaten (Liste der Dateinamen) und zum Laden der Bilder aus dem Objektspeicher mit ihren Pfaden zu verwenden.