Udostępnij za pośrednictwem


Rozwiązanie referencyjne dla aplikacji obrazów

Dowiedz się, jak wnioskować model obrazów rozproszonych z notesów rozwiązań referencyjnych przy użyciu funkcji UDF bibliotek pandas, PyTorch i TensorFlow w typowej konfiguracji współużytkowanej przez wiele rzeczywistych aplikacji obrazów. W tej konfiguracji przyjęto założenie, że wiele obrazów jest przechowywanych w magazynie obiektów i opcjonalnie stale odbieranych nowych obrazów.

Przepływ pracy wnioskowania modelu obrazów

Załóżmy, że masz kilka wytrenowanych modeli uczenia głębokiego na potrzeby klasyfikacji obrazów i wykrywania obiektów — na przykład MobileNetV2 do wykrywania obiektów ludzkich na zdjęciach przekazanych przez użytkownika w celu ochrony prywatności — i chcesz zastosować te modele DL do przechowywanych obrazów.

Możesz ponownie trenować modele i aktualizować wcześniej obliczone przewidywania. Jednak zarówno operacje we/wy, jak i obliczenia są duże, aby załadować wiele obrazów i zastosować modele DL. Na szczęście obciążenie wnioskowania jest kłopotliwie równoległe i teoretycznie można je łatwo dystrybuować. Ten przewodnik przeprowadzi Cię przez praktyczne rozwiązanie, które zawiera dwa główne etapy:

  1. Obrazy ETL do tabeli delty przy użyciu modułu automatycznego ładowania
  2. Wykonywanie wnioskowania rozproszonego przy użyciu funkcji zdefiniowanej przez użytkownika biblioteki pandas

Obrazy ETL do tabeli delty przy użyciu modułu automatycznego ładowania

W przypadku aplikacji obrazów, w tym zadań trenowania i wnioskowania, usługa Databricks zaleca tworzenie obrazów ETL w tabeli delty z funkcją automatycznego ładowania. Moduł automatycznego ładowania ułatwia zarządzanie danymi i automatycznie obsługuje ciągłe dostarczanie nowych obrazów.

Zestaw danych obrazów ETL do notesu tabeli delty

Pobieranie notesu

Wykonywanie wnioskowania rozproszonego przy użyciu funkcji zdefiniowanej przez użytkownika biblioteki pandas

W poniższych notesach używane są narzędzia PyTorch i TensorFlow tf. Interfejs Keras do zademonstrowania rozwiązania referencyjnego.

Wnioskowanie rozproszone za pośrednictwem notesu Pytorch i biblioteki pandas UDF

Pobieranie notesu

Wnioskowanie rozproszone za pośrednictwem notesu protokołu Keras i biblioteki pandas UDF

Pobieranie notesu

Ograniczenia: rozmiary plików obrazów

W przypadku dużych plików obrazów (średni rozmiar obrazu większy niż 100 MB) usługa Databricks zaleca używanie tabeli delty tylko do zarządzania metadanymi (listy nazw plików) i ładowania obrazów z magazynu obiektów przy użyciu ich ścieżek w razie potrzeby.