Klasyfikacja obrazów na platformie Azure

Azure Blob Storage
Azure Computer Vision
Azure Cosmos DB
Azure Event Grid
Azure Functions

Pomysły dotyczące rozwiązań

W tym artykule opisano pomysł rozwiązania. Architekt chmury może użyć tych wskazówek, aby ułatwić wizualizowanie głównych składników dla typowej implementacji tej architektury. Skorzystaj z tego artykułu jako punktu wyjścia, aby zaprojektować dobrze zaprojektowane rozwiązanie zgodne z konkretnymi wymaganiami obciążenia.

Korzystając z usług platformy Azure, takich jak interfejs API przetwarzanie obrazów i usługa Azure Functions, firmy mogą wyeliminować konieczność zarządzania poszczególnymi serwerami, jednocześnie zmniejszając koszty i wykorzystując wiedzę, którą firma Microsoft opracowała już z przetwarzaniem obrazów za pomocą usług Azure AI. Ten pomysł rozwiązania dotyczy konkretnie przypadku użycia przetwarzania obrazów. Jeśli masz różne potrzeby w zakresie sztucznej inteligencji, rozważ pełny pakiet usług sztucznej inteligencji platformy Azure.

Architektura

Diagram architektury używanej do wykonywania zadań klasyfikacji obrazów.

Pobierz plik programu Visio tego rozwiązania.

Przepływ danych

Ten scenariusz obejmuje składniki zaplecza aplikacji internetowej lub mobilnej. Dane przepływa przez scenariusz w następujący sposób:

  1. Dodawanie nowych plików (przekazywania obrazów) w usłudze Blob Storage wyzwala zdarzenie w usłudze Azure Event Grid. Proces przekazywania można organizować za pośrednictwem sieci Web lub aplikacji mobilnej. Alternatywnie obrazy można przekazywać oddzielnie do usługi Azure Blob Storage.
  2. Usługa Event Grid wysyła powiadomienie wyzwalające funkcje platformy Azure.
  3. Usługa Azure Functions wywołuje interfejs API usługi Azure AI Vision w celu przeanalizowania nowo przekazanego obrazu. Usługa Azure AI Vision uzyskuje dostęp do obrazu za pośrednictwem adresu URL obiektu blob analizowanego przez usługę Azure Functions.
  4. Usługa Azure Functions utrwala odpowiedź interfejsu API przetwarzania obrazów sztucznej inteligencji w usłudze Azure Cosmos DB. Ta odpowiedź zawiera wyniki analizy wraz z metadanymi obrazu.
  5. Wyniki można wykorzystywać i odzwierciedlać na frontonie internetowym lub mobilnym. Należy pamiętać, że to podejście pobiera wyniki klasyfikacji, ale nie przekazanego obrazu.

Składniki

  • Usługa Azure AI Vision jest częścią pakietu usług Azure AI i służy do pobierania informacji o każdym obrazie.
  • Usługa Azure Functions udostępnia interfejs API zaplecza dla aplikacji internetowej. Ta platforma udostępnia również przetwarzanie zdarzeń dla przekazanych obrazów.
  • Usługa Azure Event Grid wyzwala zdarzenie po przekazaniu nowego obrazu do magazynu obiektów blob. Obraz jest następnie przetwarzany za pomocą usługi Azure Functions.
  • Usługa Azure Blob Storage przechowuje wszystkie pliki obrazów, które są przekazywane do aplikacji internetowej, a także wszystkie pliki statyczne używane przez aplikację internetową.
  • Usługa Azure Cosmos DB przechowuje metadane dotyczące każdego przekazanego obrazu, w tym wyniki przetwarzania z interfejsu API przetwarzanie obrazów.

Alternatywy

  • Azure OpenAI GPT-4 Turbo z usługą Vision (wersja zapoznawcza). GPT-4 Turbo with Vision to wielomodalny model, który może analizować obrazy i odpowiadać na pytania dotyczące nich.
  • Custom Vision Service. Interfejs API przetwarzanie obrazów zwraca zestaw kategorii opartych na taksonomii. Jeśli musisz przetworzyć informacje, które nie są zwracane przez interfejs API przetwarzanie obrazów, rozważ usługę Custom Vision Service, która umożliwia tworzenie niestandardowych klasyfikatorów obrazów.
  • Azure AI Search (dawniej Azure Search). Jeśli przypadek użycia obejmuje wykonywanie zapytań dotyczących metadanych w celu znalezienia obrazów spełniających określone kryteria, rozważ użycie usługi Azure AI Search. Wyszukiwanie sztucznej inteligencji platformy Azure bezproblemowo integruje ten przepływ pracy.
  • Usługa Logic Apps. Jeśli nie musisz reagować w czasie rzeczywistym na dodane pliki do obiektu blob, możesz rozważyć użycie usługi Logic Apps. Aplikacja logiki, która może sprawdzić, czy plik został dodany, może zostać uruchomiony przez wyzwalacz cyklu lub wyzwalacz okien przesuwnych.
  • Jeśli masz obrazy osadzone w dokumentach, użyj usługi Azure AI Document Intelligence , aby zlokalizować te obrazy. Dzięki tym informacjom można wyodrębnić i wykonać dalsze zadania przetwarzania obrazów na obrazach osadzonych. Analiza dokumentów służy do zbierania danych dotyczących tych obrazów osadzonych, takich jak numer strony lub tekst podpisu, który można przechowywać wraz z innymi metadanymi obrazów odebranymi za pośrednictwem interfejsu API przetwarzanie obrazów.

Szczegóły scenariusza

Ten scenariusz jest odpowiedni dla firm, które muszą przetwarzać obrazy.

Potencjalne aplikacje obejmują klasyfikowanie obrazów dla witryny internetowej mody, analizowanie tekstu i obrazów dla roszczeń ubezpieczeniowych lub zrozumienie danych telemetrycznych z zrzutów ekranu gry. Tradycyjnie firmy musiałyby rozwijać wiedzę na temat modeli uczenia maszynowego, trenować modele, a na koniec uruchamiać obrazy za pośrednictwem ich niestandardowego procesu, aby uzyskać dane z obrazów.

Potencjalne przypadki użycia

To rozwiązanie jest idealne dla branży handlu detalicznego, gry, finansów i ubezpieczeń. Inne istotne przypadki użycia to:

  • Klasyfikowanie obrazów na stronie internetowej mody. Klasyfikacja obrazów może być używana przez sprzedawców podczas przekazywania zdjęć produktów na platformie do sprzedaży. Następnie mogą zautomatyzować związane z tym ręczne tagowanie. Klienci mogą również wyszukiwać wizualne wrażenie produktów.

  • Klasyfikowanie danych telemetrycznych ze zrzutów ekranu gier. Klasyfikacja gier wideo ze zrzutów ekranu ewoluuje w istotny problem w mediach społecznościowych, w połączeniu z przetwarzaniem obrazów. Na przykład gdy streamerzy Twitch grają w różne gry z rzędu, mogą pominąć ręczne aktualizowanie informacji o strumieniu. Brak aktualizacji informacji o strumieniu może spowodować błędną klasyfikację strumieni w wyszukiwaniu użytkowników i może prowadzić do utraty potencjalnego podglądu zarówno dla twórców zawartości, jak i platform przesyłania strumieniowego. Wprowadzając nowe gry, trasa modelu niestandardowego może być przydatna do wprowadzenia możliwości wykrywania nowych obrazów z tych gier.

  • Klasyfikowanie obrazów roszczeń ubezpieczeniowych. Klasyfikacja obrazów może pomóc skrócić czas i koszty przetwarzania i zapisywania oświadczeń. Może to pomóc w analizie szkód spowodowanych klęskami żywiołowymi, uszkodzeń pojazdów oraz identyfikacji nieruchomości mieszkalnych i komercyjnych.

Następne kroki

Dokumentacja produktu

Aby uzyskać ścieżkę szkoleniową z przewodnikiem, zobacz:

Używanie wzbogacania sztucznej inteligencji z przetwarzaniem obrazów i tekstu