Co to jest analiza obrazu?

Usługa Azure AI Vision Image Analysis może wyodrębnić wiele różnych funkcji wizualnych z obrazów. Na przykład może określić, czy obraz zawiera zawartość dla dorosłych, znaleźć określone marki lub obiekty, czy też znaleźć ludzkie twarze.

Najnowsza wersja usługi Image Analysis, 4.0, która jest teraz ogólnie dostępna, ma nowe funkcje, takie jak synchroniczne wykrywanie OCR i osoby. Zalecamy korzystanie z tej wersji w przyszłości.

Analizy obrazów można używać za pomocą zestawu SDK biblioteki klienta lub bezpośrednio wywołując interfejs API REST. Postępuj zgodnie z przewodnikiem Szybki start , aby rozpocząć pracę.

Możesz też szybko i łatwo wypróbować możliwości analizy obrazów w przeglądarce przy użyciu programu Vision Studio.

Ta dokumentacja zawiera następujące typy artykułów:

  • Przewodniki Szybki start to instrukcje krok po kroku, które umożliwiają wykonywanie wywołań do usługi i uzyskiwanie wyników w krótkim czasie.
  • Przewodniki z instrukcjami zawierają instrukcje dotyczące korzystania z usługi w bardziej szczegółowy lub dostosowany sposób.
  • Artykuły koncepcyjne zawierają szczegółowe wyjaśnienia dotyczące funkcjonalności i funkcji usługi.
  • Samouczki są dłuższymi przewodnikami , które pokazują, jak używać tej usługi jako składnika w szerszych rozwiązaniach biznesowych.

Aby uzyskać bardziej ustrukturyzowane podejście, postępuj zgodnie z modułem szkoleniowym dotyczącym analizy obrazów.

Wersje analizy obrazów

Ważne

Wybierz wersję interfejsu API analizy obrazów, która najlepiej odpowiada Twoim wymaganiom.

Wersja Dostępne funkcje Zalecenie
wersja 4.0 Odczytywanie tekstu, podpisów, gęstych podpis, tagów, wykrywania obiektów, niestandardowej klasyfikacji obrazów/wykrywania obiektów, Osoby, inteligentne przycinanie Lepsze modele; użyj wersji 4.0, jeśli obsługuje twój przypadek użycia.
wersja 3.2 Tagi, obiekty, opisy, marki, twarze, typ obrazu, schemat kolorów, punkty orientacyjne, gwiazdy, zawartość dla dorosłych, inteligentne przycinanie Szerszy zakres funkcji; użyj wersji 3.2, jeśli twój przypadek użycia nie jest jeszcze obsługiwany w wersji 4.0

Zalecamy użycie interfejsu API Analizy obrazu 4.0, jeśli obsługuje twój przypadek użycia. Użyj wersji 3.2, jeśli twój przypadek użycia nie jest jeszcze obsługiwany przez 4.0.

Musisz również użyć wersji 3.2, jeśli chcesz wykonać podpis obrazów, a zasób usługi Vision znajduje się poza tymi regionami platformy Azure: Wschodnie stany USA, Francja Środkowa, Korea Środkowa, Europa Północna, Azja Południowo-Wschodnia, Europa Zachodnia i Zachodnie stany USA, Azja Wschodnia. Funkcja podpis obrazów w narzędziu Image Analysis 4.0 jest obsługiwana tylko w tych regionach świadczenia usługi Azure. Obraz podpis w wersji 3.2 jest dostępny we wszystkich regionach usługi Azure AI Vision.

Analizowanie obrazu

Możesz analizować obrazy, aby uzyskać szczegółowe informacje o ich cechach i cechach wizualnych. Wszystkie funkcje na tej liście są udostępniane przez interfejs API analizowania obrazów. Postępuj zgodnie z przewodnikiem Szybki start , aby rozpocząć pracę.

Nazwa/nazwisko opis Strona koncepcji
Dostosowywanie modelu (tylko wersja zapoznawcza 4.0) Można tworzyć i trenować modele niestandardowe w celu przeprowadzenia klasyfikacji obrazów lub wykrywania obiektów. Używanie własnych obrazów, etykietowanie ich za pomocą tagów niestandardowych i analiza obrazów trenuje model dostosowany do twojego przypadku użycia. Dostosowywanie modelu
Odczytywanie tekstu z obrazów (tylko wersja 4.0) Wersja 4.0 w wersji zapoznawczej analizy obrazów umożliwia wyodrębnianie czytelnego tekstu z obrazów. W porównaniu z interfejsem API odczytu async przetwarzanie obrazów 3.2 nowa wersja oferuje znany aparat OCR odczytu w ujednoliconym interfejsie API synchronicznym ulepszonym pod względem wydajności, który ułatwia uzyskiwanie rozpoznawania znaków OCR wraz z innymi szczegółowymi informacjami w jednym wywołaniu interfejsu API. OCR dla obrazów
Wykrywanie osób na obrazach (tylko wersja 4.0) Wersja 4.0 analizy obrazów umożliwia wykrywanie osób pojawiających się na obrazach. Zwracane są współrzędne pola ograniczenia każdej wykrytej osoby wraz z oceną ufności. wykrywanie Osoby
Generowanie podpis obrazu Wygeneruj podpis obrazu w języku czytelnym dla człowieka przy użyciu pełnych zdań. algorytmy przetwarzanie obrazów generują podpis na podstawie obiektów zidentyfikowanych na obrazie.

Model podpis obrazów w wersji 4.0 jest bardziej zaawansowaną implementacją i współpracuje z szerszym zakresem obrazów wejściowych. Jest ona dostępna tylko w następujących regionach geograficznych: Wschodnie stany USA, Francja Środkowa, Korea Środkowa, Europa Północna, Azja Południowo-Wschodnia, Europa Zachodnia, Zachodnie stany USA.

Wersja 4.0 umożliwia również używanie gęstych podpis, które generuje szczegółowe podpis dla poszczególnych obiektów znalezionych na obrazie. Interfejs API zwraca współrzędne pola ograniczenia (w pikselach) każdego obiektu znalezionego na obrazie oraz podpis. Za pomocą tej funkcji można wygenerować opisy oddzielnych części obrazu.

Zdjęcie krów z prostym opisem po prawej stronie.
Generowanie podpis obrazów (wersja 3.2)
(wersja 4.0)
Wykrywanie obiektów Wykrywanie obiektów jest podobne do tagowania, ale interfejs API zwraca współrzędne pola ograniczenia dla każdego zastosowanego tagu. Jeśli na przykład obraz zawiera psa, kota i osobę, operacja Wykryj wyświetla listę tych obiektów wraz ze współrzędnymi na obrazie. Ta funkcja umożliwia przetwarzanie dalszych relacji między obiektami na obrazie. Ponadto w odpowiednich przypadkach informuje, że obraz zawiera wiele wystąpień tego samego tagu.

Zdjęcie biura z prostokątem narysowanym wokół laptopa.
Wykrywanie obiektów (wersja 3.2)
(wersja 4.0)
Tagowanie funkcji wizualnych Identyfikowanie i tagowanie elementów wizualnych na obrazie w oparciu o zestaw tysięcy rozpoznawalnych obiektów, istot żywych, scenerii i akcji. Gdy tagi są niejednoznaczne lub nie są powszechnie używane, odpowiedź interfejsu API zawiera wskazówki umożliwiające wyjaśnienie kontekstu tagu. Tagowanie nie jest ograniczone do głównego tematu, na przykład do osoby na pierwszym planie, ale uwzględnia także otoczenie (wewnątrz lub na zewnątrz), meble, narzędzia, rośliny, zwierzęta, akcesoria, gadżety itd.

Zdjęcie deskorolki z tagami wymienionymi po prawej stronie.
Funkcje wizualizacji tagów (wersja 3.2)
(wersja 4.0)
Uzyskiwanie obszaru zainteresowania / inteligentnego przycinania Przeanalizuj zawartość obrazu, aby zwrócić współrzędne obszaru zainteresowania zgodnego z określonym współczynnikiem proporcji. przetwarzanie obrazów zwraca współrzędne pola ograniczenia regionu, więc aplikacja wywołująca może zmodyfikować oryginalny obraz zgodnie z potrzebami.

Model inteligentnego przycinania w wersji 4.0 jest bardziej zaawansowaną implementacją i współpracuje z szerszym zakresem obrazów wejściowych. Jest ona dostępna tylko w następujących regionach geograficznych: Wschodnie stany USA, Francja Środkowa, Korea Środkowa, Europa Północna, Azja Południowo-Wschodnia, Europa Zachodnia, Zachodnie stany USA.
Generowanie miniatury (wersja 3.2)
(wersja zapoznawcza 4.0)
Wykrywanie marek (tylko wersja 3.2) Identyfikuj marki handlowe na obrazach lub filmach na podstawie bazy danych z tysiącami znaków logo z całego świata. Za pomocą tej funkcji można na przykład ustalać, które marki są najpopularniejsze w mediach społecznościowych lub najpowszechniej promowane za pomocą lokowania produktów w mediach. Wykrywanie marek
Kategoryzowanie obrazu (tylko wersja 3.2) Identyfikowanie i kategoryzowanie całego obrazu za pomocą taksonomii kategorii z użyciem dziedzicznych hierarchii obiektów nadrzędnych i podrzędnych. Kategorii można używać oddzielnie lub z naszymi nowymi modelami tagowania.

Obecnie jedynym obsługiwanym językiem tagowania i kategoryzowania obrazów jest angielski.
Kategoryzowanie obrazu
Wykrywanie twarzy (tylko wersja 3.2) Wykrywanie twarzy na obrazie i dostarczanie informacji o każdej wykrytej twarzy. Usługa Azure AI Vision zwraca współrzędne, prostokąt, płeć i wiek dla każdej wykrytej twarzy.

Do tych celów można również użyć dedykowanego interfejsu API rozpoznawania twarzy. Zapewnia bardziej szczegółową analizę, taką jak identyfikacja twarzy i wykrywanie pozy.
Wykrywanie twarzy
Wykrywanie typów obrazów (tylko wersja 3.2) Wykrywanie właściwości obrazu, na przykład czy obraz jest rysunkiem lub prawdopodobieństwa, że obraz jest obiektem clipart. Wykrywanie typów obrazu
Wykrywanie zawartości specyficznej dla domeny (tylko wersja 3.2) Wykrywanie i identyfikowanie zawartości obrazu specyficznej dla domeny, takiej jak osobistości i charakterystyczne elementy krajobrazu, przy użyciu modeli domeny. Jeśli na przykład obraz zawiera osoby, usługa Azure AI Vision może użyć modelu domeny dla osobistości, aby określić, czy osoby wykryte na obrazie są znane osobistości. Wykrywanie zawartości specyficznej dla domeny
Wykrywanie schematu kolorów (tylko wersja 3.2) Analizowanie użycia kolorów na obrazie. Usługa Azure AI Vision może określić, czy obraz jest czarny i biały, czy kolorowy, a w przypadku obrazów kolorów zidentyfikuj kolory dominujące i wyróżniające. Wykrywanie schematu kolorów
Moderowanie zawartości na obrazach (tylko wersja 3.2) Usługa Azure AI Vision umożliwia wykrywanie zawartości dla dorosłych na obrazie i zwracanie wyników ufności dla różnych klasyfikacji. Próg flagowania zawartości można ustawić na przesuwanej skali, aby dostosować się do preferencji. Wykrywanie zawartości dla dorosłych

Napiwek

Możesz użyć funkcji odczytu tekstu i wykrywania obiektów analizy obrazów za pośrednictwem usługi Azure OpenAI . Model GPT-4 Turbo with Vision umożliwia rozmowę z asystentem sztucznej inteligencji, który umożliwia analizowanie udostępnianych obrazów, a opcja Ulepszenia obrazów używa funkcji Analiza obrazów, aby uzyskać więcej szczegółów (czytelne lokalizacje tekstu i obiektów) na temat obrazu. Aby uzyskać więcej informacji, zobacz przewodnik Szybki start GPT-4 Turbo with Vision.

Rozpoznawanie produktów (tylko wersja zapoznawcza 4.0)

Interfejsy API rozpoznawania produktów umożliwiają analizowanie zdjęć półek w sklepie detalicznym. Możesz wykryć obecność lub brak produktów i uzyskać ich współrzędne pola ograniczenia. Użyj go w połączeniu z dostosowywaniem modelu, aby wytrenować model w celu zidentyfikowania określonych produktów. Możesz również porównać wyniki rozpoznawania produktów z dokumentem planogramu sklepu.

Rozpoznawanie produktów

Osadzanie wielomodalne (tylko wersja 4.0)

Interfejsy API osadzania wielomodalnego umożliwiają wektoryzacja obrazów i zapytań tekstowych. Konwertują obrazy na współrzędne w przestrzeni wektorów wielowymiarowych. Następnie przychodzące zapytania tekstowe można również konwertować na wektory, a obrazy można dopasować do tekstu na podstawie bliskości semantycznej. Dzięki temu użytkownik może przeszukiwać zestaw obrazów przy użyciu tekstu bez konieczności używania tagów obrazów lub innych metadanych. Bliskość semantyczna często daje lepsze wyniki w wyszukiwaniu.

Interfejs 2024-02-01 API zawiera wielojęzyczny model, który obsługuje wyszukiwanie tekstu w 102 językach. Oryginalny model tylko w języku angielskim jest nadal dostępny, ale nie można go połączyć z nowym modelem w tym samym indeksie wyszukiwania. W przypadku wektoryzowanego tekstu i obrazów przy użyciu modelu tylko w języku angielskim te wektory nie będą zgodne z wielojęzycznymi wektorami tekstu i obrazów.

Te interfejsy API są dostępne tylko w następujących regionach geograficznych: Wschodnie stany USA, Francja Środkowa, Korea Środkowa, Europa Północna, Azja Południowo-Wschodnia, Europa Zachodnia, Zachodnie stany USA.

Osadzanie wielomodalne

Usuwanie tła (tylko wersja zapoznawcza 4.0)

Usługa Image Analysis 4.0 (wersja zapoznawcza) umożliwia usunięcie tła obrazu. Ta funkcja może wyświetlić obraz wykrytego obiektu pierwszego planu z przezroczystym tłem lub obraz matowy alfa w skali szarości przedstawiający nieprzezroczystość wykrytego obiektu pierwszego planu.

Usuwanie tła

Oryginalny obraz Po usunięciu tła Alfa matowy
Zdjęcie grupy osób korzystających z tabletu. Zdjęcie grupy osób korzystających z tabletu; tło jest przezroczyste. Alfa matte grupy osób.

Wymagania dotyczące obrazu

Analiza obrazu działa w przypadku obrazów, które spełniają następujące wymagania:

  • Obraz musi być przedstawiony w formacie JPEG, PNG, GIF, BMP, WEBP, ICO, TIFF lub MPO
  • Rozmiar pliku obrazu musi być mniejszy niż 20 megabajtów (MB)
  • Wymiary obrazu muszą być większe niż 50 x 50 pikseli i mniejsze niż 16 000 x 16 000 pikseli

Napiwek

Wymagania wejściowe dotyczące osadzania wielomodalnego są różne i są wyświetlane w wielomodalnych osadzaniach

Prywatność i zabezpieczenia danych

Podobnie jak we wszystkich usługach azure AI, deweloperzy korzystający z usługi Azure AI Vision powinni mieć świadomość zasad firmy Microsoft dotyczących danych klientów. Aby dowiedzieć się więcej, zobacz stronę usługi Azure AI w Centrum zaufania firmy Microsoft.

Następne kroki

Rozpocznij pracę z usługą Image Analysis, postępując zgodnie z przewodnikiem Szybki start w preferowanym języku programowania: