Udostępnij za pośrednictwem


Co to jest analiza obrazu?

Usługa Azure AI Vision Image Analysis może wyodrębnić wiele różnych funkcji wizualnych z obrazów. Na przykład może określić, czy obraz zawiera zawartość dla dorosłych, znaleźć określone marki lub obiekty, czy też znaleźć ludzkie twarze.

Najnowsza wersja usługi Image Analysis, 4.0, która jest teraz ogólnie dostępna, ma nowe funkcje, takie jak synchroniczne wykrywanie OCR i osoby. Zalecamy korzystanie z tej wersji w przyszłości.

Analizy obrazów można używać za pomocą zestawu SDK biblioteki klienta lub bezpośrednio wywołując interfejs API REST. Postępuj zgodnie z przewodnikiem Szybki start , aby rozpocząć pracę.

Możesz też szybko i łatwo wypróbować możliwości analizy obrazów w przeglądarce przy użyciu programu Vision Studio.

Ta dokumentacja zawiera następujące typy artykułów:

  • Przewodniki Szybki start to instrukcje krok po kroku, które umożliwiają wykonywanie wywołań do usługi i uzyskiwanie wyników w krótkim czasie.
  • Przewodniki z instrukcjami zawierają instrukcje dotyczące korzystania z usługi w bardziej szczegółowy lub dostosowany sposób.
  • Artykuły koncepcyjne zawierają szczegółowe wyjaśnienia dotyczące funkcjonalności i funkcji usługi.

Aby uzyskać bardziej ustrukturyzowane podejście, postępuj zgodnie z modułem szkoleniowym dotyczącym analizy obrazów.

Wersje analizy obrazów

Ważne

Wybierz wersję interfejsu API analizy obrazów, która najlepiej odpowiada Twoim wymaganiom.

Wersja Dostępne funkcje Zalecenie
wersja 4.0 Odczytywanie tekstu, podpisów, gęstych podpisów, tagów, wykrywania obiektów, niestandardowej klasyfikacji obrazów/wykrywania obiektów, osób, inteligentnego przycinania Lepsze modele; użyj wersji 4.0, jeśli obsługuje twój przypadek użycia.
wersja 3.2 Tagi, obiekty, opisy, marki, twarze, typ obrazu, schemat kolorów, punkty orientacyjne, gwiazdy, zawartość dla dorosłych, inteligentne przycinanie Szerszy zakres funkcji; użyj wersji 3.2, jeśli twój przypadek użycia nie jest jeszcze obsługiwany w wersji 4.0

Zalecamy użycie interfejsu API Analizy obrazu 4.0, jeśli obsługuje twój przypadek użycia. Użyj wersji 3.2, jeśli twój przypadek użycia nie jest jeszcze obsługiwany przez 4.0.

Musisz również użyć wersji 3.2, jeśli chcesz wykonać podpisy obrazów, a zasób usługi Vision znajduje się poza obsługiwanymi regionami świadczenia usługi Azure. Funkcja podpisów obrazów w usłudze Image Analysis 4.0 jest obsługiwana tylko w niektórych regionach świadczenia usługi Azure. Podpisy obrazów w wersji 3.2 są dostępne we wszystkich regionach usługi Azure AI Vision. Zobacz Dostępność regionów.

Analizowanie obrazu

Możesz analizować obrazy, aby uzyskać szczegółowe informacje o ich cechach i cechach wizualnych. Wszystkie funkcje w tej tabeli są udostępniane przez interfejs API analizowania obrazów. Postępuj zgodnie z przewodnikiem Szybki start , aby rozpocząć pracę.

Nazwa/nazwisko opis Strona koncepcji
Dostosowywanie modelu (tylko wersja zapoznawcza 4.0) (przestarzałe) Można tworzyć i trenować modele niestandardowe w celu przeprowadzenia klasyfikacji obrazów lub wykrywania obiektów. Używanie własnych obrazów, etykietowanie ich za pomocą tagów niestandardowych i analiza obrazów trenuje model dostosowany do twojego przypadku użycia. Dostosowywanie modelu
Odczytywanie tekstu z obrazów (tylko wersja 4.0) Wersja 4.0 w wersji zapoznawczej analizy obrazów umożliwia wyodrębnianie czytelnego tekstu z obrazów. W porównaniu z interfejsem API odczytu async przetwarzanie obrazów 3.2 nowa wersja oferuje znany aparat OCR odczytu w ujednoliconym interfejsie API synchronicznym ulepszonym pod względem wydajności, który ułatwia uzyskiwanie rozpoznawania znaków OCR wraz z innymi szczegółowymi informacjami w jednym wywołaniu interfejsu API. OCR dla obrazów
Wykrywanie osób na obrazach (tylko wersja 4.0) Wersja 4.0 analizy obrazów umożliwia wykrywanie osób pojawiających się na obrazach. Zwracane są współrzędne pola ograniczenia każdej wykrytej osoby wraz z oceną ufności. Wykrywanie osób
Generowanie podpisów obrazów Wygeneruj podpis obrazu w języku czytelnym dla człowieka, używając pełnych zdań. algorytmy przetwarzanie obrazów generują podpisy na podstawie obiektów zidentyfikowanych na obrazie.

Model transkrywowania obrazów w wersji 4.0 jest bardziej zaawansowaną implementacją i współpracuje z szerszym zakresem obrazów wejściowych. Jest ona dostępna tylko w niektórych regionach geograficznych. Zobacz Dostępność regionów.

Wersja 4.0 umożliwia również używanie gęstych podpisów, które generuje szczegółowe podpisy dla poszczególnych obiektów znajdujących się na obrazie. Interfejs API zwraca współrzędne pola ograniczenia (w pikselach) każdego obiektu znalezionego na obrazie oraz podpis. Za pomocą tej funkcji można wygenerować opisy oddzielnych części obrazu.

Zdjęcie krów z prostym opisem po prawej stronie.
Generowanie podpisów obrazów (wersja 3.2)
(wersja 4.0)
Wykrywanie obiektów Wykrywanie obiektów jest podobne do tagowania, ale interfejs API zwraca współrzędne pola ograniczenia dla każdego zastosowanego tagu. Jeśli na przykład obraz zawiera psa, kota i osobę, operacja Wykryj wyświetla listę tych obiektów wraz ze współrzędnymi na obrazie. Ta funkcja umożliwia przetwarzanie dalszych relacji między obiektami na obrazie. Ponadto w odpowiednich przypadkach informuje, że obraz zawiera wiele wystąpień tego samego tagu.

Zdjęcie biura z prostokątem narysowanym wokół laptopa.
Wykrywanie obiektów (wersja 3.2)
(wersja 4.0)
Tagowanie funkcji wizualnych Identyfikowanie i tagowanie elementów wizualnych na obrazie w oparciu o zestaw tysięcy rozpoznawalnych obiektów, istot żywych, scenerii i akcji. Gdy tagi są niejednoznaczne lub nie są powszechnie używane, odpowiedź interfejsu API zawiera wskazówki umożliwiające wyjaśnienie kontekstu tagu. Tagowanie nie jest ograniczone do głównego tematu, na przykład do osoby na pierwszym planie, ale uwzględnia także otoczenie (wewnątrz lub na zewnątrz), meble, narzędzia, rośliny, zwierzęta, akcesoria, gadżety itd.

Zdjęcie deskorolki z tagami wymienionymi po prawej stronie.
Funkcje wizualizacji tagów (wersja 3.2)
(wersja 4.0)
Uzyskiwanie obszaru zainteresowania / inteligentnego przycinania Przeanalizuj zawartość obrazu, aby zwrócić współrzędne obszaru zainteresowania zgodnego z określonym współczynnikiem proporcji. przetwarzanie obrazów zwraca współrzędne pola ograniczenia regionu, więc aplikacja wywołująca może zmodyfikować oryginalny obraz zgodnie z potrzebami.

Model inteligentnego przycinania w wersji 4.0 jest bardziej zaawansowaną implementacją i współpracuje z szerszym zakresem obrazów wejściowych. Jest ona dostępna tylko w niektórych regionach geograficznych. Zobacz Dostępność regionów.
Generowanie miniatury (wersja 3.2)
(wersja zapoznawcza 4.0)
Wykrywanie marek (tylko wersja 3.2) Identyfikuj marki handlowe na obrazach lub filmach na podstawie bazy danych z tysiącami znaków logo z całego świata. Za pomocą tej funkcji można na przykład ustalać, które marki są najpopularniejsze w mediach społecznościowych lub najpowszechniej promowane za pomocą lokowania produktów w mediach. Wykrywanie marek
Kategoryzowanie obrazu (tylko wersja 3.2) Identyfikowanie i kategoryzowanie całego obrazu za pomocą taksonomii kategorii z użyciem dziedzicznych hierarchii obiektów nadrzędnych i podrzędnych. Kategorii można używać oddzielnie lub z naszymi nowymi modelami tagowania.

Obecnie jedynym obsługiwanym językiem tagowania i kategoryzowania obrazów jest angielski.
Kategoryzowanie obrazu
Wykrywanie twarzy (tylko wersja 3.2) Wykrywanie twarzy na obrazie i dostarczanie informacji o każdej wykrytej twarzy. Usługa Azure AI Vision zwraca współrzędne, prostokąt, płeć i wiek dla każdej wykrytej twarzy.

Do tych celów można również użyć dedykowanego interfejsu API rozpoznawania twarzy. Zapewnia bardziej szczegółową analizę, taką jak identyfikacja twarzy i wykrywanie pozy.
Wykrywanie twarzy
Wykrywanie typów obrazów (tylko wersja 3.2) Wykrywanie właściwości obrazu, na przykład czy obraz jest rysunkiem lub prawdopodobieństwa, że obraz jest obiektem clipart. Wykrywanie typów obrazu
Wykrywanie zawartości specyficznej dla domeny (tylko wersja 3.2) Wykrywanie i identyfikowanie zawartości obrazu specyficznej dla domeny, takiej jak osobistości i charakterystyczne elementy krajobrazu, przy użyciu modeli domeny. Jeśli na przykład obraz zawiera osoby, usługa Azure AI Vision może użyć modelu domeny dla osobistości, aby określić, czy osoby wykryte na obrazie są znane osobistości. Wykrywanie zawartości specyficznej dla domeny
Wykrywanie schematu kolorów (tylko wersja 3.2) Analizowanie użycia kolorów na obrazie. Usługa Azure AI Vision może określić, czy obraz jest i biały, czy kolorowy, a w przypadku obrazów kolorów zidentyfikuj kolory dominujące i wyróżniające. Wykrywanie schematu kolorów
Moderowanie zawartości na obrazach (tylko wersja 3.2) Usługa Azure AI Vision umożliwia wykrywanie zawartości dla dorosłych na obrazie i zwracanie wyników ufności dla różnych klasyfikacji. Próg flagowania zawartości można ustawić na przesuwanej skali, aby dostosować się do preferencji. Wykrywanie zawartości dla dorosłych

Rozpoznawanie produktów (tylko wersja zapoznawcza 4.0) (przestarzałe)

Ważne

Ta funkcja jest teraz przestarzała. 10 stycznia 2025 r. zostanie wycofana usługa Azure AI Image Analysis 4.0 Custom Image Classification, Custom Object Detection i Product Recognition (wersja zapoznawcza). Po tej dacie wywołania interfejsu API do tych usług nie powiedzą się.

Aby zapewnić bezproblemową obsługę modeli, przejdź do usługi Azure AI Custom Vision, która jest teraz ogólnie dostępna. Usługa Custom Vision oferuje podobne funkcje do tych funkcji wycofywania.

Interfejsy API rozpoznawania produktów umożliwiają analizowanie zdjęć półek w sklepie detalicznym. Możesz wykryć obecność lub brak produktów i uzyskać ich współrzędne pola ograniczenia. Użyj go w połączeniu z dostosowywaniem modelu, aby wytrenować model w celu zidentyfikowania określonych produktów. Możesz również porównać wyniki rozpoznawania produktów z dokumentem planogramu sklepu.

Rozpoznawanie produktów

Osadzanie wielomodalne (tylko wersja 4.0)

Interfejsy API osadzania wielomodalnego umożliwiają wektoryzacja obrazów i zapytań tekstowych. Konwertują obrazy na współrzędne w przestrzeni wektorów wielowymiarowych. Następnie przychodzące zapytania tekstowe można również konwertować na wektory, a obrazy można dopasować do tekstu na podstawie bliskości semantycznej. Dzięki temu użytkownik może przeszukiwać zestaw obrazów przy użyciu tekstu bez konieczności używania tagów obrazów lub innych metadanych. Bliskość semantyczna często daje lepsze wyniki w wyszukiwaniu.

Interfejs 2024-02-01 API zawiera wielojęzyczny model, który obsługuje wyszukiwanie tekstu w 102 językach. Oryginalny model tylko w języku angielskim jest nadal dostępny, ale nie można go połączyć z nowym modelem w tym samym indeksie wyszukiwania. W przypadku wektoryzowanego tekstu i obrazów przy użyciu modelu tylko w języku angielskim te wektory nie będą zgodne z wielojęzycznymi wektorami tekstu i obrazów.

Te interfejsy API są dostępne tylko w niektórych regionach geograficznych. Zobacz Dostępność regionów.

Osadzanie wielomodalne

Usuwanie tła (tylko wersja zapoznawcza 4.0)

Ważne

Ta funkcja jest teraz przestarzała. 10 stycznia 2025 r. interfejs API analizy obrazów sztucznej inteligencji platformy Azure 4.0 i usługa usuwania w tle zostaną wycofane. Wszystkie żądania do tej usługi nie powiedzą się po tej dacie.

Aby zachować bezproblemową obsługę modeli, zainstaluj model open source Florence 2 i użyj jej regionu do segmentacji funkcji, która umożliwia podobne operacje usuwania w tle.

Usługa Image Analysis 4.0 (wersja zapoznawcza) umożliwia usunięcie tła obrazu. Ta funkcja może wyświetlić obraz wykrytego obiektu pierwszego planu z przezroczystym tłem lub obraz matowy alfa w skali szarości przedstawiający nieprzezroczystość wykrytego obiektu pierwszego planu.

Usuwanie tła

Oryginalny obraz Po usunięciu tła Alfa matowy
Zdjęcie grupy osób korzystających z tabletu. Zdjęcie grupy osób korzystających z tabletu; tło jest przezroczyste. Alfa matte grupy osób.

Limity usługi

Wymagania dotyczące danych wejściowych

Analiza obrazu działa w przypadku obrazów, które spełniają następujące wymagania:

  • Obraz musi być przedstawiony w formacie JPEG, PNG, GIF, BMP, WEBP, ICO, TIFF lub MPO
  • Rozmiar pliku obrazu musi być mniejszy niż 20 megabajtów (MB)
  • Wymiary obrazu muszą być większe niż 50 x 50 pikseli i mniejsze niż 16 000 x 16 000 pikseli

Napiwek

Wymagania wejściowe dotyczące osadzania wielomodalnego są różne i są wyświetlane w wielomodalnych osadzaniach

Obsługa języków

Różne funkcje analizy obrazów są dostępne w różnych językach. Zobacz stronę Obsługa języka.

Dostępność w regionach

Aby korzystać z interfejsów API analizy obrazów, musisz utworzyć zasób usługi Azure AI Vision w obsługiwanym regionie. Funkcje analizy obrazów są dostępne w następujących regionach:

Region (Region) Analizowanie obrazu
(minus 4.0 Podpisy)
Analizowanie obrazu
(w tym 4.0 Podpisy)
Rozpoznawanie produktów Osadzanie wielomodalne Usuwanie tła
Wschodnie stany USA
Zachodnie stany USA
Zachodnie stany USA 2
Francja Środkowa
Europa Północna
West Europe
Szwecja Środkowa
Szwajcaria Północna
Australia Wschodnia
Southeast Asia
Azja Wschodnia
Korea Środkowa
Japonia Wschodnia

Prywatność i zabezpieczenia danych

Podobnie jak we wszystkich usługach azure AI, deweloperzy korzystający z usługi Azure AI Vision powinni mieć świadomość zasad firmy Microsoft dotyczących danych klientów. Aby dowiedzieć się więcej, zobacz stronę usługi Azure AI w Centrum zaufania firmy Microsoft.

Następne kroki

Rozpocznij pracę z usługą Image Analysis, postępując zgodnie z przewodnikiem Szybki start w preferowanym języku programowania i wersji interfejsu API: