Sdílet prostřednictvím


Co je analýza obrázků?

Služba Azure AI Vision Image Analysis Service dokáže z obrázků extrahovat širokou škálu vizuálních funkcí. Může například určit, jestli obrázek obsahuje obsah pro dospělé, najít konkrétní značky nebo objekty nebo najít lidské tváře.

Nejnovější verze image Analysis 4.0, která je nyní obecně dostupná, má nové funkce, jako je synchronní detekce OCR a lidí. Tuto verzi doporučujeme používat dál.

Analýzu obrázků můžete použít prostřednictvím sady SDK klientské knihovny nebo voláním rozhraní REST API přímo. Postupujte podle quickstart pro zahájení.

Nebo si můžete pomocí nástroje Vision Studio vyzkoušet možnosti analýzy obrázků rychle a snadno v prohlížeči.

Tato dokumentace obsahuje následující typy článků:

  • Rychlé začátky jsou podrobné pokyny, které umožňují volat službu a získat výsledky během krátké doby.
  • Návody obsahují pokyny pro používání služby konkrétnějšími nebo přizpůsobenými způsoby.
  • Koncepční články poskytují podrobné vysvětlení funkcí a funkcí služby.

Pokud chcete strukturovanější přístup, postupujte podle školicího modulu pro analýzu obrázků.

Verze obrázkové analýzy

Důležité

Vyberte verzi rozhraní API pro analýzu obrázků, která nejlépe vyhovuje vašim požadavkům.

Verze Dostupné funkce Doporučení
verze 4.0 Čtení textu, popisky, husté popisky, štítky, rozpoznávání objektů, lidé, inteligentní výřez Lepší modely; pokud podporuje váš případ použití, použijte verzi 4.0.
verze 3.2 Tagy, Objekty, Popisy, Značky, Tváře, Typ obrázku, Barevné schéma, Orientační body, Celebrity, Obsah pro dospělé, Inteligentní oříznutí Širší rozsah funkcí; pokud váš případ použití ještě není ve verzi 4.0 podporovaný, použijte verzi 3.2.

Pokud podporuje váš případ použití, doporučujeme použít rozhraní API pro analýzu obrázků 4.0. Pokud váš případ použití ještě nepodporuje verze 4.0, použijte verzi 3.2.

Pokud chcete popisovat obrázky a váš Vision zdroj je mimo podporované oblasti Azure, budete také muset použít verzi 3.2. Funkce titulkování obrázků ve službě Image Analysis 4.0 se podporuje jenom v určitých oblastech Azure. Titulky obrázků ve verzi 3.2 jsou dostupné ve všech oblastech Azure AI Vision. Viz Dostupnost oblastí.

Analýza obrázku

Můžete analyzovat obrázky a poskytnout tak přehled o jejich vizuálních funkcích a vlastnostech. Všechny funkce v této tabulce poskytuje rozhraní API pro analýzu obrázků. Začněte s rychlým návodem .

Název Popis Stránka konceptů
Přizpůsobení modelu (jenom verze 4.0 Preview) (zastaralé) Můžete vytvářet a trénovat vlastní modely pro klasifikaci obrázků nebo rozpoznávání objektů. Přineste si vlastní image, označte je vlastními značkami a Analýza obrázků trénuje model přizpůsobený vašemu případu použití. Přizpůsobení modelu
Čtení textu z obrázků (pouze v4.0) Verze 4.0 Preview analýzy obrázků nabízí možnost extrahovat čitelný text z obrázků. V porovnání s asynchronním rozhraním API pro čtení Počítačového zpracování obrazu 3.2 nabízí nová verze známý modul Read OCR ve sjednoceném synchronním rozhraní API se zlepšeným výkonem, které umožňuje snadno získat OCR spolu s dalšími přehledy jedním voláním rozhraní API. OCR pro image
Detekce lidí na obrázcích (pouze v4.0) Verze 4.0 analýzy obrázků nabízí možnost detekovat osoby, které se zobrazují na obrázcích. Vrátí se souřadnice ohraničujícího rámečku každé zjištěné osoby spolu se skóre spolehlivosti. Detekce osob
Generování titulků obrázků Pomocí úplných vět vygenerujte titulek obrázku v jazyce čitelným pro člověka. Počítačové zpracování obrazu algoritmy generují titulky na základě objektů identifikovaných na obrázku.

Model titulkování obrázků verze 4.0 je pokročilejší implementace a funguje s širší škálou vstupních obrázků. Je k dispozici pouze v určitých geografických oblastech. Viz Dostupnost oblastí.

Verze 4.0 také umožňuje používat zhuštěné titulky, které generují podrobné titulky pro jednotlivé objekty nalezené na obrázku. Rozhraní API vrátí souřadnice ohraničujícího rámečku (v pixelech) každého objektu nalezeného na obrázku a titulek. Pomocí této funkce můžete generovat popisy samostatných částí obrázku.

Fotka krav s jednoduchým popisem vpravo.
Generování titulků obrázků (v3.2)
(v4.0)
Detekce objektů Detekce objektů se podobá označování, ale rozhraní API vrátí souřadnice ohraničujícího rámečku pro každou použitou značku. Pokud například obrázek obsahuje psa, kočku a osobu, zobrazí operace Detect tyto objekty společně s jejich souřadnicemi na obrázku. Pomocí této funkce můžete zpracovat další vztahy mezi objekty na obrázku. Také vám to umožní zjistit, jestli je na obrázku více výskytů stejného tagu.

Fotka kanceláře s obdélníkem nakresleným kolem přenosného počítače
Detekce objektů (v3.2)
(v4.0)
Označování vizuálních vlastností Identifikujte a označte vizuální funkce na obrázku ze sady tisíců rozpoznatelných objektů, živých věcí, scenérií a akcí. Pokud jsou značky nejednoznačné nebo nejsou obecně známé, odpověď rozhraní API poskytuje nápovědu k objasnění kontextu značky. Označování se neomezuje na hlavní předmět, například postavu v popředí, ale zahrnuje také prostředí (interiér nebo exteriér), nábytek, nástroje, rostliny, zvířata, příslušenství, pomůcky atd.

Fotka skateboarderu se značkami uvedenými vpravo
Označení vizuálních vlastností (v3.2)
(v4.0)
Získání oblasti zájmu / inteligentní oříznutí Analyzujte obsah obrázku, abyste vrátili souřadnice oblasti zájmu , která odpovídá zadanému poměru stran. Počítačové zpracování obrazu vrátí souřadnice ohraničujícího rámečku oblasti, takže volající aplikace může podle potřeby upravit původní obrázek.

Model inteligentního oříznutí verze 4.0 je pokročilejší implementace a funguje s širší škálou vstupních obrázků. Je k dispozici pouze v určitých geografických oblastech. Viz Dostupnost oblastí.
Vygenerování miniatury (v3.2)
(v4.0 Preview)
Rozpoznání značek (pouze v3.2) Identifikujte komerční značky na obrázcích nebo videích z databáze tisíců globálních log. Tuto funkci můžete použít například ke zjištění, které značky jsou nejoblíbenější na sociálních sítích nebo nejrozšířenější v umístění mediálních produktů. Detekce značek
Kategorizujte obrázek (pouze v3.2) Identifikovat a kategorizovat celý obrázek s využitím taxonomie kategorií s hierarchickými úrovněmi rodič/dítě. Kategorie je možné používat samostatně nebo s našimi novými modely označování.

V současné době je jediným podporovaným jazykem pro označování a kategorizaci obrázků angličtina.
Kategorizace obrázku
Rozpoznávání tváří (pouze v3.2) Rozpoznává tváře na obrázku a poskytuje informace o jednotlivých rozpoznaných tvářích. Azure AI Vision vrátí souřadnice, obdélník, pohlaví a věk pro každou detekovanou tvář.

K těmto účelům můžete také použít vyhrazené rozhraní API pro rozpoznávání tváře. Poskytuje podrobnější analýzu, jako je identifikace obličeje a detekce pozice.
Rozpoznávání tváří
Detekce typů obrázků (pouze verze 3.2) Rozpoznává charakteristiky obrázku, například jestli jde o perokresbu nebo s jakou pravděpodobností je obrázek klipart. Rozpoznávání typů obrázků
Zjištění obsahu specifického pro doménu (pouze verze 3.2) S využitím doménových modelů rozpoznává a identifikuje obsah obrázku specifický pro doménu, například celebrity a památky. Pokud například obrázek obsahuje lidi, azure AI Vision může pomocí doménového modelu pro celebrity určit, jestli jsou lidé na obrázku známí celebritami. Rozpoznávání obsahu specifického doménu
Zjištění barevného schématu (pouze v3.2) Analyzuje použité barvy na obrázku. Azure AI Vision dokáže určit, jestli je obrázek černobílý nebo barevný a u barevných obrázků identifikuje dominantní a zvýrazněné barvy. Rozpoznávání barevného schématu
Moderování obsahu v obrázcích (pouze v3.2) Pomocí služby Azure AI Vision můžete detekovat obsah pro dospělé na obrázku a vrátit skóre spolehlivosti pro různé klasifikace. Prahovou hodnotu pro obsah s příznakem lze nastavit na posuvné škále, aby vyhovovala vašim preferencím. Zjištění obsahu pro dospělé

Rozpoznávání produktů (jenom verze 4.0 Preview) (zastaralé)

Důležité

Tato funkce je teď zastaralá. 31. března 2025 bude vyřazeno rozhraní API pro vlastní klasifikaci obrázků, vlastní detekci objektů a rozpoznávání produktů ve verzi Preview v Azure AI Image Analysis 4.0. Po tomto datu se volání rozhraní API do těchto služeb nezdaří.

Pokud chcete zachovat hladký provoz modelů, přejděte na Azure AI Custom Vision, který je teď obecně dostupný. Custom Vision nabízí podobné funkce jako tyto vyřazené funkce.

Rozhraní API pro rozpoznávání produktů umožňují analyzovat fotky polic v maloobchodě. Můžete zjistit přítomnost nebo nepřítomnost výrobků a získat souřadnice ohraničujícího rámečku. Můžete ho použít v kombinaci s přizpůsobením modelu a vytrénovat model tak, aby identifikoval vaše konkrétní produkty. Výsledky rozpoznávání produktů můžete také porovnat s dokumentem planogramu obchodu.

Rozpoznávání produktů

Vícemodální vkládání (pouze v4.0)

API pro multimodální vkládání umožňují vektorizaci obrázků a textových dotazů. Převedou obrázky na souřadnice v multidimenzionálním vektorovém prostoru. Příchozí textové dotazy lze také převést na vektory a obrázky se dají shodovat s textem na základě sémantické blízkosti. To uživateli umožňuje prohledávat sadu obrázků pomocí textu, aniž by museli používat značky obrázků nebo jiná metadata. Sémantická blízkost často vede k lepším výsledkům hledání.

Rozhraní 2024-02-01 API obsahuje vícejazyčný model, který podporuje vyhledávání textu v 102 jazycích. Původní anglický model je stále dostupný, ale nejde ho kombinovat s novým modelem ve stejném indexu vyhledávání. Pokud jste vektorizovali text a obrázky pomocí anglického modelu, nebudou tyto vektory kompatibilní s vícejazyčným textem a vektory obrázků.

Tato rozhraní API jsou dostupná pouze v určitých geografických oblastech. Viz Dostupnost oblastí.

Vícemodální vkládání

Odebrání pozadí (jenom verze 4.0 Preview)

Důležité

Tato funkce je teď zastaralá. 31. března 2025 se vyřadí rozhraní API segmentů Azure AI Analysis 4.0 a služba pro odebrání pozadí. Všechny požadavky na tuto službu selžou po tomto datu.

Funkce segmentace opensourcového modelu Florencie 2 může vyhovovat vašim potřebám. Vrátí alfa mapu označující rozdíl mezi popředím a pozadím, ale původní obrázek neupravuje, aby se odebralo pozadí. Nainstalujte model Florence 2 a vyzkoušejte jeho funkci regionu k segmentaci.

Pokud chcete odebrat plnohodnotné pozadí, zvažte nástroj třetí strany, jako je BiRefNet.

Omezení služby

Požadavky na vstup

Analýza obrázků funguje jen u obrázků, které vyhovují následujícím požadavkům:

  • Obrázek musí být ve formátu JPEG, PNG, GIF, BMP, WEBP, ICO, TIFF nebo MPO.
  • Velikost souboru obrázku musí být menší než 20 megabajtů (MB)
  • Rozměry obrázku musí být větší než 50 x 50 pixelů a menší než 16 000 x 16 000 pixelů.

Návod

Požadavky na vstup pro vícemodální vkládání se liší a jsou uvedené v multimodálních vkládáních.

Podpora jazyků

Různé funkce analýzy obrázků jsou dostupné v různých jazycích. Podívejte se na stránku podpory jazyka .

Regionální dostupnost

Pokud chcete používat rozhraní API pro analýzu obrázků, musíte v podporované oblasti vytvořit prostředek Azure AI Vision. Funkce Analýzy obrázků jsou k dispozici v následujících oblastech:

Oblast Analýza obrázku
(minus 4.0 Titulky)
Analýza obrázku
(včetně titulků verze 4.0)
Rozpoznávání produktů Vícemodální vkládání
USA – východ
USA – západ
Západní USA 2
Francie – střed
Severní Evropa
Západní Evropa
Švédsko – střed
Švýcarsko – sever
Austrálie – východ
Jihovýchodní Asie
Východní Asie
Jižní Korea – střed
Japonsko – východ

Ochrana osobních údajů a zabezpečení dat

Stejně jako u všech služeb Azure AI by vývojáři, kteří používají službu Azure AI Vision, měli vědět o zásadách Microsoftu ohledně zákaznických dat. Další informace najdete na stránce služeb Azure AI v Centru zabezpečení Microsoftu.

Další kroky

Začněte se službou Image Analysis podle úvodní příručky k preferovanému vývojovému jazyku a verzi rozhraní API: