Co je analýza obrázků?

Článek
02/20/2024

Služba Azure AI Vision Image Analysis Service dokáže z obrázků extrahovat širokou škálu vizuálních funkcí. Může například určit, jestli obrázek obsahuje obsah pro dospělé, najít konkrétní značky nebo objekty nebo najít lidské tváře.

Nejnovější verze image Analysis 4.0, která je nyní obecně dostupná, má nové funkce, jako je synchronní detekce OCR a lidí. Tuto verzi doporučujeme používat dál.

Analýzu obrázků můžete použít prostřednictvím sady SDK klientské knihovny nebo voláním rozhraní REST API přímo. Začněte podle tohoto rychlého startu .

Rychlý start

Nebo si můžete pomocí nástroje Vision Studio vyzkoušet možnosti analýzy obrázků rychle a snadno v prohlížeči.

Vyzkoušet Vision Studio

Tato dokumentace obsahuje následující typy článků:

Rychlé starty jsou podrobné pokyny, které umožňují volat službu a získat výsledky za krátkou dobu.
Návody obsahují pokyny pro používání služby konkrétnějšími nebo přizpůsobenými způsoby.
Koncepční články poskytují podrobné vysvětlení funkcí a funkcí služby.
Kurzy jsou delší příručky , které ukazují, jak tuto službu používat jako součást v širších obchodních řešeních.

Pokud chcete strukturovanější přístup, postupujte podle školicího modulu pro analýzu obrázků.

Analýza obrázků pomocí služby Azure AI Vision

Verze analýzy obrázků

Důležité

Vyberte verzi rozhraní API pro analýzu obrázků, která nejlépe vyhovuje vašim požadavkům.

Verze	Dostupné funkce	Doporučení
verze 4.0	Čtení textu, titulků, hustých popis, značek, rozpoznávání objektů, vlastní klasifikace obrázků / detekce objektů, Lidé, inteligentní oříznutí	Lepší modely; pokud podporuje váš případ použití, použijte verzi 4.0.
verze 3.2	Značky, Objekty, Popisy, Značky, Tváře, Typ obrázku, Barevné schéma, Orientační body, Celebrity, Obsah pro dospělé, Inteligentní oříznutí	Širší rozsah funkcí; pokud váš případ použití ještě není ve verzi 4.0 podporovaný, použijte verzi 3.2.

Pokud podporuje váš případ použití, doporučujeme použít rozhraní API pro analýzu obrázků 4.0. Pokud váš případ použití ještě nepodporuje verze 4.0, použijte verzi 3.2.

Pokud chcete udělat obrázek popis a prostředek Vision se nachází mimo tyto oblasti Azure, musíte použít také verzi 3.2: USA – východ, Francie – střed, Korea – střed, Severní Evropa, Jihovýchodní Asie, Západní Evropa a USA – západ, Východní Asie. Funkce image popis v analýze obrázků 4.0 se podporuje jenom v těchto oblastech Azure. Image popis ing ve verzi 3.2 je k dispozici ve všech oblastech Azure AI Vision.

Analýza obrázku

Můžete analyzovat obrázky a poskytnout tak přehled o jejich vizuálních funkcích a vlastnostech. Všechny funkce v tomto seznamu poskytuje rozhraní API pro analýzu obrázků. Začněte podle rychlého startu .

Název	Popis	Stránka konceptů
Přizpůsobení modelu (jenom v4.0 Preview)	Můžete vytvářet a trénovat vlastní modely pro klasifikaci obrázků nebo rozpoznávání objektů. Přineste si vlastní image, označte je vlastními značkami a Analýza obrázků trénuje model přizpůsobený vašemu případu použití.	Přizpůsobení modelu
Čtení textu z obrázků (pouze v4.0)	Verze 4.0 Preview analýzy obrázků nabízí možnost extrahovat čitelný text z obrázků. V porovnání s asynchronním rozhraním API pro čtení Počítačové zpracování obrazu 3.2 nabízí nová verze známý modul Read OCR v sjednocené synchronní rozhraní API s vylepšeným výkonem, které usnadňuje získání OCR spolu s dalšími přehledy v jednom volání rozhraní API.	OCR pro image
Detekce lidí na obrázcích (pouze v4.0)	Verze 4.0 analýzy obrázků nabízí možnost detekovat osoby, které se zobrazují na obrázcích. Vrátí se souřadnice ohraničujícího rámečku každé zjištěné osoby spolu se skóre spolehlivosti.	detekce Lidé
Generování popis obrázků	Vygenerujte popis obrázku v jazyce čitelným pro člověka pomocí celých vět. Počítačové zpracování obrazu algoritmy generují popis na základě objektů identifikovaných na obrázku. Image verze 4.0 popis modelu je pokročilejší implementace a funguje s širší škálou vstupních imagí. Je k dispozici pouze v následujících geografických oblastech: USA – východ, Francie – střed, Korea – střed, Severní Evropa, Jihovýchodní Asie, Západní Evropa, USA – západ. Verze 4.0 také umožňuje používat zhuštěné popis, které generuje podrobné popis pro jednotlivé objekty nalezené na obrázku. Rozhraní API vrátí souřadnice ohraničujícího rámečku (v pixelech) každého objektu nalezeného na obrázku a popis. Pomocí této funkce můžete generovat popisy samostatných částí obrázku.	Generování popis image (v3.2) (v4.0)
Detekce objektů	Detekce objektů se podobá označování, ale rozhraní API vrátí souřadnice ohraničujícího rámečku pro každou použitou značku. Pokud například obrázek obsahuje psa, kočku a osobu, zobrazí operace Detect tyto objekty společně s jejich souřadnicemi na obrázku. Pomocí této funkce můžete zpracovat další vztahy mezi objekty na obrázku. Také vám to umožní zjistit, jestli je na obrázku více instancí stejné značky.	Detekce objektů (v3.2) (v4.0)
Označování vizuálních vlastností	Identifikujte a označte vizuální funkce na obrázku ze sady tisíců rozpoznatelných objektů, živých věcí, scenérií a akcí. Pokud jsou značky nejednoznačné nebo nejsou běžné znalosti, poskytuje odpověď rozhraní API nápovědu k objasnění kontextu značky. Označování se neomezuje na hlavní předmět, například postavu v popředí, ale zahrnuje také prostředí (interiér nebo exteriér), nábytek, nástroje, rostliny, zvířata, příslušenství, pomůcky atd.	Označení vizuálních funkcí (v3.2) (v4.0)
Získání oblasti zájmu / inteligentní oříznutí	Analyzujte obsah obrázku, abyste vrátili souřadnice oblasti zájmu , která odpovídá zadanému poměru stran. Počítačové zpracování obrazu vrátí souřadnice ohraničujícího rámečku oblasti, takže volající aplikace může podle potřeby upravit původní obrázek. Model inteligentního oříznutí verze 4.0 je pokročilejší implementace a funguje s širší škálou vstupních obrázků. Je k dispozici pouze v následujících geografických oblastech: USA – východ, Francie – střed, Korea – střed, Severní Evropa, Jihovýchodní Asie, Západní Evropa, USA – západ.	Vygenerování miniatury (v3.2) (v4.0 Preview)
Rozpoznání značek (pouze v3.2)	Identifikujte komerční značky na obrázcích nebo videích z databáze tisíců globálních log. Tuto funkci můžete použít například ke zjištění, které značky jsou nejoblíbenější na sociálních sítích nebo nejrozšířenější v umístění mediálních produktů.	Detekce značek
Kategorizace image (pouze v3.2)	Identifikuje a kategorizuje celý obrázek s využitím taxonomie kategorií s dědičnými hierarchiemi nadřízený/podřízený objekt. Kategorie je možné používat samostatně nebo s našimi novými modely označování. V současné době je jediným podporovaným jazykem pro označování a kategorizaci obrázků angličtina.	Kategorizace obrázku
Rozpoznávání tváří (pouze v3.2)	Rozpoznává tváře na obrázku a poskytuje informace o jednotlivých rozpoznaných tvářích. Azure AI Vision vrátí souřadnice, obdélník, pohlaví a věk pro každou detekovanou tvář. K těmto účelům můžete také použít vyhrazené rozhraní API pro rozpoznávání tváře. Poskytuje podrobnější analýzu, jako je identifikace obličeje a detekce pozice.	Rozpoznávání tváří
Detekce typů obrázků (pouze verze 3.2)	Rozpoznává charakteristiky obrázku, například jestli jde o perokresbu nebo s jakou pravděpodobností je obrázek klipart.	Rozpoznávání typů obrázků
Zjištění obsahu specifického pro doménu (pouze verze 3.2)	S využitím doménových modelů rozpoznává a identifikuje obsah obrázku specifický pro doménu, například celebrity a památky. Pokud například obrázek obsahuje lidi, azure AI Vision může pomocí doménového modelu pro celebrity určit, jestli jsou lidé na obrázku známí celebritami.	Rozpoznávání obsahu specifického doménu
Zjištění barevného schématu (pouze v3.2)	Analyzuje použité barvy na obrázku. Azure AI Vision dokáže určit, jestli je obrázek černobílý nebo barevný a u barevných obrázků identifikuje dominantní a zvýrazněné barvy.	Rozpoznávání barevného schématu
Moderování obsahu v obrázcích (pouze v3.2)	Pomocí služby Azure AI Vision můžete detekovat obsah pro dospělé na obrázku a vrátit skóre spolehlivosti pro různé klasifikace. Prahovou hodnotu pro obsah s příznakem lze nastavit na posuvné škále, aby vyhovovala vašim preferencím.	Zjištění obsahu pro dospělé

Tip

Funkce Pro čtení textu a rozpoznávání objektů analýzy obrázků můžete použít prostřednictvím služby Azure OpenAI . Model GPT-4 Turbo s obrazem umožňuje chatovat s asistentem umělé inteligence, který dokáže analyzovat obrázky, které sdílíte, a možnost Vylepšení obrazu pomocí funkce Analýza obrazu poskytuje umělé inteligenci další podrobnosti (čitelná textová umístění a umístění objektů) o obrázku. Další informace najdete v rychlém startu GPT-4 Turbo s vision.

Rozpoznávání produktů (pouze verze 4.0 Preview)

Rozhraní API pro rozpoznávání produktů umožňují analyzovat fotky polic v maloobchodě. Můžete zjistit přítomnost nebo nepřítomnost výrobků a získat souřadnice ohraničujícího rámečku. Můžete ho použít v kombinaci s přizpůsobením modelu a vytrénovat model tak, aby identifikoval vaše konkrétní produkty. Výsledky rozpoznávání produktů můžete také porovnat s dokumentem planogramu obchodu.

Rozpoznávání produktů

Vícemodální vkládání (pouze v4.0)

Rozhraní API multimodálních vkládání umožňují vektorizaci obrázků a textových dotazů. Převedou obrázky na souřadnice v multidimenzionálním vektorovém prostoru. Příchozí textové dotazy lze také převést na vektory a obrázky se dají shodovat s textem na základě sémantické blízkosti. To uživateli umožňuje prohledávat sadu obrázků pomocí textu, aniž by museli používat značky obrázků nebo jiná metadata. Sémantická blízkost často vede k lepším výsledkům hledání.

Rozhraní 2024-02-01 API obsahuje vícejazyčný model, který podporuje vyhledávání textu v 102 jazycích. Původní anglický model je stále dostupný, ale nejde ho kombinovat s novým modelem ve stejném indexu vyhledávání. Pokud jste vektorizovali text a obrázky pomocí anglického modelu, nebudou tyto vektory kompatibilní s vícejazyčným textem a vektory obrázků.

Tato rozhraní API jsou dostupná pouze v následujících geografických oblastech: USA – východ, Francie – střed, Korea – střed, Severní Evropa, Jihovýchodní Asie, Západní Evropa, USA – západ.

Vícemodální vkládání

Odebrání pozadí (jenom verze 4.0 Preview)

Image Analysis 4.0 (Preview) nabízí možnost odebrat pozadí obrázku. Tato funkce může buď vypsat obrázek rozpoznaného objektu popředí s průhledným pozadím, nebo obrázek alfa matného stupně šedé zobrazující neprůhlednost rozpoznaného objektu popředí.

Odebrání pozadí

Původní obrázek	S odebraným pozadím	Alfa matná

Analýza obrázků funguje jen u obrázků, které vyhovují následujícím požadavkům:

Obrázek musí být ve formátu JPEG, PNG, GIF, BMP, WEBP, ICO, TIFF nebo MPO.
Velikost souboru obrázku musí být menší než 20 megabajtů (MB)
Rozměry obrázku musí být větší než 50 x 50 pixelů a menší než 16 000 x 16 000 pixelů.

Tip

Požadavky na vstup pro vícemodální vkládání se liší a jsou uvedené v multimodálních vkládáních.

Ochrana osobních údajů a zabezpečení dat

Stejně jako u všech služeb Azure AI by vývojáři, kteří používají službu Azure AI Vision, měli vědět o zásadách Microsoftu ohledně zákaznických dat. Další informace najdete na stránce služeb Azure AI v Centru zabezpečení Microsoftu.

Další kroky

Začněte s analýzou obrázků podle pokynů k rychlému startu ve vašem preferovaném vývojovém jazyce: