Co je analýza obrázků?
Služba Azure AI Vision Image Analysis Service dokáže z obrázků extrahovat širokou škálu vizuálních funkcí. Může například určit, jestli obrázek obsahuje obsah pro dospělé, najít konkrétní značky nebo objekty nebo najít lidské tváře.
Nejnovější verze image Analysis 4.0, která je nyní obecně dostupná, má nové funkce, jako je synchronní detekce OCR a lidí. Tuto verzi doporučujeme používat dál.
Analýzu obrázků můžete použít prostřednictvím sady SDK klientské knihovny nebo voláním rozhraní REST API přímo. Začněte podle tohoto rychlého startu .
Nebo si můžete pomocí nástroje Vision Studio vyzkoušet možnosti analýzy obrázků rychle a snadno v prohlížeči.
Tato dokumentace obsahuje následující typy článků:
- Rychlé starty jsou podrobné pokyny, které umožňují volat službu a získat výsledky za krátkou dobu.
- Návody obsahují pokyny pro používání služby konkrétnějšími nebo přizpůsobenými způsoby.
- Koncepční články poskytují podrobné vysvětlení funkcí a funkcí služby.
Pokud chcete strukturovanější přístup, postupujte podle školicího modulu pro analýzu obrázků.
Verze analýzy obrázků
Důležité
Vyberte verzi rozhraní API pro analýzu obrázků, která nejlépe vyhovuje vašim požadavkům.
Verze | Dostupné funkce | Doporučení |
---|---|---|
verze 4.0 | Čtení textu, titulků, hustých titulků, značek, rozpoznávání objektů, vlastní klasifikace obrázků / detekce objektů, lidé, inteligentní oříznutí | Lepší modely; pokud podporuje váš případ použití, použijte verzi 4.0. |
verze 3.2 | Značky, Objekty, Popisy, Značky, Tváře, Typ obrázku, Barevné schéma, Orientační body, Celebrity, Obsah pro dospělé, Inteligentní oříznutí | Širší rozsah funkcí; pokud váš případ použití ještě není ve verzi 4.0 podporovaný, použijte verzi 3.2. |
Pokud podporuje váš případ použití, doporučujeme použít rozhraní API pro analýzu obrázků 4.0. Pokud váš případ použití ještě nepodporuje verze 4.0, použijte verzi 3.2.
Pokud chcete popisky obrázků udělat i mimo podporované oblasti Azure, budete také muset použít verzi 3.2. Funkce titulkování obrázků ve službě Image Analysis 4.0 se podporuje jenom v určitých oblastech Azure. Titulky obrázků ve verzi 3.2 jsou dostupné ve všech oblastech Azure AI Vision. Viz Dostupnost oblastí.
Analýza obrázku
Můžete analyzovat obrázky a poskytnout tak přehled o jejich vizuálních funkcích a vlastnostech. Všechny funkce v této tabulce poskytuje rozhraní API pro analýzu obrázků. Začněte podle rychlého startu .
Název | Popis | Stránka konceptů |
---|---|---|
Přizpůsobení modelu (jenom verze 4.0 Preview) (zastaralé) | Můžete vytvářet a trénovat vlastní modely pro klasifikaci obrázků nebo rozpoznávání objektů. Přineste si vlastní image, označte je vlastními značkami a Analýza obrázků trénuje model přizpůsobený vašemu případu použití. | Přizpůsobení modelu |
Čtení textu z obrázků (pouze v4.0) | Verze 4.0 Preview analýzy obrázků nabízí možnost extrahovat čitelný text z obrázků. V porovnání s asynchronním rozhraním API pro čtení Počítačové zpracování obrazu 3.2 nabízí nová verze známý modul Read OCR v sjednocené synchronní rozhraní API s vylepšeným výkonem, které usnadňuje získání OCR spolu s dalšími přehledy v jednom volání rozhraní API. | OCR pro image |
Detekce lidí na obrázcích (pouze v4.0) | Verze 4.0 analýzy obrázků nabízí možnost detekovat osoby, které se zobrazují na obrázcích. Vrátí se souřadnice ohraničujícího rámečku každé zjištěné osoby spolu se skóre spolehlivosti. | Detekce osob |
Generování titulků obrázků | Pomocí úplných vět vygenerujte titulek obrázku v jazyce čitelným pro člověka. Počítačové zpracování obrazu algoritmy generují titulky na základě objektů identifikovaných na obrázku. Model titulkování obrázků verze 4.0 je pokročilejší implementace a funguje s širší škálou vstupních obrázků. Je k dispozici pouze v určitých geografických oblastech. Viz Dostupnost oblastí. Verze 4.0 také umožňuje používat zhuštěné titulky, které generují podrobné titulky pro jednotlivé objekty nalezené na obrázku. Rozhraní API vrátí souřadnice ohraničujícího rámečku (v pixelech) každého objektu nalezeného na obrázku a titulek. Pomocí této funkce můžete generovat popisy samostatných částí obrázku. |
Generování titulků obrázků (v3.2) (v4.0) |
Detekce objektů | Detekce objektů se podobá označování, ale rozhraní API vrátí souřadnice ohraničujícího rámečku pro každou použitou značku. Pokud například obrázek obsahuje psa, kočku a osobu, zobrazí operace Detect tyto objekty společně s jejich souřadnicemi na obrázku. Pomocí této funkce můžete zpracovat další vztahy mezi objekty na obrázku. Také vám to umožní zjistit, jestli je na obrázku více instancí stejné značky. |
Detekce objektů (v3.2) (v4.0) |
Označování vizuálních vlastností | Identifikujte a označte vizuální funkce na obrázku ze sady tisíců rozpoznatelných objektů, živých věcí, scenérií a akcí. Pokud jsou značky nejednoznačné nebo nejsou běžné znalosti, poskytuje odpověď rozhraní API nápovědu k objasnění kontextu značky. Označování se neomezuje na hlavní předmět, například postavu v popředí, ale zahrnuje také prostředí (interiér nebo exteriér), nábytek, nástroje, rostliny, zvířata, příslušenství, pomůcky atd. |
Označení vizuálních funkcí (v3.2) (v4.0) |
Získání oblasti zájmu / inteligentní oříznutí | Analyzujte obsah obrázku, abyste vrátili souřadnice oblasti zájmu , která odpovídá zadanému poměru stran. Počítačové zpracování obrazu vrátí souřadnice ohraničujícího rámečku oblasti, takže volající aplikace může podle potřeby upravit původní obrázek. Model inteligentního oříznutí verze 4.0 je pokročilejší implementace a funguje s širší škálou vstupních obrázků. Je k dispozici pouze v určitých geografických oblastech. Viz Dostupnost oblastí. |
Vygenerování miniatury (v3.2) (v4.0 Preview) |
Rozpoznání značek (pouze v3.2) | Identifikujte komerční značky na obrázcích nebo videích z databáze tisíců globálních log. Tuto funkci můžete použít například ke zjištění, které značky jsou nejoblíbenější na sociálních sítích nebo nejrozšířenější v umístění mediálních produktů. | Detekce značek |
Kategorizace image (pouze v3.2) | Identifikuje a kategorizuje celý obrázek s využitím taxonomie kategorií s dědičnými hierarchiemi nadřízený/podřízený objekt. Kategorie je možné používat samostatně nebo s našimi novými modely označování. V současné době je jediným podporovaným jazykem pro označování a kategorizaci obrázků angličtina. |
Kategorizace obrázku |
Rozpoznávání tváří (pouze v3.2) | Rozpoznává tváře na obrázku a poskytuje informace o jednotlivých rozpoznaných tvářích. Azure AI Vision vrátí souřadnice, obdélník, pohlaví a věk pro každou detekovanou tvář. K těmto účelům můžete také použít vyhrazené rozhraní API pro rozpoznávání tváře. Poskytuje podrobnější analýzu, jako je identifikace obličeje a detekce pozice. |
Rozpoznávání tváří |
Detekce typů obrázků (pouze verze 3.2) | Rozpoznává charakteristiky obrázku, například jestli jde o perokresbu nebo s jakou pravděpodobností je obrázek klipart. | Rozpoznávání typů obrázků |
Zjištění obsahu specifického pro doménu (pouze verze 3.2) | S využitím doménových modelů rozpoznává a identifikuje obsah obrázku specifický pro doménu, například celebrity a památky. Pokud například obrázek obsahuje lidi, azure AI Vision může pomocí doménového modelu pro celebrity určit, jestli jsou lidé na obrázku známí celebritami. | Rozpoznávání obsahu specifického doménu |
Zjištění barevného schématu (pouze v3.2) | Analyzuje použité barvy na obrázku. Azure AI Vision dokáže určit, jestli je obrázek černobílý nebo barevný a u barevných obrázků identifikuje dominantní a zvýrazněné barvy. | Rozpoznávání barevného schématu |
Moderování obsahu v obrázcích (pouze v3.2) | Pomocí služby Azure AI Vision můžete detekovat obsah pro dospělé na obrázku a vrátit skóre spolehlivosti pro různé klasifikace. Prahovou hodnotu pro obsah s příznakem lze nastavit na posuvné škále, aby vyhovovala vašim preferencím. | Zjištění obsahu pro dospělé |
Rozpoznávání produktů (jenom verze 4.0 Preview) (zastaralé)
Důležité
Tato funkce je teď zastaralá. 10. ledna 2025 se vyřadí vlastní klasifikace obrázků Azure AI 4.0, rozpoznávání vlastních objektů a rozhraní API verze Preview pro rozpoznávání produktů. Po tomto datu se volání rozhraní API do těchto služeb nezdaří.
Pokud chcete zachovat hladký provoz modelů, přejděte na Azure AI Custom Vision, který je teď obecně dostupný. Custom Vision nabízí podobné funkce jako tyto vyřazené funkce.
Rozhraní API pro rozpoznávání produktů umožňují analyzovat fotky polic v maloobchodě. Můžete zjistit přítomnost nebo nepřítomnost výrobků a získat souřadnice ohraničujícího rámečku. Můžete ho použít v kombinaci s přizpůsobením modelu a vytrénovat model tak, aby identifikoval vaše konkrétní produkty. Výsledky rozpoznávání produktů můžete také porovnat s dokumentem planogramu obchodu.
Vícemodální vkládání (pouze v4.0)
Rozhraní API multimodálních vkládání umožňují vektorizaci obrázků a textových dotazů. Převedou obrázky na souřadnice v multidimenzionálním vektorovém prostoru. Příchozí textové dotazy lze také převést na vektory a obrázky se dají shodovat s textem na základě sémantické blízkosti. To uživateli umožňuje prohledávat sadu obrázků pomocí textu, aniž by museli používat značky obrázků nebo jiná metadata. Sémantická blízkost často vede k lepším výsledkům hledání.
Rozhraní 2024-02-01
API obsahuje vícejazyčný model, který podporuje vyhledávání textu v 102 jazycích. Původní anglický model je stále dostupný, ale nejde ho kombinovat s novým modelem ve stejném indexu vyhledávání. Pokud jste vektorizovali text a obrázky pomocí anglického modelu, nebudou tyto vektory kompatibilní s vícejazyčným textem a vektory obrázků.
Tato rozhraní API jsou dostupná pouze v určitých geografických oblastech. Viz Dostupnost oblastí.
Odebrání pozadí (jenom verze 4.0 Preview)
Důležité
Tato funkce je teď zastaralá. 10. ledna 2025 bude rozhraní API segmentu Azure AI 4.0 a služba pro odebrání pozadí vyřazena. Všechny požadavky na tuto službu selžou po tomto datu.
Pokud chcete zachovat hladký provoz modelů, nainstalujte opensourcový model Florencie 2 a použijte jeho oblast k segmentaci, která umožňuje podobnou operaci odebrání na pozadí.
Image Analysis 4.0 (Preview) nabízí možnost odebrat pozadí obrázku. Tato funkce může buď vypsat obrázek rozpoznaného objektu popředí s průhledným pozadím, nebo obrázek alfa matného stupně šedé zobrazující neprůhlednost rozpoznaného objektu popředí.
Původní obrázek | S odebraným pozadím | Alfa matná |
---|---|---|
Omezení služby
Požadavky na vstup
Analýza obrázků funguje jen u obrázků, které vyhovují následujícím požadavkům:
- Obrázek musí být ve formátu JPEG, PNG, GIF, BMP, WEBP, ICO, TIFF nebo MPO.
- Velikost souboru obrázku musí být menší než 20 megabajtů (MB)
- Rozměry obrázku musí být větší než 50 x 50 pixelů a menší než 16 000 x 16 000 pixelů.
Tip
Požadavky na vstup pro vícemodální vkládání se liší a jsou uvedené v multimodálních vkládáních.
Podpora jazyků
Různé funkce analýzy obrázků jsou dostupné v různých jazycích. Podívejte se na stránku podpory jazyka .
Regionální dostupnost
Pokud chcete používat rozhraní API pro analýzu obrázků, musíte v podporované oblasti vytvořit prostředek Azure AI Vision. Funkce Analýzy obrázků jsou k dispozici v následujících oblastech:
Oblast | Analýza obrázku (minus 4.0 Titulky) |
Analýza obrázku (včetně titulků 4.0) |
Rozpoznávání produktů | Vícemodální vkládání | Odebrání pozadí |
---|---|---|---|---|---|
USA – východ | ✅ | ✅ | ✅ | ✅ | ✅ |
USA – západ | ✅ | ✅ | ✅ | ✅ | |
Západní USA 2 | ✅ | ✅ | ✅ | ||
Francie – střed | ✅ | ✅ | ✅ | ✅ | |
Severní Evropa | ✅ | ✅ | ✅ | ✅ | |
West Europe | ✅ | ✅ | ✅ | ✅ | |
Švédsko – střed | ✅ | ✅ | |||
Švýcarsko – sever | ✅ | ✅ | |||
Austrálie – východ | ✅ | ✅ | |||
Southeast Asia | ✅ | ✅ | ✅ | ✅ | |
Východní Asie | ✅ | ✅ | |||
Jižní Korea – střed | ✅ | ✅ | ✅ | ✅ | |
Japonsko – východ | ✅ | ✅ |
Ochrana osobních údajů a zabezpečení dat
Stejně jako u všech služeb Azure AI by vývojáři, kteří používají službu Azure AI Vision, měli vědět o zásadách Microsoftu ohledně zákaznických dat. Další informace najdete na stránce služeb Azure AI v Centru zabezpečení Microsoftu.
Další kroky
Začněte se službou Image Analysis podle úvodní příručky k preferovanému vývojovému jazyku a verzi rozhraní API: