Mi az a képelemzés?

Cikk
09/29/2024

Az Azure AI Vision Image Analysis szolgáltatás számos különféle vizuális funkciót képes kinyerni a képekből. Meghatározhatja például, hogy egy kép felnőtt tartalmat tartalmaz-e, konkrét márkákat vagy objektumokat keres, vagy emberi arcokat keres.

A Képelemzés legújabb verziója, a 4.0, amely jelenleg általánosan elérhető, olyan új funkciókkal rendelkezik, mint a szinkron OCR és a személyek észlelése. Javasoljuk, hogy ezt a verziót használja tovább.

A képelemzést egy ügyfélkódtár SDK-ján keresztül vagy közvetlenül a REST API meghívásával használhatja. Az első lépésekhez kövesse a rövid útmutatót .

Gyors útmutató

Vagy kipróbálhatja a Képelemzés képességeit gyorsan és egyszerűen a böngészőben a Vision Studióval.

A Vision Studio kipróbálása

Ez a dokumentáció a következő típusú cikkeket tartalmazza:

A rövid útmutatók részletes útmutatók , amelyek segítségével hívásokat kezdeményezhet a szolgáltatáshoz, és rövid időn belül eredményeket kaphat.
Az útmutatók konkrétabb vagy testre szabottabb módon tartalmazzák a szolgáltatás használatára vonatkozó utasításokat.
Az elméleti cikkek részletesen ismertetik a szolgáltatás funkcióit és funkcióit.

Strukturáltabb megközelítésért kövesse a Képelemzés betanítási modulját.

Képek elemzése az Azure AI Vision szolgáltatással

Képelemzési verziók

Fontos

Válassza ki a követelményeknek leginkább megfelelő Image Analysis API-verziót.

Verzió	Elérhető funkciók	Ajánlás
4.0-s verzió	Szöveg olvasása, Feliratok, Sűrű feliratok, Címkék, Objektumészlelés, Egyéni képbesorolás/ objektumészlelés, Személyek, Intelligens körülvágás	Jobb modellek; használja a 4.0-s verziót, ha támogatja a használati esetet.
3.2-es verzió	Címkék, Objektumok, Leírások, Márkák, Arcok, Képtípus, Színséma, Nevezetességek, Hírességek, Felnőtt tartalom, Intelligens körülvágás	Szélesebb körű funkciók; használja a 3.2-es verziót, ha a használati eset még nem támogatott a 4.0-s verzióban

Javasoljuk, hogy használja a Image Analysis 4.0 API-t, ha támogatja a használati esetet. Használja a 3.2-es verziót, ha a 4.0 még nem támogatja a használati esetet.

A 3.2-es verziót is használnia kell, ha képfeliratot szeretne készíteni, és a Vision-erőforrás a támogatott Azure-régiókon kívül esik. Az Image Analysis 4.0 képfeliratozási funkciója csak bizonyos Azure-régiókban támogatott. A képfeliratok a 3.2-es verzióban minden Azure AI Vision-régióban elérhetők. Lásd a régió rendelkezésre állását.

Kép elemzése

Elemezheti a képeket, hogy betekintést nyújtson a vizuális jellemzőikbe és jellemzőikbe. A táblázat összes funkcióját az Analyze Image API biztosítja. Az első lépésekhez kövesse a rövid útmutatót.

Név	Leírás	Koncepció lap
Modell testreszabása (csak 4.0-s verziójú előzetes verzió) (elavult)	Egyéni modelleket hozhat létre és taníthat be képbesorolásra vagy objektumészlelésre. Saját képeket hozhat létre, egyéni címkékkel címkézheti meg őket, és az Image Analysis betanít egy, a használati esethez testre szabott modellt.	Modell testreszabása
Szöveg olvasása képekből (csak 4.0-s verzió)	A Képelemzés 4.0-s verziójának előzetes verziója lehetővé teszi, hogy olvasható szöveget nyerjen ki a képekből. Az aszinkron Computer Vision 3.2 Read API-val összehasonlítva az új verzió a jól ismert Read OCR motort kínálja egy egységes, teljesítmény-továbbfejlesztett szinkron API-ban, amely megkönnyíti az OCR és más elemzések lekérését egyetlen API-hívásban.	OCR képekhez
Személyek észlelése képeken (csak 4.0-s verzió esetén)	A Képelemzés 4.0-s verziója lehetővé teszi a képeken megjelenő személyek észlelését. A rendszer visszaadja az észlelt személyek határolókeret-koordinátáit, valamint egy megbízhatósági pontszámot.	Személyek észlelése
Képfeliratok létrehozása	Kép feliratának létrehozása olvasható nyelven, teljes mondatok használatával. A Computer Vision algoritmusai feliratokat hoznak létre a képen azonosított objektumok alapján. A 4.0-s verziójú képfelirat-modell egy fejlettebb implementáció, és a bemeneti képek szélesebb skáláját használja. Csak bizonyos földrajzi régiókban érhető el. Lásd a régió rendelkezésre állását. A 4.0-s verzióban sűrű feliratozást is használhat, amely részletes feliratokat hoz létre a képen található egyes objektumokhoz. Az API a képen található objektumok határolókeret-koordinátáit (képpontban) adja vissza, valamint egy feliratot. Ezzel a funkcióval leírásokat hozhat létre egy kép különálló részeiről.	Képfeliratok létrehozása (3.2-s verzió) (4.0-s verzió)
Objektumok észlelése	Az objektumészlelés hasonló a címkézéshez, de az API az egyes címkék határolókeret-koordinátáit adja vissza. Ha például egy kép egy kutyát, macskát és személyt tartalmaz, az Észlelés művelet felsorolja ezeket az objektumokat a képen lévő koordinátákkal együtt. Ezzel a funkcióval további kapcsolatokat dolgozhat fel a kép objektumai között. Azt is tudatja, hogy egy képen több példány is szerepel ugyanahhoz a címkéhez.	Objektumok észlelése (v3.2) (4.0-s verzió)
Vizuális jellemzők címkézése	A kép vizuális funkcióinak azonosítása és címkézése több ezer felismerhető objektumból, élőlényből, tájból és műveletből. Ha a címkék nem egyértelműek vagy nem általánosak, az API-válasz tippeket ad a címke kontextusának tisztázásához. A címkézés nem korlátozódik a kép fő témájára, például az előtérben szereplő személyre, hanem magában foglalja a környezetet (beltér vagy kültér), bútorokat, eszközöket, növényeket, állatokat, kiegészítőket, készülékeket stb.	Vizuális funkciók címkézése (3.2-s verzió) (4.0-s verzió)
Az érdeklődési terület / intelligens körülvágás lekérése	Elemezze a kép tartalmát a megadott méretaránynak megfelelő terület koordinátáinak visszaadásához. A Computer Vision visszaadja a régió határolókeret-koordinátáit, így a hívó alkalmazás tetszés szerint módosíthatja az eredeti képet. A 4.0-s verzió intelligens körülvágási modellje egy fejlettebb implementáció, és a bemeneti képek szélesebb skáláját használja. Csak bizonyos földrajzi régiókban érhető el. Lásd a régió rendelkezésre állását.	Miniatűr létrehozása (3.2-s verzió) (4.0-s verzió előzetes verzió)
Márkák észlelése (csak 3.2-s verzió esetén)	Kereskedelmi márkák azonosítása képekben vagy videókban több ezer globális emblémát ábrázoló adatbázisból. Ezzel a funkcióval például felfedezheti, hogy mely márkák a legnépszerűbbek a közösségi médiában, vagy melyek a leggyakrabban elterjedtek a médiatermék-elhelyezésben.	Márkák észlelése
Kép kategorizálása (csak 3.2-s verzió esetén)	Felismeri és kategorizálja a teljes képet egy kategóriaelnevezési rendszer segítségével, szülő/gyermek hierarchiák használatával. A kategóriák egyedül vagy az új címkéző modellekkel együtt is használhatóak. Jelenleg az egyetlen támogatott nyelv a képek címkézéséhez és kategorizálásához az angol.	Képek kategorizálása
Arcok észlelése (csak 3.2-s verzió esetén)	Felismeri a képen található arcokat, és információval szolgál minden felismert arccal kapcsolatban. Az Azure AI Vision minden észlelt arc koordinátáit, téglalapjait, nemét és életkorát adja vissza. Ezekhez a célokhoz használhatja a dedikált Face API-t is. Részletesebb elemzést biztosít, például az arcfelismerést és a pózfelismerést.	Arcfelismerés
Képtípusok észlelése (csak 3.2-s verzió esetén)	Észleli a kép jellemzőit, például hogy a kép vonalrajz-e, vagy annak a valószínűségét, hogy a kép ClipArt.	Képek típusának észlelése
Tartományspecifikus tartalom észlelése (csak 3.2-s verzió esetén)	Tartománymodellek segítségével észleli és felismeri a kép tartományspecifikus tartalmát, például a hírességeket vagy nevezetességeket. Ha például egy kép személyeket tartalmaz, az Azure AI Vision egy tartománymodell használatával állapíthatja meg, hogy a képen észlelt személyek ismert hírességek-e.	Tartományspecifikus tartalom észlelése
A színséma észlelése (csak 3.2-s verzió esetén)	A képen használt színek elemzése. Az Azure AI Vision meghatározhatja, hogy egy kép fekete és fehér vagy színes-e, és a színképek esetében azonosítja a domináns és a hangsúlyos színeket.	Színséma észlelése
Mérsékelt tartalom képekben (csak 3.2-s verzió esetén)	Az Azure AI Vision használatával észlelheti a képek felnőtt tartalmát, és megbízhatósági pontszámokat adhat vissza a különböző besorolásokhoz. A tartalom megjelölésének küszöbértéke beállítható csúsztatási skálán a beállításoknak megfelelően.	Felnőtt tartalom észlelése

Termékfelismerés (csak 4.0-s verziójú előzetes verzió) (elavult)

Fontos

Ez a funkció elavult. 2025. január 10-én megszűnnek az Azure AI Vision termékfelismerési és -modell-testreszabási funkciói: ezen dátum után az api-hívások sikertelenek lesznek ezekhez a szolgáltatásokhoz.

A modellek zökkenőmentes működésének fenntartása érdekében váltson az Azure AI Custom Visionre, amely most már általánosan elérhető. A Custom Vision a nyugdíjba vonuló funkciókhoz hasonló funkciókat kínál.

A Termékfelismerés API-k segítségével elemezheti a kiskereskedelmi üzletek polcainak fényképeit. Észlelheti a termékek jelenlétét vagy hiányát, és lekérheti a határolókeret koordinátáit. A modell testreszabásával kombinálva betanítanak egy modellt az adott termékek azonosítására. A termékfelismerési eredményeket összehasonlíthatja az áruház planogram-dokumentumához is.

Termékfelismerés

Multimodális beágyazások (csak 4.0-s verzió)

A multimodális beágyazási API-k lehetővé teszik a képek és szöveges lekérdezések vektorizálását . Többdimenziós vektortérben lévő koordinátákká alakítják a képeket. Ezután a bejövő szöveges lekérdezések vektorokká is konvertálhatók, és a képek szemantikai közelség alapján megfeleltethetők a szövegnek. Ez lehetővé teszi, hogy a felhasználó szöveg használatával keressen képeket anélkül, hogy képcímkéket vagy más metaadatokat kellene használnia. A szemantikai közelség gyakran jobb eredményeket eredményez a keresésben.

Az 2024-02-01 API egy többnyelvű modellt tartalmaz, amely 102 nyelven támogatja a szöveges keresést. Az eredeti csak angol nyelvű modell továbbra is elérhető, de nem kombinálható az új modellel ugyanabban a keresési indexben. Ha csak angol nyelvű modellel vektorizált szöveget és képeket, ezek a vektorok nem lesznek kompatibilisek a többnyelvű szöveg- és képvektorokkal.

Ezek az API-k csak bizonyos földrajzi régiókban érhetők el. Lásd a régió rendelkezésre állását.

Multimodális beágyazások

Háttér eltávolítása (csak 4.0-s verziójú előzetes verzió)

Az Image Analysis 4.0 (előzetes verzió) lehetővé teszi a kép hátterének eltávolítását. Ez a funkció megjelenítheti az észlelt előtérobjektum képét átlátszó háttérrel, vagy egy szürkeárnyalatos alfa matt képet, amely az észlelt előtérobjektum átlátszóságát mutatja.

Háttér eltávolítása

Eredeti kép	Háttér eltávolítása	Alfa matt

Szolgáltatáskorlátok

A képelemzés az alábbi követelményeknek megfelelő képek esetében működik:

A képet JPEG, PNG, GIF, BMP, WEBP, ICO, TIFF vagy MPO formátumban kell használni
A kép fájlmérete nem érheti el a 20 megabájtot (MB)
A kép méretének 50 x 50 képpontnál nagyobbnak és 16 000 x 16 000 képpontnál kisebbnek kell lennie

Tipp.

A multimodális beágyazások bemeneti követelményei eltérőek, és a multimodális beágyazásokban szerepelnek

Nyelvi támogatás

A különböző képelemzési funkciók különböző nyelveken érhetők el. Tekintse meg a Nyelvi támogatási oldalt.

Régiónkénti elérhetőség

Az Image Analysis API-k használatához létre kell hoznia az Azure AI Vision-erőforrást egy támogatott régióban. A képelemzési funkciók a következő régiókban érhetők el:

Régió	Kép elemzése (mínusz 4,0 feliratok)	Kép elemzése (beleértve a 4.0 feliratokat)	Termékfelismerés	Multimodális beágyazások	Háttér eltávolítása
USA keleti régiója	✅	✅	✅	✅	✅
USA nyugati régiója	✅	✅		✅	✅
USA 2. nyugati régiója	✅		✅	✅
Közép-Franciaország	✅	✅		✅	✅
Észak-Európa	✅	✅		✅	✅
Nyugat-Európa	✅	✅		✅	✅
Közép-Svédország	✅			✅
Észak-Svájc	✅			✅
Kelet-Ausztrália	✅			✅
Délkelet-Ázsia	✅	✅		✅	✅
Kelet-Ázsia	✅	✅
Dél-Korea középső régiója	✅	✅		✅	✅
Kelet-Japán	✅			✅

Adatvédelem és biztonság

Az Azure AI-szolgáltatásokhoz hasonlóan az Azure AI Vision szolgáltatást használó fejlesztőknek is tisztában kell lenniük a Microsoft ügyféladatokra vonatkozó szabályzataival. További információért tekintse meg az Azure AI-szolgáltatások oldalát a Microsoft Adatvédelmi központban.

Következő lépések

Az Image Analysis használatának első lépéseihez kövesse az előnyben részesített fejlesztési nyelv és API-verzió rövid útmutatóját:

Megosztás a következőn keresztül: