Mi az a képelemzés?
Az Azure AI Vision Image Analysis szolgáltatás számos különféle vizuális funkciót képes kinyerni a képekből. Meghatározhatja például, hogy egy kép felnőtt tartalmat tartalmaz-e, konkrét márkákat vagy objektumokat keres, vagy emberi arcokat keres.
A Képelemzés legújabb verziója, a 4.0, amely jelenleg általánosan elérhető, olyan új funkciókkal rendelkezik, mint a szinkron OCR és a személyek észlelése. Javasoljuk, hogy ezt a verziót használja tovább.
A képelemzést egy ügyfélkódtár SDK-ján keresztül vagy közvetlenül a REST API meghívásával használhatja. Az első lépésekhez kövesse a rövid útmutatót .
Vagy kipróbálhatja a Képelemzés képességeit gyorsan és egyszerűen a böngészőben a Vision Studióval.
Ez a dokumentáció a következő típusú cikkeket tartalmazza:
- A rövid útmutatók részletes útmutatók , amelyek segítségével hívásokat kezdeményezhet a szolgáltatáshoz, és rövid időn belül eredményeket kaphat.
- Az útmutatók konkrétabb vagy testre szabottabb módon tartalmazzák a szolgáltatás használatára vonatkozó utasításokat.
- Az elméleti cikkek részletesen ismertetik a szolgáltatás funkcióit és funkcióit.
Strukturáltabb megközelítésért kövesse a Képelemzés betanítási modulját.
Képelemzési verziók
Fontos
Válassza ki a követelményeknek leginkább megfelelő Image Analysis API-verziót.
Verzió | Elérhető funkciók | Ajánlás |
---|---|---|
4.0-s verzió | Szöveg olvasása, Feliratok, Sűrű feliratok, Címkék, Objektumészlelés, Egyéni képbesorolás/ objektumészlelés, Személyek, Intelligens körülvágás | Jobb modellek; használja a 4.0-s verziót, ha támogatja a használati esetet. |
3.2-es verzió | Címkék, Objektumok, Leírások, Márkák, Arcok, Képtípus, Színséma, Nevezetességek, Hírességek, Felnőtt tartalom, Intelligens körülvágás | Szélesebb körű funkciók; használja a 3.2-es verziót, ha a használati eset még nem támogatott a 4.0-s verzióban |
Javasoljuk, hogy használja a Image Analysis 4.0 API-t, ha támogatja a használati esetet. Használja a 3.2-es verziót, ha a 4.0 még nem támogatja a használati esetet.
A 3.2-es verziót is használnia kell, ha képfeliratot szeretne készíteni, és a Vision-erőforrás a támogatott Azure-régiókon kívül esik. Az Image Analysis 4.0 képfeliratozási funkciója csak bizonyos Azure-régiókban támogatott. A képfeliratok a 3.2-es verzióban minden Azure AI Vision-régióban elérhetők. Lásd a régió rendelkezésre állását.
Kép elemzése
Elemezheti a képeket, hogy betekintést nyújtson a vizuális jellemzőikbe és jellemzőikbe. A táblázat összes funkcióját az Analyze Image API biztosítja. Az első lépésekhez kövesse a rövid útmutatót.
Név | Leírás | Koncepció lap |
---|---|---|
Modell testreszabása (csak 4.0-s verziójú előzetes verzió) (elavult) | Egyéni modelleket hozhat létre és taníthat be képbesorolásra vagy objektumészlelésre. Saját képeket hozhat létre, egyéni címkékkel címkézheti meg őket, és az Image Analysis betanít egy, a használati esethez testre szabott modellt. | Modell testreszabása |
Szöveg olvasása képekből (csak 4.0-s verzió) | A Képelemzés 4.0-s verziójának előzetes verziója lehetővé teszi, hogy olvasható szöveget nyerjen ki a képekből. Az aszinkron Computer Vision 3.2 Read API-val összehasonlítva az új verzió a jól ismert Read OCR motort kínálja egy egységes, teljesítmény-továbbfejlesztett szinkron API-ban, amely megkönnyíti az OCR és más elemzések lekérését egyetlen API-hívásban. | OCR képekhez |
Személyek észlelése képeken (csak 4.0-s verzió esetén) | A Képelemzés 4.0-s verziója lehetővé teszi a képeken megjelenő személyek észlelését. A rendszer visszaadja az észlelt személyek határolókeret-koordinátáit, valamint egy megbízhatósági pontszámot. | Személyek észlelése |
Képfeliratok létrehozása | Kép feliratának létrehozása olvasható nyelven, teljes mondatok használatával. A Computer Vision algoritmusai feliratokat hoznak létre a képen azonosított objektumok alapján. A 4.0-s verziójú képfelirat-modell egy fejlettebb implementáció, és a bemeneti képek szélesebb skáláját használja. Csak bizonyos földrajzi régiókban érhető el. Lásd a régió rendelkezésre állását. A 4.0-s verzióban sűrű feliratozást is használhat, amely részletes feliratokat hoz létre a képen található egyes objektumokhoz. Az API a képen található objektumok határolókeret-koordinátáit (képpontban) adja vissza, valamint egy feliratot. Ezzel a funkcióval leírásokat hozhat létre egy kép különálló részeiről. |
Képfeliratok létrehozása (3.2-s verzió) (4.0-s verzió) |
Objektumok észlelése | Az objektumészlelés hasonló a címkézéshez, de az API az egyes címkék határolókeret-koordinátáit adja vissza. Ha például egy kép egy kutyát, macskát és személyt tartalmaz, az Észlelés művelet felsorolja ezeket az objektumokat a képen lévő koordinátákkal együtt. Ezzel a funkcióval további kapcsolatokat dolgozhat fel a kép objektumai között. Azt is tudatja, hogy egy képen több példány is szerepel ugyanahhoz a címkéhez. |
Objektumok észlelése (v3.2) (4.0-s verzió) |
Vizuális jellemzők címkézése | A kép vizuális funkcióinak azonosítása és címkézése több ezer felismerhető objektumból, élőlényből, tájból és műveletből. Ha a címkék nem egyértelműek vagy nem általánosak, az API-válasz tippeket ad a címke kontextusának tisztázásához. A címkézés nem korlátozódik a kép fő témájára, például az előtérben szereplő személyre, hanem magában foglalja a környezetet (beltér vagy kültér), bútorokat, eszközöket, növényeket, állatokat, kiegészítőket, készülékeket stb. |
Vizuális funkciók címkézése (3.2-s verzió) (4.0-s verzió) |
Az érdeklődési terület / intelligens körülvágás lekérése | Elemezze a kép tartalmát a megadott méretaránynak megfelelő terület koordinátáinak visszaadásához. A Computer Vision visszaadja a régió határolókeret-koordinátáit, így a hívó alkalmazás tetszés szerint módosíthatja az eredeti képet. A 4.0-s verzió intelligens körülvágási modellje egy fejlettebb implementáció, és a bemeneti képek szélesebb skáláját használja. Csak bizonyos földrajzi régiókban érhető el. Lásd a régió rendelkezésre állását. |
Miniatűr létrehozása (3.2-s verzió) (4.0-s verzió előzetes verzió) |
Márkák észlelése (csak 3.2-s verzió esetén) | Kereskedelmi márkák azonosítása képekben vagy videókban több ezer globális emblémát ábrázoló adatbázisból. Ezzel a funkcióval például felfedezheti, hogy mely márkák a legnépszerűbbek a közösségi médiában, vagy melyek a leggyakrabban elterjedtek a médiatermék-elhelyezésben. | Márkák észlelése |
Kép kategorizálása (csak 3.2-s verzió esetén) | Felismeri és kategorizálja a teljes képet egy kategóriaelnevezési rendszer segítségével, szülő/gyermek hierarchiák használatával. A kategóriák egyedül vagy az új címkéző modellekkel együtt is használhatóak. Jelenleg az egyetlen támogatott nyelv a képek címkézéséhez és kategorizálásához az angol. |
Képek kategorizálása |
Arcok észlelése (csak 3.2-s verzió esetén) | Felismeri a képen található arcokat, és információval szolgál minden felismert arccal kapcsolatban. Az Azure AI Vision minden észlelt arc koordinátáit, téglalapjait, nemét és életkorát adja vissza. Ezekhez a célokhoz használhatja a dedikált Face API-t is. Részletesebb elemzést biztosít, például az arcfelismerést és a pózfelismerést. |
Arcfelismerés |
Képtípusok észlelése (csak 3.2-s verzió esetén) | Észleli a kép jellemzőit, például hogy a kép vonalrajz-e, vagy annak a valószínűségét, hogy a kép ClipArt. | Képek típusának észlelése |
Tartományspecifikus tartalom észlelése (csak 3.2-s verzió esetén) | Tartománymodellek segítségével észleli és felismeri a kép tartományspecifikus tartalmát, például a hírességeket vagy nevezetességeket. Ha például egy kép személyeket tartalmaz, az Azure AI Vision egy tartománymodell használatával állapíthatja meg, hogy a képen észlelt személyek ismert hírességek-e. | Tartományspecifikus tartalom észlelése |
A színséma észlelése (csak 3.2-s verzió esetén) | A képen használt színek elemzése. Az Azure AI Vision meghatározhatja, hogy egy kép fekete és fehér vagy színes-e, és a színképek esetében azonosítja a domináns és a hangsúlyos színeket. | Színséma észlelése |
Mérsékelt tartalom képekben (csak 3.2-s verzió esetén) | Az Azure AI Vision használatával észlelheti a képek felnőtt tartalmát, és megbízhatósági pontszámokat adhat vissza a különböző besorolásokhoz. A tartalom megjelölésének küszöbértéke beállítható csúsztatási skálán a beállításoknak megfelelően. | Felnőtt tartalom észlelése |
Termékfelismerés (csak 4.0-s verziójú előzetes verzió) (elavult)
Fontos
Ez a funkció elavult. 2025. január 10-én megszűnnek az Azure AI Vision termékfelismerési és -modell-testreszabási funkciói: ezen dátum után az api-hívások sikertelenek lesznek ezekhez a szolgáltatásokhoz.
A modellek zökkenőmentes működésének fenntartása érdekében váltson az Azure AI Custom Visionre, amely most már általánosan elérhető. A Custom Vision a nyugdíjba vonuló funkciókhoz hasonló funkciókat kínál.
A Termékfelismerés API-k segítségével elemezheti a kiskereskedelmi üzletek polcainak fényképeit. Észlelheti a termékek jelenlétét vagy hiányát, és lekérheti a határolókeret koordinátáit. A modell testreszabásával kombinálva betanítanak egy modellt az adott termékek azonosítására. A termékfelismerési eredményeket összehasonlíthatja az áruház planogram-dokumentumához is.
Multimodális beágyazások (csak 4.0-s verzió)
A multimodális beágyazási API-k lehetővé teszik a képek és szöveges lekérdezések vektorizálását . Többdimenziós vektortérben lévő koordinátákká alakítják a képeket. Ezután a bejövő szöveges lekérdezések vektorokká is konvertálhatók, és a képek szemantikai közelség alapján megfeleltethetők a szövegnek. Ez lehetővé teszi, hogy a felhasználó szöveg használatával keressen képeket anélkül, hogy képcímkéket vagy más metaadatokat kellene használnia. A szemantikai közelség gyakran jobb eredményeket eredményez a keresésben.
Az 2024-02-01
API egy többnyelvű modellt tartalmaz, amely 102 nyelven támogatja a szöveges keresést. Az eredeti csak angol nyelvű modell továbbra is elérhető, de nem kombinálható az új modellel ugyanabban a keresési indexben. Ha csak angol nyelvű modellel vektorizált szöveget és képeket, ezek a vektorok nem lesznek kompatibilisek a többnyelvű szöveg- és képvektorokkal.
Ezek az API-k csak bizonyos földrajzi régiókban érhetők el. Lásd a régió rendelkezésre állását.
Háttér eltávolítása (csak 4.0-s verziójú előzetes verzió)
Az Image Analysis 4.0 (előzetes verzió) lehetővé teszi a kép hátterének eltávolítását. Ez a funkció megjelenítheti az észlelt előtérobjektum képét átlátszó háttérrel, vagy egy szürkeárnyalatos alfa matt képet, amely az észlelt előtérobjektum átlátszóságát mutatja.
Eredeti kép | Háttér eltávolítása | Alfa matt |
---|---|---|
Szolgáltatáskorlátok
Bemeneti követelmények
A képelemzés az alábbi követelményeknek megfelelő képek esetében működik:
- A képet JPEG, PNG, GIF, BMP, WEBP, ICO, TIFF vagy MPO formátumban kell használni
- A kép fájlmérete nem érheti el a 20 megabájtot (MB)
- A kép méretének 50 x 50 képpontnál nagyobbnak és 16 000 x 16 000 képpontnál kisebbnek kell lennie
Tipp.
A multimodális beágyazások bemeneti követelményei eltérőek, és a multimodális beágyazásokban szerepelnek
Nyelvi támogatás
A különböző képelemzési funkciók különböző nyelveken érhetők el. Tekintse meg a Nyelvi támogatási oldalt.
Régiónkénti elérhetőség
Az Image Analysis API-k használatához létre kell hoznia az Azure AI Vision-erőforrást egy támogatott régióban. A képelemzési funkciók a következő régiókban érhetők el:
Régió | Kép elemzése (mínusz 4,0 feliratok) |
Kép elemzése (beleértve a 4.0 feliratokat) |
Termékfelismerés | Multimodális beágyazások | Háttér eltávolítása |
---|---|---|---|---|---|
USA keleti régiója | ✅ | ✅ | ✅ | ✅ | ✅ |
USA nyugati régiója | ✅ | ✅ | ✅ | ✅ | |
USA 2. nyugati régiója | ✅ | ✅ | ✅ | ||
Közép-Franciaország | ✅ | ✅ | ✅ | ✅ | |
Észak-Európa | ✅ | ✅ | ✅ | ✅ | |
Nyugat-Európa | ✅ | ✅ | ✅ | ✅ | |
Közép-Svédország | ✅ | ✅ | |||
Észak-Svájc | ✅ | ✅ | |||
Kelet-Ausztrália | ✅ | ✅ | |||
Délkelet-Ázsia | ✅ | ✅ | ✅ | ✅ | |
Kelet-Ázsia | ✅ | ✅ | |||
Dél-Korea középső régiója | ✅ | ✅ | ✅ | ✅ | |
Kelet-Japán | ✅ | ✅ |
Adatvédelem és biztonság
Az Azure AI-szolgáltatásokhoz hasonlóan az Azure AI Vision szolgáltatást használó fejlesztőknek is tisztában kell lenniük a Microsoft ügyféladatokra vonatkozó szabályzataival. További információért tekintse meg az Azure AI-szolgáltatások oldalát a Microsoft Adatvédelmi központban.
Következő lépések
Az Image Analysis használatának első lépéseihez kövesse az előnyben részesített fejlesztési nyelv és API-verzió rövid útmutatóját: