Azure AI-rendszerkép- és videofeldolgozási technológia kiválasztása

Cikk
10/01/2024

Az Azure AI-szolgáltatások segítségével a fejlesztők és szervezetek intelligens, élvonalbeli, piackész és felelős alkalmazásokat hozhatnak létre beépített, előre összeállított és testre szabható API-kkal és modellekkel.

Ez a cikk olyan Azure AI-szolgáltatásokat tartalmaz, amelyek video- és képfeldolgozási képességeket kínálnak, például vizuális elemzést és képek generálását, objektumészlelést, képbesorolást és arcfelismerést.

Szolgáltatások

Az alábbi szolgáltatások videó- és képfeldolgozási képességeket biztosítanak az Azure AI-szolgáltatásokhoz:

Azure OpenAI
- Az Azure OpenAI használata a természetes nyelvről történő képgeneráláshoz előre betanított generatív képalkotó modellek használatával. Például igény szerinti egyéni művészeti alkotások létrehozása.
- Az Azure OpenAI-t akkor használja , ha nem specifikus, széles körű elemzést kell végeznie a képeken. Például akadálymentességi leírásokat hozhat létre.
- Ne használja az Azure OpenAI-t, ha nyílt forráskód Azure Machine Learningben elérhető képgenerálási modelleket szeretne használni.
- Ne használja az Azure OpenAI-t, ha bizonyos típusú képfeldolgozást kell végrehajtania, például űrlapok kinyerése, arcfelismerés vagy tartományspecifikus képjellemzők észlelése. Ezekhez a forgatókönyvekhez használjon vagy hozzon létre kifejezetten erre a célra betanított AI-megoldásokat.
Azure AI Vision
- Használja a Vision szolgáltatást, ha alapszintű optikai karakterfelismerésre (OCR), képelemzésre vagy alapszintű videóelemzésre van szüksége a mozgás és egyéb események észleléséhez.
- Ne használja a Vision szolgáltatást olyan elemzéshez, amelyet a nagyméretű, többmomodern alapmodellek már támogatnak.
- Ne használja a Vision szolgáltatást a tartalom moderálására. Használja inkább a Content Safety szolgáltatást.
Azure AI Custom Vision
- Akkor használja a szolgáltatást, ha olyan konkrét követelményekkel rendelkezik, amelyeket az alapszintű Vision-szolgáltatás képelemzése nem tud biztosítani. Például kiválóan alkalmas a szokatlan objektumok, gyártási hibák felismerésére vagy részletes egyéni besorolások megadására.
- Ne használja a szolgáltatást, ha alapszintű objektumészlelésre vagy arcfelismerésre van szüksége. Használja inkább a Face vagy a Vision szolgáltatást.
- Ne használja a szolgáltatást alapszintű vizualizációelemzéshez. Az Azure OpenAI-ból vagy nyílt forráskódú modellekből használjon vision-kompatibilis modelleket az Azure Machine Learningben.
Azure AI Face
- Használja a Face szolgáltatást, ha ellenőriznie kell, hogy az arcok élőek vagy hamisak-e, vagy azonosítsa, csoportosítsa vagy keresse meg a hasonló arcokat.
- Ne használja a Face szolgáltatást az érzelmek észlelésére az arcokban, és ne végezzen más, magas szintű érvelést az arcokról. Ezekhez a feladatokhoz használjon több-modális nyelvi modelleket.
Azure AI Video Indexer
- Az Azure Video Indexer szolgáltatással speciálisabb videóelemzéssel kapcsolatos feladatokat végezhet, amelyeket a Vision szolgáltatás alapszintű videóelemzése nem tud biztosítani.
- Ne használja az Azure Video Indexer szolgáltatást olyan alapvető videóelemzési feladatokhoz, mint a személyek számlálása, a mozgás és az eseményészlelés. A Vision szolgáltatás alapszintű videóelemzése költséghatékonyabb ezekhez a feladatokhoz.

Azure OpenAI

Az Azure OpenAI hozzáférést biztosít az OpenAI hatékony nyelvi modelljeihez, beleértve a GPT-modellek legújabb generációját is. Ezek támogatják a vizuális elemzést és a képek generációit, a DALL-E pedig támogatja a képgenerálást.

Azure AI Képfelismerés

Az Azure AI Vision fejlett algoritmusokat biztosít, amelyek képeket dolgoznak fel, és információkat adnak vissza az Önt érdeklő vizuális funkciók alapján. Négy szolgáltatást nyújt: OCR, Face service, kép- és térbeli elemzés.

Képességek

Az alábbi táblázat az Azure AI Vision szolgáltatásban elérhető képességek listáját tartalmazza.

Funkció	Leírás
Optikai karakterfelismerés (OCR)	Az Optikai karakterfelismerés (OCR) szolgáltatás képekből nyer ki szöveget. A Read API használatával kinyomtatott és kézzel írt szöveget nyerhet ki fényképekből és dokumentumokból. Mélytanuláson alapuló modelleket használ, és különböző felületeken és háttereken lévő szöveggel dolgozik. Ezek közé tartoznak az üzleti dokumentumok, számlák, nyugták, plakátok, névjegykártyák, levelek és rajztáblák. Az OCR API-k támogatják a nyomtatott szövegek több nyelven történő kinyerését.
Képelemzés	A Képelemzési szolgáltatás számos vizuális funkciót nyer ki képekből, például objektumokból, arcokból és automatikusan létrehozott szöveges leírásokból. A Firenze alapmodelljén alapuló Image Analysis 4.0-val egyéni képazonosító modelleket is létrehozhat.
Videóelemzés	A videóelemzés olyan videóval kapcsolatos funkciókat tartalmaz, mint a térbeli elemzés és a videólekérés. A térinformatikai elemzés elemzi az emberek jelenlétét és mozgását egy videócsatornán, és olyan eseményeket hoz létre, amelyekre más rendszerek képesek reagálni.

Azure AI Custom Vision

Az Azure AI Custom Vision szolgáltatás egy képfelismerő szolgáltatás, amellyel saját képazonosító modelleket hozhat létre, helyezhet üzembe és fejleszthet. A képazonosítók címkéket alkalmaznak a képekre a vizuális jellemzőiknek megfelelően. Minden címke egy besorolást vagy objektumot jelöl. A Custom Vision lehetővé teszi saját címkék megadását és egyéni modellek betanítása az észlelésükhöz.

A Custom Vision szolgáltatás gépi tanulási algoritmussal elemzi a képeket az egyéni funkciókhoz. Olyan képeket küldhet be, amelyek nem rendelkeznek a keresett vizuális jellemzőkkel. Ezután a képeket saját címkékkel (címkékkel) címkézheti a beküldés időpontjában. Az algoritmus az adatokra vonatozza az adatokat, és kiszámítja a saját pontosságát úgy, hogy ugyanazokat a képeket teszteli. A modell betanítása után tesztelheti, újrataníthatja és végül felhasználhatja a képfelismerő alkalmazásban képek osztályozására vagy objektumok észlelésére. A modellt offline használatra is exportálhatja.

Képességek

Az alábbi táblázat az Azure AI Custom Vision szolgáltatásban elérhető képességek listáját tartalmazza.

Funkció	Leírás
Képbesorolás	Egy kategória vagy osztály előrejelzése a bemenetek alapján, amelyeket funkcióknak neveznek. Számítsa ki az egyes lehetséges osztályok valószínűségi pontszámát, és adjon vissza egy címkét, amely azt az osztályt jelzi, amelyhez az objektum valószínűleg tartozik. A modell használatához olyan adatokra van szüksége, amelyek funkciókból és címkékből állnak.
Objektumészlelés	Egy objektum koordinátáinak lekérése a képen. A modell használatához olyan adatokra van szüksége, amelyek funkciókból és címkékből állnak

Használati esetek

Az alábbi táblázat az Azure AI Custom Vision szolgáltatás lehetséges használati eseteinek listáját tartalmazza.

Használati eset	Leírás
A Custom Vision használata IoT-eszközzel vizualizációállapotok jelentésére	a Custom Vision használatával betanítsa az eszközt kamerával a vizualizáció állapotának észlelésére. Ezt az észlelési forgatókönyvet egy exportált ONNX-modellel futtathatja egy IoT-eszközön. A vizualizációs állapot egy kép tartalmát írja le: egy üres helyiséget vagy egy embert tartalmazó szobát, egy üres felhajtót vagy egy teherautóval rendelkező felhajtót stb.
Embléma felismerése kameraképekben	Elemezze a fényképeket, és keressen konkrét emblémákat.

Azure AI Face

Az Azure AI Face szolgáltatás olyan AI-algoritmusokat biztosít, amelyek emberi arcokat észlelnek, ismernek fel és elemeznek képeken. Az arcfelismerő szoftver számos esetben fontos, például az azonosítás, az érintés nélküli hozzáférés-vezérlés és az automatikus arcmosás az adatvédelem érdekében.

Képességek

Az alábbi táblázat az Azure AI Face szolgáltatásban elérhető képességek listáját tartalmazza.

Funkció	Leírás
Arcfelismerés és -elemzés	Az emberi arcot tartalmazó kép régióinak azonosítása általában az arc köré téglalapot alkotó határolókeret-koordináták visszaadásával.
Hasonló arcok keresése	A Hasonló keresése művelet a cél arc és a jelölt arcok egy készlete közötti egyezést hajtja végre, és a cél archoz hasonló, kisebb arckészletet keres. Ez akkor hasznos, ha kép alapján végez arckeresést.
Arcok csoportosítása	A Csoport művelet ismeretlen arcok készletét több kisebb csoportra osztja a hasonlóság alapján. Mindegyik csoport az eredeti arcok halmazának különálló valódi részhalmaza. Egyetlen "messyGroup" tömböt is visszaad, amely tartalmazza azokat az arcazonosítókat, amelyekhez nem található hasonlóság.
Azonosítás	Az arcazonosítás a képen szereplő arcok "egy-a-többhöz" egyezését képes kezelni egy biztonságos adattárban lévő arckészlettel. Az egyezésjelöltek a lekérdezés arcának megfelelő arcadatok alapján lesznek visszaadva.
Arcfelismerési műveletek	A modern vállalatok és alkalmazások használhatják az Arcfelismerési technológiákat, beleértve a Face-ellenőrzést (egy-az-egyhez) és a Face-azonosítást ("egy-a-többhöz" egyeztetést) annak ellenőrzésére, hogy egy felhasználó az, akinek vallja magát.
Élőség észlelése	Az élőségészlelés egy hamisítás elleni funkció, amely ellenőrzi, hogy a felhasználó fizikailag jelen van-e a kamera előtt. Arra szolgál, hogy megakadályozza a támadásokat nyomtatott fénykép, rögzített videó vagy a felhasználó arcának 3D maszkja használatával.

Használati esetek

Az alábbi táblázat az Azure AI Face service lehetséges használati eseteinek listáját tartalmazza.

Használati eset	Leírás
Ellenőrizze a felhasználói identitást.	Ellenőrizze, hogy egy személy megbízható arckép-e. Ez az ellenőrzés a digitális vagy fizikai tulajdonságokhoz való hozzáférés biztosításához használható. A legtöbb esetben a megbízható arckép egy kormány által kiadott azonosítóból, például útlevélből vagy jogosítványból származhat, vagy egy személyes regisztrációs fényképből származhat. Az ellenőrzés során az élőség-észlelés kritikus szerepet játszhat annak ellenőrzésében, hogy a kép valódi személytől származik-e, nem nyomtatott fényképről vagy maszkról.
Arcszerkesztés	A videóban rögzített személyek arcának visszafedése vagy elhomályosítása az adatvédelem érdekében.
Érintés nélküli hozzáférés-vezérlés.	A kártyákhoz vagy jegyekhez hasonló módszerekhez képest a bejelentkezési arcfelismerés jobb hozzáférés-vezérlési élményt tesz lehetővé, miközben csökkenti a fizikai médiamegosztás, -veszteség vagy -lopás higiéniai és biztonsági kockázatait. Az arcfelismerés segít a bejelentkezés folyamatában egy emberrel, aki a repülőtereken, stadionokban, vidámparkokban, épületekben, recepciós kioszkokban irodákban, kórházakban, edzőtermekben, klubokban vagy iskolákban való bejelentkezéshez nyújt segítséget.

Azure AI Video Indexer

Az Azure AI Video Indexer egy azure AI-szolgáltatások részét képező felhőalapú alkalmazás, amely Azure AI-szolgáltatásokra épül (például a Face, a Translator, az Azure AI Vision és a Speech). Lehetővé teszi, hogy az Azure AI Video Indexer videó- és hangmodelljeiből kinyerje az elemzéseket a videóiból.

Képességek

Az alábbi táblázat az Azure AI Video Indexer szolgáltatásban elérhető képességek listáját tartalmazza.

Funkció	Leírás
Többnyelvű beszédazonosítás és átírás	A beszélt nyelvet a hang különböző szegmenseiben azonosítja. A szolgáltatás elküldi a médiafájl egyes szegmenseit átírásra, majd egyesíti az átiratokat egyetlen összevont átírássá.
Arcfelismerés	Észleli és csoportosítja a videóban megjelenő arcokat.
Híresség azonosítása	Több mint 1 millió hírességet azonosít– például világvezetőket, színészeket, művészeket, sportolókat, kutatókat, üzleti és technológiai vezetőket világszerte. Ezekről a hírességekről különböző webhelyeken (IMDB, Wikipedia stb.) is találhatók adatok.
Fiókalapú arcfelismerés	Modell betanítása egy adott fiókhoz. Ezután felismeri a videóban szereplő arcokat a betanított modell alapján.
Megfigyelt személyek nyomon követése (előzetes verzió)	Észleli a megfigyelt személyeket a videókban, és olyan információkat nyújt, mint a személy helye a videókeretben (határolókeretek használatával), valamint a személy megjelenésekor a pontos időbélyeg (kezdés, befejezés) és megbízhatóság.
Hangátirat	50 nyelven szöveggé alakítja a beszédet, és lehetővé teszi a bővítményeket.
Nyelvfelismerés	Azonosítja a domináns beszélt nyelvet.
Zajcsökkentés	Törli a telefonos hang- vagy zajos felvételeket (Skype-szűrők alapján).
Fordítás	A hangátirat fordítását több különböző nyelvre is lefordítja.

Az Azure AI Video Indexer szolgáltatás további funkcióinak áttekintéséhez tekintse meg az Azure AI Video Indexer dokumentációját.

Használati esetek

Az alábbi táblázat az Azure AI Video Indexer szolgáltatás lehetséges használati eseteinek listáját tartalmazza.

Használati eset	Leírás
Részletes keresés	A videóból kinyert megállapításokkal javíthatja a keresési élményt a videótárakban. A beszélt szavak és arcok indexelése például lehetővé teszi, hogy olyan pillanatokat találjon egy videóban, ahol egy személy bizonyos szavakat beszélt, vagy amikor két személy együtt volt látható. Az ilyen videók alapján végzett keresés a hírügynökségekre, oktatási intézményekre, műsorszolgáltatókra, szórakoztató tartalomtulajdonosokra, vállalati LOB-alkalmazásokra és általában minden olyan iparágra vonatkozik, amely rendelkezik olyan videótárral, amelyet a felhasználóknak meg kell keresni.
Tartalom létrehozása	Az Azure AI Video Indexer által a tartalomból kinyert megállapítások alapján létrehozhat előzeteseket, emelhet ki tekercseket, közösségimédia-tartalmakat vagy hírklipeket. A kulcskeretek, a jelenetjelölők és a személyek időbélyegei, valamint a címke megjelenései gördülékenyebbé és egyszerűbbé teszik a létrehozási folyamatot, így könnyedén el lehet jutni a videó tartalom létrehozásakor szükséges részeihez.
Akadálymentesség	Akár fogyatékkal élők számára szeretné elérhetővé tenni a tartalmat, akár azt szeretné, hogy a tartalmak különböző régiókban, különböző nyelveken legyenek terjesztve, az Azure AI Video Indexer által biztosított átiratot és fordítást több nyelven is használhatja.
Értékesítés	Az Azure AI Video Indexer segíthet növelni a videók értékét. Például a hirdetési bevételre támaszkodó iparágak (híroldalak, közösségi média stb.) releváns hirdetéseket jeleníthetnek meg a kinyert megállapítások további jelekként a hirdetési kiszolgáló számára.
Con sátormód ration	Szöveges és vizualizációs sátormód rációs modellek használatával biztosíthatja a felhasználók számára a nem megfelelő tartalomtól való biztonságot, és ellenőrizheti, hogy a közzétett tartalom megfelel-e a szervezet értékeinek. Automatikusan letilthat bizonyos videókat, vagy értesítheti a felhasználókat a tartalomról.
Ajánlások	A videós elemzések a felhasználók számára releváns videós pillanatok kiemelésével javíthatók a felhasználói aktivitáson. Az egyes videók további metaadatokkal való címkézésével javasolhatja a felhasználóknak a leginkább releváns videókat, és kiemelheti a videónak az igényeiknek megfelelő részeit.

Megosztás a következőn keresztül:

Azure AI-rendszerkép- és videofeldolgozási technológia kiválasztása

Szolgáltatások

Azure OpenAI

Azure AI Képfelismerés

Képességek

Azure AI Custom Vision

Képességek

Használati esetek

Azure AI Face

Képességek

Használati esetek

Azure AI Video Indexer

Képességek

Használati esetek

Következő lépések

Visszajelzés

További források

Megosztás a következőn keresztül:

Azure AI-rendszerkép- és videofeldolgozási technológia kiválasztása

Szolgáltatások

Azure OpenAI

Azure AI Képfelismerés

Képességek

Azure AI Custom Vision

Képességek

Használati esetek

Azure AI Face

Képességek

Használati esetek

Azure AI Video Indexer

Képességek

Használati esetek

Következő lépések

Kapcsolódó erőforrások

Visszajelzés

További források