Az OpenAI képgenerálási képességeinek ismertetése
A képgenerálási modellek egy kérést, egy alaprendszerképet vagy mindkettőt is létrehozhatnak, és újat hozhatnak létre. Ezek a generatív AI-modellek valósághű és művészi képeket is létrehozhatnak, módosíthatják egy kép elrendezését vagy stílusát, és variációkat hozhatnak létre egy megadott képen.
DALL-E
A természetes nyelvi képességek mellett a generatív AI-modellek szerkeszthetik és létrehozhatják a képeket. A képeket használó modellt DALL-E-nek nevezzük. A GPT-modellekhez hasonlóan a DALL-E későbbi verziói is hozzá vannak fűzve a névhez, például a DALL-E 2-hez. A képképességek általában a képlétrehozás, a képszerkesztés és a képvariációk három kategóriájába tartoznak.
Képgenerálás
Az eredeti képeket úgy lehet létrehozni, hogy szöveges üzenetet ad meg arról, hogy mi legyen a kép. Minél részletesebb a kérdés, annál valószínűbb, hogy a modell a kívánt eredményt adja.
A DALL-E-vel még egy képet is kérhet egy adott stílusban, például "egy kutya Vincent van Gogh stílusában". A stílusok szerkesztéshez és változatokhoz is használhatók.
Például, tekintettel arra a kérdésre, hogy "egy elefánt áll egy hamburgerrel a tetején, stílus digitális művészet", a modell létrehoz digitális művészeti képeket, amely pontosan azt ábrázolja, amit kérnek.
Amikor valami általánosabbat kérnek, mint például a "rózsaszín róka", a létrehozott képek változatosabbak és egyszerűbbek, miközben továbbra is teljesítik a kért elemet.
Ha azonban pontosabbá tesszük a kérdést, például "egy mezőn áthaladó rózsaszín róka, Monet stílusában", a modell sokkal hasonlóbb részletes képeket hoz létre.
Kép szerkesztése
Ha megad egy képet, a DALL-E igény szerint szerkesztheti a képet a stílusának módosításával, elemek hozzáadásával vagy eltávolításával, vagy új tartalom hozzáadásával. A szerkesztéshez töltse fel az eredeti képet, és adjon meg egy átlátszó maszkot, amely jelzi, hogy a kép mely területét szerkessze. A kép és a maszk mellett a szerkeszteni kívánt tartalomra vonatkozó üzenet arra utasítja a modellt, hogy hozza létre a megfelelő tartalmat a terület kitöltéséhez.
Ha a fenti képek egyike egy rózsaszín róka, egy maszk, amely a rókát fedi, és a "kék gorilla olvas egy könyvet egy mezőben", a modell a megadott bemenet alapján létrehozza a kép szerkesztését.
Képvariációk
A képvariációk egy kép megadásával és a kívánt képváltozatok megadásával hozhatók létre. A kép általános tartalma változatlan marad, de a szempontok úgy módosulnak, hogy a témák hol találhatók vagy keresnek, a háttérkép és a színek megváltozhatnak.
Például, ha feltöltöm az elefánt egyik képét, amely kalapként egy hamburgert visel, ugyanazt a témát variálom.
Megjegyzés:
A DALL-E-hez való hozzáférés jelenleg csak meghívási alapon érhető el.