Az OpenAI képgenerálási képességeinek ismertetése

Befejeződött

A képgenerálási modellek egy kérést, egy alaprendszerképet vagy mindkettőt is létrehozhatnak, és újat hozhatnak létre. Ezek a generatív AI-modellek valósághű és művészi képeket is létrehozhatnak, módosíthatják egy kép elrendezését vagy stílusát, és variációkat hozhatnak létre egy megadott képen.

DALL-E

A természetes nyelvi képességek mellett a generatív AI-modellek szerkeszthetik és létrehozhatják a képeket. A képeket használó modellt DALL-E-nek nevezzük. A GPT-modellekhez hasonlóan a DALL-E későbbi verziói is hozzá vannak fűzve a névhez, például a DALL-E 2-hez. A képképességek általában a képlétrehozás, a képszerkesztés és a képvariációk három kategóriájába tartoznak.

Képgenerálás

Az eredeti képeket úgy lehet létrehozni, hogy szöveges üzenetet ad meg arról, hogy mi legyen a kép. Minél részletesebb a kérdés, annál valószínűbb, hogy a modell a kívánt eredményt adja.

A DALL-E-vel még egy képet is kérhet egy adott stílusban, például "egy kutya Vincent van Gogh stílusában". A stílusok szerkesztéshez és változatokhoz is használhatók.

Például, tekintettel arra a kérdésre, hogy "egy elefánt áll egy hamburgerrel a tetején, stílus digitális művészet", a modell létrehoz digitális művészeti képeket, amely pontosan azt ábrázolja, amit kérnek.

Four AI generated art depictions of an elephant with a burger on top of it.

Amikor valami általánosabbat kérnek, mint például a "rózsaszín róka", a létrehozott képek változatosabbak és egyszerűbbek, miközben továbbra is teljesítik a kért elemet.

Four AI generated art depictions of different pink foxes.

Ha azonban pontosabbá tesszük a kérdést, például "egy mezőn áthaladó rózsaszín róka, Monet stílusában", a modell sokkal hasonlóbb részletes képeket hoz létre.

Four AI generated art depictions of a pink fox in the style of Monet.

Kép szerkesztése

Ha megad egy képet, a DALL-E igény szerint szerkesztheti a képet a stílusának módosításával, elemek hozzáadásával vagy eltávolításával, vagy új tartalom hozzáadásával. A szerkesztéshez töltse fel az eredeti képet, és adjon meg egy átlátszó maszkot, amely jelzi, hogy a kép mely területét szerkessze. A kép és a maszk mellett a szerkeszteni kívánt tartalomra vonatkozó üzenet arra utasítja a modellt, hogy hozza létre a megfelelő tartalmat a terület kitöltéséhez.

Ha a fenti képek egyike egy rózsaszín róka, egy maszk, amely a rókát fedi, és a "kék gorilla olvas egy könyvet egy mezőben", a modell a megadott bemenet alapján létrehozza a kép szerkesztését.

Four AI generated art depictions of a blue gorilla in a field.

Képvariációk

A képvariációk egy kép megadásával és a kívánt képváltozatok megadásával hozhatók létre. A kép általános tartalma változatlan marad, de a szempontok úgy módosulnak, hogy a témák hol találhatók vagy keresnek, a háttérkép és a színek megváltozhatnak.

Például, ha feltöltöm az elefánt egyik képét, amely kalapként egy hamburgert visel, ugyanazt a témát variálom.

Four AI generated art variations of an elephant with a burger on its head.

Megjegyzés:

A DALL-E-hez való hozzáférés jelenleg csak meghívási alapon érhető el.