Generování obrázků

Dokončeno

Poznámka:

Další podrobnosti najdete na kartě Text a obrázky .

Stejnou multimodální modelovou architekturu, která umělé inteligenci umožňuje vytvářet odpovědi přirozeného jazyka na vizuální vstup, je také možné ji použít k vytvoření obrázků v reakci na výzvy přirozeného jazyka. Když identifikujete vizuální funkce spojené s jazykem, může si model syntézy obrázků pořídit popis požadovaného obrázku nebo videa a vygenerovat ho.

Většina moderních modelů generování obrázků používá techniku označovanou jako difúze, ve které se výzva používá k identifikaci sady souvisejících vizuálních funkcí, které lze kombinovat k vytvoření obrázku. Obrázek se pak vytvoří iterativním způsobem, počínaje náhodnou sadou hodnot pixelů a odebráním "šumu" pro vytvoření struktury. Po každé iteraci model vyhodnotí obrázek tak, aby ho zatím porovnával s výzvou, dokud se vytvoří konečný obrázek, který znázorňuje požadovanou scénu.

Například výzva "Pes nesoucí hůl v ústech" může vést k difúzi procesu s následujícími iteracemi:

Diagram řady obrázků psa s rostoucí vizuální strukturou

Některé modely můžou při generování videa použít podobný proces. Proces generování videa používá stejnou techniku k identifikaci vizuálních funkcí, které jsou přidružené k jazykovým tokenům, ale také bere v úvahu faktory, jako je fyzické chování objektů ve skutečném světě (například zajištění, že pes chodí s nohama na zemi) a dočasný průběh (takže video znázorňuje logickou posloupnost aktivity).