Comprendere le funzionalità di generazione di immagini di OpenAI

Completato

I modelli di generazione di immagini possono richiedere un prompt, un'immagine di base o entrambi e creare qualcosa di nuovo. Questi modelli di intelligenza artificiale generative possono creare immagini realistiche e artistiche, modificare il layout o lo stile di un'immagine e creare varianti in un'immagine fornita.

DALL-E

Oltre alle funzionalità del linguaggio naturale, i modelli di intelligenza artificiale generativi possono modificare e creare immagini. Il modello che funziona con le immagini è denominato DALL-E. Analogamente ai modelli GPT, le versioni successive di DALL-E vengono aggiunte al nome, ad esempio DALL-E 2. Le funzionalità dell'immagine rientrano in genere nelle tre categorie di creazione di immagini, modifica di un'immagine e creazione di varianti di un'immagine.

Generazione di immagini

Le immagini originali possono essere generate fornendo una richiesta di testo di ciò di cui si vuole che l'immagine sia. Più il prompt è dettagliato, più è probabile che il modello fornisca un risultato desiderato.

Con DALL-E, è anche possibile richiedere un'immagine in uno stile particolare, ad esempio "un cane nello stile di Vincent van Gogh". Gli stili possono essere usati anche per le modifiche e le varianti.

Ad esempio, dato il prompt "un elefante in piedi con un hamburger in cima, stile arte digitale", il modello genera immagini di arte digitale che illustrano esattamente ciò che viene richiesto.

Four AI generated art depictions of an elephant with a burger on top of it.

Quando viene chiesto qualcosa di più generico come "una volpe rosa", le immagini generate sono più varie e più semplici ma soddisfano ancora ciò che viene richiesto.

Four AI generated art depictions of different pink foxes.

Tuttavia, quando facciamo la richiesta più specifica, ad esempio "una volpe rosa che corre attraverso un campo, nello stile di Monet", il modello crea immagini dettagliate molto più simili.

Four AI generated art depictions of a pink fox in the style of Monet.

Modifica di un'immagine

Quando viene fornita un'immagine, DALL-E può modificare l'immagine come richiesto modificandone lo stile, aggiungendo o rimuovendo elementi o generando nuovo contenuto da aggiungere. Le modifiche vengono apportate caricando l'immagine originale e specificando una maschera trasparente che indica l'area dell'immagine da modificare. Insieme all'immagine e alla maschera, un messaggio che indica il contenuto da modificare indica al modello di generare il contenuto appropriato per riempire l'area.

Quando viene data una delle immagini di cui sopra di una volpe rosa, una maschera che copre la volpe e la richiesta di "gorilla blu che legge un libro in un campo", il modello crea modifiche dell'immagine in base agli input forniti.

Four AI generated art depictions of a blue gorilla in a field.

Varianti di immagine

Le varianti di immagine possono essere create fornendo un'immagine e specificando il numero di varianti dell'immagine desiderate. Il contenuto generale dell'immagine rimarrà invariato, ma verranno modificati alcuni aspetti come la posizione o lo sguardo dei soggetti, la scena di sfondo e i colori.

Ad esempio, se si è caricata una delle immagini dell'elefante che indossa un hamburger come cappello, si ottengono le varianti dello stesso soggetto.

Four AI generated art variations of an elephant with a burger on its head.

Nota

L'accesso a DALL-E è attualmente concesso solo in su invito.