Comprendre les fonctionnalités de génération d’images d’OpenAI

Effectué

Les modèles de génération d’images peuvent prendre une invite, une image de base, ou les deux, et créer quelque chose de nouveau. Ces modèles d’IA générative peuvent créer des images réalistes et artistiques, modifier la disposition ou le style d’une image, et créer des variantes sur une image fournie.

DALL-E

En plus des fonctionnalités de langage naturel, les modèles d’IA générative peuvent modifier et créer des images. Le modèle qui opère avec les images se nomme DALL-E. Tout comme les modèles GPT, les versions suivantes de DALL-E sont ajoutées au nom, par exemple DALL-E 2. Les fonctionnalités d’image appartiennent généralement aux trois catégories que sont la création d’images, la modification d’images et la création de variantes d’une image.

Génération d’images

Les images d’origine peuvent être générées en fournissant une invite de texte indiquant ce que vous souhaitez que l’image représente. Plus l’invite est détaillée, plus le modèle est susceptible de fournir un résultat souhaité.

Avec DALL-E, vous pouvez même demander une image dans un style particulier, comme « un chien dans le style de Vincent van Gogh ». Les styles peuvent également être utilisés pour les modifications et les variantes.

Par exemple, étant donné l’invite « un éléphant debout avec un hamburger au-dessus, style d’art numérique », le modèle génère des images d’art numérique illustrant exactement ce qui est demandé.

Four AI generated art depictions of an elephant with a burger on top of it.

Si vous demandez quelque chose de plus générique comme « un renard rose », les images générées sont plus variées et plus simples, tout en répondant toujours à ce qui est demandé.

Four AI generated art depictions of different pink foxes.

Toutefois, lorsque l’invite est plus spécifique, par exemple « un renard rose qui traverse un champ, dans le style de Monet », le modèle crée des images détaillées beaucoup plus similaires.

Four AI generated art depictions of a pink fox in the style of Monet.

Modification d’une image

Lorsqu’une image lui est fournie, DALL-E peut la modifier comme il lui est demandé en modifiant son style, en ajoutant ou en supprimant des éléments, ou en générant du nouveau contenu à lui ajouter. Les modifications sont effectuées en chargeant l’image d’origine et en spécifiant un masque transparent qui indique la zone de l’image à modifier. Avec l’image et le masque, une invite précisant ce qui doit être modifié fait en sorte que le modèle génère ensuite le contenu approprié pour remplir la zone.

Si vous lui fournissez l’une des images ci-dessus d’un renard rose, un masque couvrant le renard et l’invite « gorille bleu lisant un livre dans un champ », le modèle crée des modifications de l’image basées sur l’entrée fournie.

Four AI generated art depictions of a blue gorilla in a field.

Variantes d’images

Vous pouvez créer des variantes d’images en fournissant une image et en spécifiant le nombre de variantes de l’image souhaitées. Le contenu général de l’image restera le même, mais certains aspects seront ajustés, tels que l’emplacement des sujets, la direction dans laquelle ils regardent ou la scène d’arrière-plan, et les couleurs pourront changer.

Par exemple, si je charge l’une des images de l’éléphant portant un hamburger sur la tête, j’obtiens des variantes du même sujet.

Four AI generated art variations of an elephant with a burger on its head.

Remarque

L’accès à DALL-E est actuellement accordé sur invitation uniquement.