Descripción de las funcionalidades de generación de imágenes de OpenAI

5 minutos

Los modelos de generación de imágenes pueden tomar un mensaje, una imagen base o ambos, y crear algo nuevo. Estos modelos de IA generativa pueden crear imágenes realistas y artísticas, cambiar el diseño o el estilo de una imagen y crear variaciones en una imagen proporcionada.

DALL-E

Además de las funcionalidades de lenguaje natural, los modelos de IA generativos pueden editar y crear imágenes. El modelo que funciona con imágenes se denomina DALL-E. Al igual que los modelos GPT, las versiones posteriores de DALL-E se anexan al nombre, como DALL-E 2. Las funcionalidades de imagen generalmente se dividen en las tres categorías de creación de imágenes, edición de una imagen y creación de variaciones de una imagen.

Imagen y generación

Las imágenes originales se pueden generar proporcionando un mensaje de texto de lo que desea que sea la imagen. Cuanto más detallada sea la solicitud, más probable será que el modelo proporcione un resultado deseado.

Con DALL-E, incluso puedes solicitar una imagen en un estilo particular, como "un perro en el estilo de Vincent van Gogh". También se pueden usar estilos para ediciones y variaciones.

Por ejemplo, dado el mensaje "un elefante de pie con una hamburguesa en la parte superior, estilo arte digital", el modelo genera imágenes de arte digital que representan exactamente lo que se pide.

Four AI generated art depictions of an elephant with a burger on top of it.

Cuando se le pide algo más genérico como "un zorro rosa", las imágenes generadas son más variadas y más sencillas mientras se sigue cumpliendo lo que se pide.

Four AI generated art depictions of different pink foxes.

Sin embargo, cuando hacemos que el aviso sea más específico, como "un zorro rosa que se ejecuta a través de un campo, en el estilo de Monet", el modelo crea imágenes detalladas mucho más similares.

Four AI generated art depictions of a pink fox in the style of Monet.

Edición de una imagen

Cuando se proporciona una imagen, DALL-E puede editar la imagen según lo solicitado cambiando su estilo, agregando o quitando elementos, o generando contenido nuevo para agregar. Las modificaciones se realizan cargando la imagen original y especificando una máscara transparente que indica qué área de la imagen se va a editar. Junto con la imagen y la máscara, un mensaje que indica qué se va a editar indica al modelo que, a continuación, genere el contenido adecuado para rellenar el área.

Cuando se proporciona una de las imágenes anteriores de un zorro rosa, una máscara que cubre el zorro y el mensaje de "gorila azul leyendo un libro en un campo", el modelo crea ediciones de la imagen en función de la entrada proporcionada.

Four AI generated art depictions of a blue gorilla in a field.

Variaciones de imagen

Las variaciones de imagen se pueden crear proporcionando una imagen y especificando cuántas variaciones de la imagen desea. El contenido general de la imagen seguirá siendo el mismo, pero los aspectos se ajustarán, como dónde se encuentran o buscan los temas, la escena de fondo y los colores pueden cambiar.

Por ejemplo, si cargo una de las imágenes del elefante usando una hamburguesa como sombrero, obtengo variaciones del mismo tema.

Four AI generated art variations of an elephant with a burger on its head.

Nota:

Actualmente solo se concede acceso a DALL-E por invitación.

Continuar

Descripción de las funcionalidades de generación de imágenes de OpenAI

DALL-E

Imagen y generación

Edición de una imagen

Variaciones de imagen

Comentarios