Modelli di generazione di immagini
Annotazioni
Per altri dettagli, vedi la scheda Testo e immagini .
I modelli con funzionalità di visione spesso corrispondono alle informazioni visive in un'immagine al testo corrispondente appropriato. Alcuni modelli sono progettati per eseguire questo processo inverso, generando immagini che corrispondono alle descrizioni di testo.
Uso dei modelli di generazione di immagini da Foundry
Microsoft Foundry include modelli che supportano l'inferenza da testo a immagine, che è possibile usare per generare l'output visivo.
Per la maggior parte dei nuovi progetti, Microsoft consiglia di iniziare con la famiglia GPT-Image-1, in particolare GPT-Image-1.5, grazie alla qualità migliorata, al supporto per la modifica e all'idoneità aziendale.
Esempi comuni di modelli di generazione di immagini in Foundry includono:
GPT-Image-1.5: GPT-Image-1.5 è il modello di generazione di immagini più recente e avanzato disponibile in Microsoft Foundry. È progettato per la creazione e la modifica di immagini di qualità elevata adatta all'uso aziendale, con un forte allineamento delle richieste e una maggiore coerenza tra le iterazioni. Il modello supporta la modifica da testo a immagine, da immagine a immagine e precisione delle immagini, rendendola particolarmente adatta ai flussi di lavoro di personalizzazione, marketing e progettazione in cui l'accuratezza visiva è importante.
GPT-Image-1: GPT-Image-1 è un potente modello di generazione di immagini per utilizzo generico basato sulle funzionalità dei modelli di DALL-E precedenti. Supporta la generazione da testo a immagine, le variazioni delle immagini e la modifica precisa delle immagini. Viene comunemente usato per applicazioni creative, prototipi e generazione di contenuti visivi. GPT-Image-1 è ampiamente supportato tra gli strumenti e le API Foundry, tra cui la Responses API e gli strumenti dell'agente.
GPT-Image-1-Mini: GPT-Image-1-Mini è una versione più leggera e più conveniente di GPT-Image-1. Supporta le stesse attività di generazione di immagini principali, ma è ottimizzata per gli scenari in cui la latenza inferiore o un costo ridotto è più importante della massima fedeltà visiva. Questo modello è una buona scelta per la sperimentazione, gli strumenti interni o la generazione di immagini ad alto volume.
Tutti questi modelli di generazione di immagini possono essere:
- Distribuito in una risorsa Foundry (Azure OpenAI)
- Testato in Foundry Playground
- Accesso a livello di codice tramite l'API Risposte OpenAI o le API di generazione di immagini
Annotazioni
È anche possibile accedere ai modelli di generazione di immagini di terze parti in Foundry. Ad esempio, FLUX è una famiglia di modelli di generazione di immagini open source creati da Black Forest Labs. Sono progettati per produrre immagini di alta qualità, fotorealistiche e stilisticamente flessibili da input di testo.
Generazione di immagini nel playground Foundry
È possibile distribuire un modello vision-enabled e testarlo nel playground del portale Foundry. Per testare il modello, è possibile descrivere l'immagine da creare. E dopo alcuni minuti viene generata un'immagine corrispondente alla descrizione.
Uso di OpenAI Python SDK per la generazione di immagini
È possibile scrivere codice per compilare un'applicazione che usa un modello di generazione di immagini usando la classe images dell'API OpenAI di Azure. La classe di immagini OpenAI in OpenAI Python SDK consente di generare nuove immagini e modificare le immagini esistenti. È possibile usare OpenAI Python SDK chiamando l'endpoint dell'API OpenAI Images tramite un'interfaccia Python.
La possibilità di generare in modo dinamico immagini originali dalle descrizioni può essere estremamente utile negli scenari che includono contenuti multimediali, pubblicazione e creazione di contenuti.
Per generare immagini con OpenAI Python SDK, è necessario:
- Una risorsa di Foundry
- Un modello con funzionalità di visione distribuita (il nome della distribuzione è quello che si passa come
MODEL_NAME) - Autenticazione tramite chiave API o MICROSOFT Entra ID
- Chiamate delle API di Risposte di OpenAI che includono input immagine (URL o URL di dati base64)
Annotazioni
Base64 fa riferimento a file come immagini binarie (byte non elaborati). GLI URL e JSON sono solo testo. La codifica Base64 converte i dati binari in testo ASCII sicuro, consente di incorporare file binari all'interno di JSON o URL.
Si consideri ad esempio il codice Python seguente:
import os
import base64
from openai import OpenAI
# Required environment variables (example names)
FOUNDRY_KEY="..."
ENDPOINT="https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/"
MODEL_NAME="your-gpt-image-deployment-name" # e.g., "gpt-image-1"
client = OpenAI(
api_key=os.environ["FOUNDRY_KEY"],
base_url=os.environ["ENDPOINT"],
)
prompt = "A modern flat illustration of a robot holding a potted plant, clean vector style, pastel colors."
response = client.responses.create(
model=os.environ["MODEL_NAME"], # your deployment name in Foundry
input=prompt,
tools=[{"type": "image_generation"}],
)
image_base64 = next(
item.result for item in response.output
if item.type == "image_generation_call"
)
with open("foundry_generated.png", "wb") as f:
f.write(base64.b64decode(image_base64))
print("Saved: foundry_generated.png")
Di seguito viene descritto come usare i modelli di generazione di video di Foundry.