Görüntü oluşturma modelleri

Tamamlandı

Uyarı

Daha fazla ayrıntı için Metin ve resimler sekmesine bakın!

Görüntü işleme özelliğine sahip modeller genellikle bir görüntüdeki görsel bilgileri uygun metinle eşleştirer. Bazı modeller, metin açıklamalarına karşılık gelen görüntüler oluşturarak bu işlemi tersten gerçekleştirecek şekilde tasarlanmıştır.

Foundry'den görüntü oluşturma modellerini kullanma

Microsoft Foundry, görsel çıkış oluşturmak için kullanabileceğiniz metinden görüntüye çıkarımını destekleyen modeller içerir.

Microsoft, iyileştirilmiş kalitesi, düzenleme desteği ve kurumsal hazırlık nedeniyle çoğu yeni proje için GPT-Image-1 ailesinden başlamanızı, özellikle GPT-Image-1.5'i önerir.

Foundry'de görüntü oluşturma modellerinin yaygın örnekleri şunlardır:

  • GPT-Image-1.5: GPT-Image-1.5, Microsoft Foundry'de kullanılabilen en son ve en gelişmiş görüntü oluşturma modelidir. Güçlü komut hizalaması ve yinelemeler arasında geliştirilmiş tutarlılık ile yüksek aslına uygunlukta, kurumsal düzeyde görüntü oluşturma ve düzenleme için tasarlanmıştır. Model metinden görüntüye, görüntüden görüntüye ve hassas görüntü düzenlemeyi destekleyerek görsel doğruluğun önemli olduğu markalama, pazarlama ve tasarım iş akışları için çok uygundur.

  • GPT-Image-1: GPT-Image-1, önceki DALL-E modellerinin özelliklerini kullanan güçlü, genel amaçlı bir görüntü oluşturma modelidir. Metinden görüntüye oluşturmayı, görüntü çeşitlemelerini ve hassas görüntü düzenlemeyi destekler. Genellikle yaratıcı uygulamalar, prototip oluşturma ve görsel içerik oluşturma için kullanılır. GPT-Image-1, Yanıtlar API'si ve ajan araçları dahil olmak üzere Foundry araçları ve API'leri arasında yaygın olarak desteklenir.

  • GPT-Image-1-Mini: GPT-Image-1-Mini, GPT-Image-1'in daha hafif ve daha uygun maliyetli bir sürümüdür. Aynı çekirdek görüntü oluşturma görevlerini destekler, ancak daha düşük gecikme süresinin veya düşük maliyetin en yüksek görsel aslına uygunluktan daha önemli olduğu senaryolar için iyileştirilmiştir. Bu model denemeler, iç araçlar veya yüksek hacimli görüntü oluşturma için iyi bir seçimdir.

Bu görüntü oluşturma modellerinin tümü şunlar olabilir:

  • Foundry (Azure OpenAI) kaynağında konuşlandırıldı
  • Foundry Playground'da test edildi
  • OpenAI Yanıtları API'sini veya görüntü oluşturma API'lerini kullanarak program aracılığıyla erişildi

Uyarı

Foundry'de üçüncü taraf görüntü oluşturma modellerine de erişebilirsiniz. Örneğin , FLUX , Black Forest Labs tarafından oluşturulan açık kaynak görüntü oluşturma modellerinden oluşan bir ailedir. Metin istemlerinden yüksek kaliteli, fotorealistik ve stilsel olarak esnek görüntüler üretmek için tasarlanmıştır.

Foundry oyun alanında görüntü oluşturma

Görüntü işleme özellikli bir modeli dağıtabilir ve Foundry portalı oyun alanında test edebilirsiniz. Modeli test etmek için, oluşturmak istediğiniz görüntüyü açıklayabilirsiniz. Birkaç dakika sonra açıklamanızla eşleşen bir görüntü oluşturulur.

Foundry oyun alanında görüntü oluşturma işleminin ekran görüntüsü.

Foundry oyun alanında kod örneğinin ekran görüntüsü.

Görüntü oluşturma için OpenAI Python SDK'sını kullanma

Azure OpenAI API'lerinin images sınıfını kullanarak görüntü oluşturma modeli kullanan bir uygulama oluşturmak için kod yazabilirsiniz. OpenAI Python SDK'sında OpenAI görüntüleri sınıfı, yeni görüntüler oluşturmanıza ve mevcut görüntüleri düzenlemenize olanak tanır. OpenAI Görüntüleri API'sini bir Python arabirimi aracılığıyla çağırarak OpenAI Python SDK'sını kullanabilirsiniz.

Açıklamalardan dinamik olarak özgün görüntüler oluşturma özelliği, medya, yayımlama ve içerik oluşturma gibi senaryolarda son derece değerli olabilir.

OpenAI Python SDK'sı ile görüntü oluşturmak için şunları yapmanız gerekir:

  • Dökümhane kaynağı
  • Dağıtılan görüntü özellikli bir model (dağıtım adı olarak MODEL_NAMEgeçirdiğiniz addır)
  • API anahtarı veya Microsoft Entra Kimliği aracılığıyla kimlik doğrulaması
  • Görüntü girişi (URL veya base64 veri URL'si) içeren OpenAI Yanıtları API çağrıları

Uyarı

Base64 , görüntülerin ikili (ham bayt) olması gibi dosyaları ifade eder. JSON ve URL'ler yalnızca metindir. Base64 kodlaması, ikili verileri güvenli ASCII metnine dönüştürür, ikili dosyaların JSON veya URL'lerin içine katıştırılmasına olanak tanır.

Örneğin, aşağıdaki Python kodunu göz önünde bulundurun:

import os
import base64
from openai import OpenAI

# Required environment variables (example names)
FOUNDRY_KEY="..."
ENDPOINT="https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/"
MODEL_NAME="your-gpt-image-deployment-name"  # e.g., "gpt-image-1"

client = OpenAI(
    api_key=os.environ["FOUNDRY_KEY"],
    base_url=os.environ["ENDPOINT"],
)

prompt = "A modern flat illustration of a robot holding a potted plant, clean vector style, pastel colors."

response = client.responses.create(
    model=os.environ["MODEL_NAME"],  # your deployment name in Foundry
    input=prompt,
    tools=[{"type": "image_generation"}],
)

image_base64 = next(
    item.result for item in response.output
    if item.type == "image_generation_call"
)

with open("foundry_generated.png", "wb") as f:
    f.write(base64.b64decode(image_base64))

print("Saved: foundry_generated.png")

Ardından, Foundry'den video oluşturma modellerini kullanmayı öğrenin.