โมเดลการสร้างภาพ

เสร็จสมบูรณ์เมื่อ

Tip

ดูแท็บ ข้อความและรูปภาพ สําหรับรายละเอียดเพิ่มเติม!

โมเดลที่มีความสามารถในการมองเห็นมักจะจับคู่ข้อมูลภาพในรูปภาพกับข้อความที่เกี่ยวข้องที่เหมาะสม บางรุ่นได้รับการออกแบบมาเพื่อดําเนินการตามกระบวนการนี้ในทางกลับกัน โดยสร้างรูปภาพที่สอดคล้องกับคําอธิบายข้อความ

การใช้โมเดลการสร้างภาพจาก Foundry

Microsoft Foundry มีโมเดลที่รองรับการอนุมานข้อความเป็นรูปภาพ ซึ่งคุณสามารถใช้เพื่อสร้างผลลัพธ์ของภาพ

สําหรับโครงการใหม่ส่วนใหญ่ Microsoft แนะนําให้เริ่มต้นด้วย ตระกูล GPT-Image-1 โดยเฉพาะ GPT-Image-1.5 เนื่องจากคุณภาพที่ได้รับการปรับปรุง

ตัวอย่างทั่วไปของโมเดลการสร้างภาพใน Foundry ได้แก่:

  • GPT-Image-1.5: GPT-Image-1.5 เป็นโมเดลการสร้างภาพล่าสุดและล้ําหน้าที่สุดใน Microsoft Foundry ออกแบบมาสําหรับการสร้างและแก้ไขภาพระดับองค์กรที่มีความเที่ยงตรงสูง พร้อมการจัดตําแหน่งพร้อมท์ที่แข็งแกร่งและความสม่ําเสมอที่ดีขึ้นในการทําซ้ํา โมเดลนี้รองรับการแก้ไข ข้อความเป็นรูปภาพรูปภาพเป็นรูปภาพ และการแก้ไขรูปภาพที่แม่นยํา ทําให้เหมาะอย่างยิ่งสําหรับการสร้างแบรนด์

  • GPT-Image-1: GPT-Image-1 เป็นโมเดลการสร้างอิมเมจเอนกประสงค์ที่ทรงพลังซึ่งสร้างขึ้นจากความสามารถของโมเดล DALL-E รุ่นก่อนหน้า รองรับ การสร้างข้อความเป็นรูปภาพ รูปแบบรูปภาพ และการแก้ไขภาพที่แม่นยํา โดยทั่วไปจะใช้สําหรับแอปพลิเคชันที่สร้างสรรค์ การสร้างต้นแบบ และการสร้างเนื้อหาภาพ GPT-Image-1 ได้รับการสนับสนุนอย่างกว้างขวางในเครื่องมือและ API ของ Foundry รวมถึง Responses API และเครื่องมือตัวแทน

  • GPT-Image-1-Mini: GPT-Image-1-Mini เป็น GPT-Image-1 เวอร์ชันที่มีน้ําหนักเบาและคุ้มค่ากว่า รองรับงานการสร้างภาพหลักเดียวกัน แต่ได้รับการปรับให้เหมาะสมสําหรับสถานการณ์ที่เวลาแฝงที่ต่ํากว่าหรือต้นทุนที่ลดลงมีความสําคัญมากกว่าความเที่ยงตรงของภาพสูงสุด โมเดลนี้เป็นตัวเลือกที่ดีสําหรับการทดลอง เครื่องมือภายใน หรือการสร้างภาพปริมาณมาก

โมเดลการสร้างภาพทั้งหมดเหล่านี้สามารถ:

  • ปรับใช้ใน ทรัพยากร Foundry (Azure OpenAI)
  • ทดสอบใน สนามเด็กเล่นโรงหล่อ
  • เข้าถึงโดยทางโปรแกรมโดยใช้ OpenAI Responses API หรือ API การสร้างภาพ

Note

คุณยังสามารถเข้าถึงโมเดลการสร้างภาพของบุคคลที่สามใน Foundry ได้อีกด้วย ตัวอย่างเช่น FLUX เป็นตระกูลของโมเดลการสร้างภาพโอเพ่นซอร์สที่สร้างโดย Black Forest Labs ออกแบบมาเพื่อสร้างภาพคุณภาพสูง เหมือนจริง และมีสไตล์ที่ยืดหยุ่นจากข้อความแจ้ง

การสร้างภาพในสนามเด็กเล่น Foundry

คุณสามารถปรับใช้โมเดลที่เปิดใช้งานการมองเห็นและทดสอบได้ใน Playground พอร์ทัล Foundry หากต้องการทดสอบโมเดล คุณสามารถอธิบายรูปภาพที่คุณต้องการสร้างได้ และหลังจากนั้นไม่กี่นาที จะมีการสร้างรูปภาพที่ตรงกับคําอธิบายของคุณ

ภาพหน้าจอของการสร้างภาพในสนามเด็กเล่นโรงหล่อ

ภาพหน้าจอของตัวอย่างโค้ดในสนามเด็กเล่นโรงหล่อ

การใช้ OpenAI Python SDK สําหรับการสร้างภาพ

คุณสามารถเขียนโค้ดเพื่อสร้างแอปพลิเคชันที่ใช้โมเดลการสร้างอิมเมจโดยใช้คลาสรูปภาพของ Azure OpenAI API คลาสรูปภาพ OpenAI ใน OpenAI Python SDK ช่วยให้คุณสร้างรูปภาพใหม่และแก้ไขรูปภาพที่มีอยู่ คุณสามารถใช้ OpenAI Python SDK ได้โดยเรียกตําแหน่งข้อมูล OpenAI Images API ผ่านอินเทอร์เฟซ Python

ความสามารถในการสร้างภาพต้นฉบับแบบไดนามิกจากคําอธิบายอาจมีค่าอย่างมากในสถานการณ์ต่างๆ ซึ่งรวมถึงสื่อ การเผยแพร่ และการสร้างเนื้อหา

ในการสร้างรูปภาพด้วย OpenAI Python SDK คุณต้อง:

  • แหล่งข้อมูลโรงหล่อ
  • โมเดลที่สามารถมองเห็นได้ถูกปรับใช้ (ชื่อการปรับใช้คือสิ่งที่คุณส่งผ่านเป็นMODEL_NAME)
  • การรับรองความถูกต้อง ผ่าน คีย์ API หรือ Microsoft Entra ID
  • การเรียก OpenAI Responses API ที่มีการป้อนรูปภาพ (URL หรือ URL ข้อมูล base64)

Note

Base64 หมายถึงไฟล์เช่นรูปภาพเป็นไบนารี (ไบต์ดิบ) JSON และ URL เป็นแบบข้อความเท่านั้น การเข้ารหัส Base64 แปลงข้อมูลไบนารีเป็นข้อความ ASCII ที่ปลอดภัย ช่วยให้สามารถฝังไฟล์ไบนารีไว้ใน JSON หรือ URL ได้

ตัวอย่างเช่น พิจารณาโค้ด Python ต่อไปนี้:

import os
import base64
from openai import OpenAI

# Required environment variables (example names)
FOUNDRY_KEY="..."
ENDPOINT="https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/"
MODEL_NAME="your-gpt-image-deployment-name"  # e.g., "gpt-image-1"

client = OpenAI(
    api_key=os.environ["FOUNDRY_KEY"],
    base_url=os.environ["ENDPOINT"],
)

prompt = "A modern flat illustration of a robot holding a potted plant, clean vector style, pastel colors."

response = client.responses.create(
    model=os.environ["MODEL_NAME"],  # your deployment name in Foundry
    input=prompt,
    tools=[{"type": "image_generation"}],
)

image_base64 = next(
    item.result for item in response.output
    if item.type == "image_generation_call"
)

with open("foundry_generated.png", "wb") as f:
    f.write(base64.b64decode(image_base64))

print("Saved: foundry_generated.png")

เรียนรู้วิธีใช้โมเดลการสร้างวิดีโอจาก Foundry