โมเดลหลายรูปแบบสําหรับการวิเคราะห์ภาพ

7 นาที

Tip

ดูแท็บ ข้อความและรูปภาพ สําหรับรายละเอียดเพิ่มเติม!

โมเดล AI ใหม่เป็นแบบหลายรูปแบบมากขึ้นเรื่อยๆ กล่าวอีกนัยหนึ่ง รองรับข้อมูลอินพุตหลายประเภท รวมถึงรูปภาพและข้อความ โมเดลมัลติโมดอล คือโมเดล AI ที่สามารถเข้าใจและทํางานกับข้อมูลได้มากกว่าหนึ่งประเภทในเวลาเดียวกัน เช่น ข้อความ รูปภาพ เสียง หรือวิดีโอ ตัวอย่างเช่น โมเดลมัลติโมดอลสามารถอธิบายรูปภาพด้วยภาษาธรรมชาติหรือตอบคําถามเกี่ยวกับภาพถ่าย

โมเดลหลายรูปแบบมักใช้เป็นส่วนหนึ่งของ:

แอปพลิเคชัน AI ที่การทําความเข้าใจภาพช่วยปรับปรุงเวิร์กโฟลว์ของผู้ใช้
ตัวแทน AI ที่การป้อนข้อมูลด้วยภาพช่วยให้ตัวแทนตัดสินใจได้ดีขึ้น

ตัวอย่างเช่น:

ตัวแทนที่ตรวจสอบเอกสารและภาพหน้าจอที่อัปโหลด
แอปสนับสนุนที่วิเคราะห์รูปภาพที่ลูกค้าส่งมา
เครื่องมือการเรียนรู้ที่อธิบายไดอะแกรมหรือแผนภูมิในภาษาธรรมดา

เนื่องจากโมเดลหลายรูปแบบยอมรับทั้งข้อความและรูปภาพ จึงลดความจําเป็นในการใช้ไปป์ไลน์การมองเห็นที่แยกจากกัน และทําให้ง่ายต่อการสร้างประสบการณ์อัจฉริยะแบบครบวงจร

ความสามารถของโมเดลในการรวมความเข้าใจด้วยภาพเข้ากับการตอบสนองภาษาธรรมชาติเรียกว่า โมเดล GPT ที่เปิดใช้งานการมองเห็น หรือ GPT ที่มีการมองเห็น โมเดลที่เปิดใช้งานการมองเห็นได้รับการออกแบบมาเพื่อการให้เหตุผลด้วยภาพที่ยืดหยุ่นและเอนกประสงค์ พวกเขาสามารถวิเคราะห์อินพุตด้วยภาพและตอบสนองในภาษาธรรมชาติ ทําให้ง่ายต่อการสร้างแอปพลิเคชันอัจฉริยะโดยไม่จําเป็นต้องมีความเชี่ยวชาญด้านคอมพิวเตอร์วิทัศน์อย่างลึกซึ้ง

โมเดลหลายรูปแบบใน Microsoft Foundry

Microsoft Foundry มีหลายรุ่นที่ยอมรับการป้อนข้อมูลตามรูปภาพ ซึ่งช่วยให้คุณสามารถสร้างโซลูชันที่ชาญฉลาดและอิงตามวิสัยทัศน์ได้ โมเดลหลายรูปแบบใน Microsoft Foundry ช่วยให้แอปพลิเคชันและตัวแทนสามารถเข้าใจ วิเคราะห์ และให้เหตุผลเกี่ยวกับรูปภาพและเนื้อหาภาพ

ตัวอย่างเช่น โมเดล GPT ที่เปิดใช้งานการมองเห็นใน Foundry สามารถ:

อธิบายเนื้อหาของรูปภาพในภาษาธรรมชาติ
ตอบคําถามเกี่ยวกับวัตถุ ข้อความ หรือฉากในรูปภาพ
แยกความหมายจากแผนภูมิ ภาพหน้าจอ เอกสาร หรือภาพถ่าย
รวมความเข้าใจรูปภาพเข้ากับคําแนะนําที่เป็นข้อความในพร้อมท์เดียว

แคตตาล็อกโมเดลของ Foundry ประกอบด้วยโมเดลหลายรูปแบบ ได้แก่ :

GPT-4.1 / GPT-4.1-mini / GPT-4.1-nano: โมเดล GPT หลายรูปแบบเอนกประสงค์เหล่านี้สามารถประมวลผลข้อความและรูปภาพร่วมกันได้ โดยทั่วไปจะใช้สําหรับคําอธิบายรูปภาพและการตอบคําถามด้วยภาพ การวิเคราะห์เอกสารและภาพหน้าจอ และการตีความแผนภูมิและไดอะแกรม
ซีรีส์ GPT-5 (เช่น GPT-5.1, GPT-5.2): ตระกูล GPT-5 ที่มีอยู่ใน Foundry ประกอบด้วยโมเดลมัลติโมดอลขั้นสูงที่ออกแบบมาสําหรับสถานการณ์ระดับองค์กรและตัวแทน โมเดลเหล่านี้รองรับอินพุตหลายรูปแบบ (รวมถึงข้อความและรูปภาพ) เอาต์พุตที่มีโครงสร้าง และการใช้เครื่องมือ การให้เหตุผลในบริบทขนาดใหญ่ในรูปแบบต่างๆ โดยทั่วไปแล้วโมเดลซีรีส์ GPT-5 จะใช้ในเอเจนต์ AI ระดับการผลิตและแอปพลิเคชันหลายรูปแบบที่ซับซ้อน

Foundry ยังโฮสต์โมเดลหลายรูปแบบที่พันธมิตรจัดหาให้ในแคตตาล็อกโมเดล รวมถึงโมเดลจากผู้ให้บริการเช่น Anthropic และอื่นๆ ที่รองรับการทําความเข้าใจข้อความและรูปภาพ

การวิเคราะห์ภาพในสนามเด็กเล่นโรงหล่อ

Note

พอร์ทัลโรงหล่อมีส่วนติดต่อผู้ใช้ (UI) แบบคลาสสิกและส่วนติดต่อผู้ใช้ใหม่

ใน พอร์ทัล Microsoft Foundry ใหม่ คุณสามารถใช้ Playground แบบจําลองเพื่อแชทกับแบบจําลองที่ปรับใช้ คุณสามารถเลือกโมเดลที่เปิดใช้งานการมองเห็น อัปโหลดรูปภาพ และทดสอบพร้อมท์แบบโต้ตอบเพื่อทําความเข้าใจว่าโมเดลตีความข้อมูลภาพอย่างไร

ตัวอย่างเช่น คุณสามารถแนบไฟล์รูปภาพและรับโมเดลมัลติโมดอล (เช่น gpt-4.1 mini) เพื่อวิเคราะห์และอธิบายได้

เมื่อตรวจสอบแล้ว จะสามารถเข้าถึงความสามารถเดียวกันนี้ได้ทางโปรแกรมโดยใช้ API ทําให้สามารถส่งรูปภาพควบคู่ไปกับข้อความแจ้งในโค้ดแอปพลิเคชันได้

การใช้ Azure OpenAI API สําหรับการวิเคราะห์รูปภาพ

ในการพัฒนาแอปพลิเคชัน คุณต้องย้ายจากสนามเด็กเล่น Foundry ไปเขียนโค้ด ในโปรแกรมแก้ไขโค้ด คุณสามารถเขียนโค้ดแอปพลิเคชันของคุณโดยใช้ OpenAI Responses API ใน Foundry OpenAI Responses API ได้รับการออกแบบมาสําหรับแอปตัวแทนและรองรับอินพุตหลายรูปแบบดั้งเดิม (รวมถึงรูปภาพ)

ในระดับสูง:

คําขอเดียวสามารถรวมการป้อนข้อความและการป้อนรูปภาพเข้าด้วยกันได้
รูปภาพสามารถระบุเป็น URL หรือเป็นข้อมูลรูปภาพที่เข้ารหัส base64 ได้
โมเดลประมวลผลอินพุตทั้งสองพร้อมกันเพื่อสร้างการตอบสนอง

โครงสร้างพร้อมท์มีลักษณะดังนี้:

คําแนะนําที่เป็นข้อความ (ตัวอย่างเช่น วัตถุใดที่มองเห็นได้ในรูปนี้)
อินพุตรูปภาพอย่างน้อยหนึ่งรายการที่แนบมากับคําขอเดียวกัน

วิธีการนี้ช่วยให้นักพัฒนาสามารถสร้างแอปพลิเคชันที่ผู้ใช้อัปโหลดรูปภาพและถามคําถามเกี่ยวกับรูปภาพแบบเรียลไทม์

การใช้ Azure OpenAI Python SDK

คุณสามารถใช้ทรัพยากร Microsoft Foundry กับ OpenAI API เพื่อทําการวิเคราะห์รูปภาพ รวมถึงการส่งรูปภาพในพร้อมท์และรับการตอบกลับข้อความ โดยใช้ Responses API กับการปรับใช้โมเดลที่สามารถมองเห็นได้

Python SDK สามารถติดตั้งใน เทอร์มินัล Visual Studio Code ได้โดยใช้:

pip install openai

ในตัวแก้ไขโค้ด เราสามารถสร้างไฟล์ Python หนึ่งไฟล์ ซึ่งมีโค้ดแอปพลิเคชัน ที่สําคัญ คุณต้องมีคีย์ทรัพยากรและปลายทางของ Foundry และชื่อของโมเดลที่ปรับใช้ของคุณ

Note

เมื่อคุณปรับใช้โมเดลใน Foundry โมเดลนั้นจะมีชื่อ ฐาน หรือชื่อ เดิม และ ชื่อการปรับใช้ ดั้งเดิมที่คุณตั้งไว้ Foundry โฮสต์โมเดลที่ปรับใช้ (เช่น โมเดลคลาส GPT ที่มีวิสัยทัศน์) และให้ปลายทางแก่คุณ

ในตัวอย่างโค้ด คุณสร้างไคลเอ็นต์ ชี้ไปที่ปลายทางของคุณ และส่งชื่อการปรับใช้โมเดลของคุณ (ชื่อที่คุณตั้งโมเดล) เป็นMODEL_NAME

import os
from openai import OpenAI

# Environment variables you set locally or in your app service:
FOUNDRY_KEY = "... your key ..."
ENDPOINT = "https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/"
MODEL_NAME = "your-model-deployment-name"  # e.g., "gpt-4.1-mini" deployed as "my-vision-deploy"

client = OpenAI(
    api_key=os.getenv("FOUNDRY_KEY"),
    base_url=os.getenv("ENDPOINT"),
)

image_url = ""

response = client.responses.create(
    model=os.getenv("MODEL_NAME"),  # your deployment name 
    input=[
        {
            "role": "user",
            "content": [
                {"type": "input_text", "text": "What is in this image? Provide 3 bullet points."},
                {"type": "input_image", "image_url": image_url}
            ],
        }
    ],
)

print(response.output_text)

ตัวอย่างแอปไคลเอ็นต์

คุณสามารถสร้างแอปพลิเคชันแบบกําหนดเองที่ใช้โมเดลที่เปิดใช้งานการมองเห็นเพื่อวิเคราะห์รูปภาพด้วย OpenAI Python SDK ตัวอย่างเช่น สมมติว่าคุณต้องการสร้างแอปที่สามารถระบุสัตว์ที่ถ่ายบน Safari ได้ คุณสามารถอัปโหลดรูปภาพของคุณและสร้างไฟล์ Python ในโปรแกรมแก้ไขโค้ดของคุณ

ภาพหน้าจอของภาพที่ใช้สําหรับการวิเคราะห์ภาพ

จากนั้นคุณสามารถเขียนโค้ดแอปพลิเคชันที่ใช้ OpenAI API เพื่อเชื่อมต่อกับปลายทางของโมเดลของคุณใน Foundry

โค้ดแอปพลิเคชันจําเป็นต้องโหลดข้อมูลรูปภาพและรับข้อความแจ้งภาษาธรรมชาติจากผู้ใช้ ในการส่งข้อมูลไปยังโมเดล คุณต้องสร้างข้อความหลายส่วนที่มีทั้งข้อมูลรูปภาพและข้อความ โมเดลสามารถตอบสนองด้วยเอาต์พุตที่เหมาะสมโดยอิงจากทั้งข้อความและรูปภาพในพรอมต์

เรียนรู้วิธีใช้โมเดล Foundry และ Azure OpenAI SDK สําหรับการสร้างอิมเมจ

คำติชม

หน้านี้มีประโยชน์หรือไม่