Model multimodal untuk analisis gambar

7 menit

Tip

Lihat tab Teks dan gambar untuk detail selengkapnya!

Semakin banyak, model AI baru adalah multimodal. Dengan kata lain, mereka mendukung berbagai jenis data input, termasuk gambar dan teks. Model multimodal adalah model AI yang dapat memahami dan bekerja dengan lebih dari satu jenis data secara bersamaan, seperti teks, gambar, audio, atau video. Misalnya, model multimodal dapat menggambarkan gambar dalam bahasa alami atau menjawab pertanyaan tentang foto.

Model multimodal umumnya digunakan sebagai bagian dari:

Aplikasi AI, di mana pemahaman gambar meningkatkan alur kerja pengguna
Agen AI, di mana input visual membantu agen membuat keputusan yang lebih baik

Contohnya meliputi:

Agen yang meninjau dokumen dan cuplikan layar yang diunggah
Aplikasi dukungan yang menganalisis foto yang dikirimkan oleh pelanggan
Alat pembelajaran yang menjelaskan diagram atau bagan dalam bahasa biasa

Karena model multimodal menerima teks dan gambar, model tersebut mengurangi kebutuhan akan alur visi terpisah dan membuatnya lebih mudah untuk membangun pengalaman cerdas end-to-end.

Kemampuan model untuk menggabungkan pemahaman visual dengan respons bahasa alami disebut sebagai model GPT berkemampuan visi atau GPT dengan visi. Model yang mendukung visi dirancang untuk penalaran visual tujuan umum yang fleksibel. Mereka dapat menganalisis input visual dan merespons dalam bahasa alami, sehingga mudah untuk membangun aplikasi cerdas tanpa memerlukan keahlian visi komputer yang mendalam.

Model multimodal di Microsoft Foundry

Microsoft Foundry mencakup banyak model yang menerima input berbasis gambar, memungkinkan Anda membuat solusi cerdas berbasis visi. Model multimodal di Microsoft Foundry memungkinkan aplikasi dan agen untuk memahami, menganalisis, dan alasan atas gambar dan konten visual.

Misalnya, model GPT yang mendukung visi di Foundry dapat:

Menjelaskan konten gambar dalam bahasa alami
Menjawab pertanyaan tentang objek, teks, atau adegan dalam gambar
Mengekstrak arti dari bagan, cuplikan layar, dokumen, atau foto
Menggabungkan pemahaman gambar dengan instruksi teks dalam satu perintah

Katalog model Foundry berisi banyak model multimodal termasuk:

GPT-4.1 / GPT-4.1-mini / GPT-4.1-nano: Model GPT multimodal tujuan umum ini dapat memproses teks dan gambar bersama-sama. Mereka umumnya digunakan untuk deskripsi gambar dan jawaban atas pertanyaan visual, analisis dokumen dan cuplikan layar, serta interpretasi bagan dan diagram.
Seri GPT-5 (misalnya, GPT-5.1, GPT-5.2): Keluarga GPT-5 yang tersedia di Foundry mencakup model multimodal canggih yang dirancang untuk skenario perusahaan dan agenik. Model ini mendukung input multimodal (termasuk teks dan gambar), output terstruktur, dan penggunaan alat, penalaran konteks besar di seluruh modalitas. Model seri GPT-5 biasanya digunakan dalam agen AI tingkat produksi dan aplikasi multimodal yang kompleks.

Foundry juga menghosting model multimodal yang disediakan mitra dalam katalog modelnya, termasuk model dari penyedia seperti Antropik dan lainnya yang mendukung pemahaman teks dan gambar.

Analisis gambar di taman bermain Foundry

Nota

Portal Foundry memiliki antarmuka pengguna (UI) klasik dan antarmuka pengguna baru .

Di portal Microsoft Foundry baru, Anda dapat menggunakan ruang uji coba model untuk berinteraksi dengan model yang telah disebarkan. Anda dapat memilih model yang mendukung visi, mengunggah gambar, dan menguji perintah secara interaktif untuk memahami bagaimana model menafsirkan informasi visual.

Misalnya, Anda dapat melampirkan file gambar dan mendapatkan model multimodal (seperti gpt-4.1 mini) untuk menganalisis dan menggambarkannya.

Setelah divalidasi, kemampuan yang sama dapat diakses secara terprogram menggunakan API, memungkinkan gambar dikirimkan bersama perintah teks dalam kode aplikasi.

Menggunakan Azure OpenAI API untuk analisis gambar

Untuk mengembangkan aplikasi, Anda perlu berpindah dari lingkungan kerja Foundry ke kode. Di editor kode, Anda dapat menulis kode aplikasi menggunakan OpenAI Responses API di Foundry. OpenAI Responses API dirancang untuk aplikasi berbasis agen dan mendukung input asli multimodal (termasuk gambar).

Secara garis besar:

Satu permintaan dapat menyertakan input teks dan input gambar bersama-sama
Gambar dapat disediakan sebagai URL atau sebagai data gambar yang dikodekan base64
Model memproses kedua input secara bersamaan untuk menghasilkan respons

Secara konseptual, struktur prompt terlihat seperti:

Instruksi teks (misalnya, Objek apa yang terlihat dalam gambar ini?)
Satu atau beberapa input gambar yang dilampirkan ke permintaan yang sama

Pendekatan ini memungkinkan pengembang untuk membangun aplikasi di mana pengguna mengunggah gambar dan mengajukan pertanyaan tentang mereka secara real time.

Menggunakan Azure OpenAI Python SDK

Anda dapat menggunakan resource Microsoft Foundry dengan OpenAI API untuk melakukan analisis gambar—termasuk mengirim gambar dalam perintah dan mendapatkan respons teks—dengan menggunakan API Respons dengan penyebaran model yang mendukung penglihatan.

Python SDK dapat diinstal di terminal Visual Studio Code menggunakan:

pip install openai

Di editor kode, kita dapat membuat satu file Python, yang berisi kode aplikasi. Yang penting, Anda memerlukan kunci dan titik akhirsumber daya Foundry Anda, serta nama model yang Anda sebarkan.

Nota

Saat Anda menyebarkan model di Foundry, model tersebut memiliki nama dasar atau asli , dan nama penyebaran asli yang Anda berikan. Foundry menghosting model yang disebarkan (misalnya, model kelas GPT dengan visi) dan memberi Anda titik akhir.

Dalam contoh kode, Anda membuat klien, mengarahkannya ke endpoint Anda, dan meneruskan nama penyebaran model Anda (nama yang Anda berikan pada model tersebut) sebagai MODEL_NAME.

import os
from openai import OpenAI

# Environment variables you set locally or in your app service:
FOUNDRY_KEY = "... your key ..."
ENDPOINT = "https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/"
MODEL_NAME = "your-model-deployment-name"  # e.g., "gpt-4.1-mini" deployed as "my-vision-deploy"

client = OpenAI(
    api_key=os.getenv("FOUNDRY_KEY"),
    base_url=os.getenv("ENDPOINT"),
)

image_url = ""

response = client.responses.create(
    model=os.getenv("MODEL_NAME"),  # your deployment name 
    input=[
        {
            "role": "user",
            "content": [
                {"type": "input_text", "text": "What is in this image? Provide 3 bullet points."},
                {"type": "input_image", "image_url": image_url}
            ],
        }
    ],
)

print(response.output_text)

Contoh aplikasi klien

Anda dapat membangun aplikasi kustom yang menggunakan model berkemampuan visi untuk menganalisis gambar dengan OpenAI Python SDK. Misalnya, Anda ingin membuat aplikasi yang dapat mengidentifikasi hewan yang difoto di Safari. Anda dapat mengunggah foto dan membuat file Python di editor kode Anda.

Cuplikan layar gambar yang digunakan untuk analisis gambar.

Kemudian Anda dapat menulis kode aplikasi yang menggunakan API OpenAI untuk menyambungkan ke endpoint model Anda di Foundry.

Kode aplikasi perlu memuat data gambar dan mendapatkan permintaan bahasa alami dari pengguna. Untuk mengirimkan input ke model, Anda perlu membuat pesan multi-bagian yang menyertakan data gambar dan teks. Model dapat merespons dengan output yang sesuai berdasarkan teks dan gambar dalam perintah.

Selanjutnya, pelajari cara menggunakan model Foundry dan Azure OpenAI SDK untuk pembuatan gambar.

Saran dan Komentar

Apakah halaman ini membantu?