Konsep model obrolan yang mendukung visi

2025-07-02

Model obrolan berkemampuan visi adalah model multimodal besar (LMM) yang dikembangkan oleh OpenAI yang dapat menganalisis gambar dan memberikan respons tekstual terhadap pertanyaan tentang mereka. Mereka menggabungkan pemrosesan bahasa alami dan pemahaman visual. Panduan ini memberikan detail tentang kemampuan dan batasannya. Untuk melihat model mana yang mendukung input gambar, lihat halaman Model.

Untuk mencoba model obrolan yang mendukung visi, lihat mulai cepat.

Obrolan dengan fitur penglihatan

Model yang mendukung visi menjawab pertanyaan umum tentang apa yang ada dalam gambar yang Anda unggah.

Batasan input

Bagian ini menjelaskan batasan model obrolan yang mendukung visi.

Dukungan gambar

Ukuran gambar input maksimum: Ukuran maksimum untuk gambar input dibatasi hingga 20 MB.
Akurasi resolusi rendah: Ketika gambar dianalisis menggunakan pengaturan "resolusi rendah", itu memungkinkan respons yang lebih cepat dan menggunakan lebih sedikit token input untuk kasus penggunaan tertentu. Namun, ini dapat berdampak pada akurasi pengenalan objek dan teks dalam gambar.
Pembatasan obrolan gambar: Saat Anda mengunggah gambar di portal Azure AI Foundry atau API, ada batas 10 gambar per panggilan obrolan.

Informasi harga khusus

Penting

Detail harga dapat berubah di masa mendatang.

Model berkemampuan visi mengumpulkan biaya seperti model obrolan Azure OpenAI lainnya. Anda membayar tarif per token untuk perintah dan penyelesaian, yang dirinci di halaman Harga. Biaya dasar dan fitur tambahan diuraikan di sini:

Harga Dasar untuk GPT-4 Turbo dengan Visi adalah:

Input: $0,01 per 1000 token
Output: $0,03 per 1000 token

Lihat bagian Token dari gambaran umum untuk informasi tentang cara teks dan gambar diterjemahkan ke token.

Contoh perhitungan harga gambar

Penting

Konten berikut adalah contoh saja, dan harga dapat berubah di masa mendatang.

Untuk kasus penggunaan umum, ambil gambar dengan objek dan teks yang terlihat dan input prompt token 100. Ketika layanan memproses permintaan, layanan menghasilkan 100 token output. Dalam gambar, teks dan objek dapat dideteksi. Harga transaksi ini adalah:

Barang	Detil	Biaya
Input perintah teks	100 token teks	$0,001
Contoh input gambar (lihat Token gambar)	170 + 85 token gambar	$0,00255
Fitur add-on yang disempurnakan untuk OCR	Transaksi $1,50 / 1000	$0,0015
Fitur add-on yang disempurnakan untuk Object Grounding	Transaksi $1,50 / 1000	$0,0015
Token Output	100 token (diasumsikan)	$0,003
Jumlah		$0,00955

Langkah selanjutnya

Mulai menggunakan model yang mendukung visi dengan mengikuti mulai cepat.
Untuk melihat API yang lebih mendalam, ikuti panduan cara penggunaan.
Lihat referensi API penyelesaian dan penyematan