Bagikan melalui


GPT-4 Turbo dengan konsep Visi

GPT-4 Turbo with Vision adalah model multimodal besar (LMM) yang dikembangkan oleh OpenAI yang dapat menganalisis gambar dan memberikan respons tekstual terhadap pertanyaan tentang mereka. Ini menggabungkan pemrosesan bahasa alami dan pemahaman visual. Panduan ini memberikan detail tentang kemampuan dan batasan GPT-4 Turbo dengan Visi.

Untuk mencoba GPT-4 Turbo dengan Vision, lihat mulai cepat.

Obrolan dengan visi

Model GPT-4 Turbo with Vision menjawab pertanyaan umum tentang apa yang ada dalam gambar atau video yang Anda unggah.

Informasi harga khusus

Penting

Detail harga dapat berubah di masa mendatang.

GPT-4 Turbo dengan Visi mengumpulkan biaya seperti model obrolan Azure OpenAI lainnya. Anda membayar tarif per token untuk perintah dan penyelesaian, yang dirinci di halaman Harga. Biaya dasar dan fitur tambahan diuraikan di sini:

Harga Dasar untuk GPT-4 Turbo dengan Visi adalah:

  • Input: $0,01 per 1000 token
  • Output: $0,03 per 1000 token

Lihat bagian Token dari gambaran umum untuk informasi tentang cara teks dan gambar diterjemahkan ke token.

Contoh perhitungan harga gambar

Penting

Konten berikut adalah contoh saja, dan harga dapat berubah di masa mendatang.

Untuk kasus penggunaan umum, ambil gambar dengan objek dan teks yang terlihat dan input prompt token 100. Ketika layanan memproses permintaan, layanan menghasilkan 100 token output. Dalam gambar, teks dan objek dapat dideteksi. Harga transaksi ini adalah:

Item Detail Biaya
Input perintah teks 100 token teks $0,001
Contoh input gambar (lihat Token gambar) 170 + 85 token gambar $0,00255
Fitur add-on yang disempurnakan untuk OCR Transaksi $1,50 / 1000 $0,0015
Fitur add-on yang disempurnakan untuk Object Grounding Transaksi $1,50 / 1000 $0,0015
Token Output 100 token (diasumsikan) $0,003
Total $0,00955

Contoh perhitungan harga video

Penting

Konten berikut adalah contoh saja, dan harga dapat berubah di masa mendatang.

Untuk kasus penggunaan umum, ambil video 3 menit dengan input prompt token 100. Video ini memiliki transkrip yang panjangnya 100 token, dan ketika layanan memproses perintah, ia menghasilkan 100 token output. Harga untuk transaksi ini adalah:

Item Detail Biaya
GPT-4 Turbo dengan token input Visi 100 token teks $0,001
Biaya Tambahan untuk mengidentifikasi bingkai 100 token input + 700 token + 1 transaksi Pengambilan Video $0,00825
Input Gambar dan Input Transkrip 20 gambar (masing-masing 85 token) + 100 token transkrip $0,018
Token Output 100 token (diasumsikan) $0,003
Total $0,03025

Selain itu, ada biaya pengindeksan satu kali sebesar $0,15 untuk menghasilkan indeks Pengambilan Video untuk video 3 menit ini. Indeks ini dapat digunakan kembali di sejumlah Video Retrieval dan GPT-4 Turbo dengan panggilan Vision API.

Batasan input

Bagian ini menjelaskan batasan GPT-4 Turbo dengan Visi.

Dukungan gambar

  • Ukuran gambar input maksimum: Ukuran maksimum untuk gambar input dibatasi hingga 20 MB.
  • Akurasi resolusi rendah: Ketika gambar dianalisis menggunakan pengaturan "resolusi rendah", itu memungkinkan respons yang lebih cepat dan menggunakan lebih sedikit token input untuk kasus penggunaan tertentu. Namun, ini dapat berdampak pada akurasi pengenalan objek dan teks dalam gambar.
  • Pembatasan obrolan gambar: Saat Anda mengunggah gambar di Azure AI Studio atau API, ada batas 10 gambar per panggilan obrolan.

Dukungan video

  • Resolusi rendah: Bingkai video dianalisis menggunakan GPT-4 Turbo dengan pengaturan "resolusi rendah" Visi, yang dapat memengaruhi akurasi objek kecil dan pengenalan teks dalam video.
  • Batas file video: Jenis file MP4 dan MOV didukung. Di Azure AI Studio, video harus berdurasi kurang dari 3 menit. Saat Anda menggunakan API, tidak ada batasan seperti itu.
  • Batas perintah: Permintaan video hanya berisi satu video dan tanpa gambar. Di Azure AI Studio, Anda dapat menghapus sesi untuk mencoba video atau gambar lain.
  • Pemilihan bingkai terbatas: Layanan memilih 20 bingkai dari seluruh video, yang mungkin tidak menangkap semua momen atau detail penting. Pemilihan bingkai dapat kira-kira tersebar merata melalui video atau difokuskan oleh kueri pengambilan video tertentu, tergantung pada perintah.
  • Dukungan bahasa: Layanan ini terutama mendukung bahasa Inggris untuk grounding dengan transkrip. Transkrip tidak memberikan informasi yang akurat tentang lirik dalam lagu.

Langkah berikutnya