GPT-4 Turbo dengan konsep Visi
GPT-4 Turbo with Vision adalah model multimodal besar (LMM) yang dikembangkan oleh OpenAI yang dapat menganalisis gambar dan memberikan respons tekstual terhadap pertanyaan tentang mereka. Ini menggabungkan pemrosesan bahasa alami dan pemahaman visual. Panduan ini memberikan detail tentang kemampuan dan batasan GPT-4 Turbo dengan Visi.
Untuk mencoba GPT-4 Turbo dengan Vision, lihat mulai cepat.
Obrolan dengan visi
Model GPT-4 Turbo with Vision menjawab pertanyaan umum tentang apa yang ada dalam gambar atau video yang Anda unggah.
Informasi harga khusus
Penting
Detail harga dapat berubah di masa mendatang.
GPT-4 Turbo dengan Visi mengumpulkan biaya seperti model obrolan Azure OpenAI lainnya. Anda membayar tarif per token untuk perintah dan penyelesaian, yang dirinci di halaman Harga. Biaya dasar dan fitur tambahan diuraikan di sini:
Harga Dasar untuk GPT-4 Turbo dengan Visi adalah:
- Input: $0,01 per 1000 token
- Output: $0,03 per 1000 token
Lihat bagian Token dari gambaran umum untuk informasi tentang cara teks dan gambar diterjemahkan ke token.
Contoh perhitungan harga gambar
Penting
Konten berikut adalah contoh saja, dan harga dapat berubah di masa mendatang.
Untuk kasus penggunaan umum, ambil gambar dengan objek dan teks yang terlihat dan input prompt token 100. Ketika layanan memproses permintaan, layanan menghasilkan 100 token output. Dalam gambar, teks dan objek dapat dideteksi. Harga transaksi ini adalah:
Item | Detail | Biaya |
---|---|---|
Input perintah teks | 100 token teks | $0,001 |
Contoh input gambar (lihat Token gambar) | 170 + 85 token gambar | $0,00255 |
Fitur add-on yang disempurnakan untuk OCR | Transaksi $1,50 / 1000 | $0,0015 |
Fitur add-on yang disempurnakan untuk Object Grounding | Transaksi $1,50 / 1000 | $0,0015 |
Token Output | 100 token (diasumsikan) | $0,003 |
Total | $0,00955 |
Contoh perhitungan harga video
Penting
Konten berikut adalah contoh saja, dan harga dapat berubah di masa mendatang.
Untuk kasus penggunaan umum, ambil video 3 menit dengan input prompt token 100. Video ini memiliki transkrip yang panjangnya 100 token, dan ketika layanan memproses perintah, ia menghasilkan 100 token output. Harga untuk transaksi ini adalah:
Item | Detail | Biaya |
---|---|---|
GPT-4 Turbo dengan token input Visi | 100 token teks | $0,001 |
Biaya Tambahan untuk mengidentifikasi bingkai | 100 token input + 700 token + 1 transaksi Pengambilan Video | $0,00825 |
Input Gambar dan Input Transkrip | 20 gambar (masing-masing 85 token) + 100 token transkrip | $0,018 |
Token Output | 100 token (diasumsikan) | $0,003 |
Total | $0,03025 |
Selain itu, ada biaya pengindeksan satu kali sebesar $0,15 untuk menghasilkan indeks Pengambilan Video untuk video 3 menit ini. Indeks ini dapat digunakan kembali di sejumlah Video Retrieval dan GPT-4 Turbo dengan panggilan Vision API.
Batasan input
Bagian ini menjelaskan batasan GPT-4 Turbo dengan Visi.
Dukungan gambar
- Ukuran gambar input maksimum: Ukuran maksimum untuk gambar input dibatasi hingga 20 MB.
- Akurasi resolusi rendah: Ketika gambar dianalisis menggunakan pengaturan "resolusi rendah", itu memungkinkan respons yang lebih cepat dan menggunakan lebih sedikit token input untuk kasus penggunaan tertentu. Namun, ini dapat berdampak pada akurasi pengenalan objek dan teks dalam gambar.
- Pembatasan obrolan gambar: Saat Anda mengunggah gambar di Azure AI Studio atau API, ada batas 10 gambar per panggilan obrolan.
Dukungan video
- Resolusi rendah: Bingkai video dianalisis menggunakan GPT-4 Turbo dengan pengaturan "resolusi rendah" Visi, yang dapat memengaruhi akurasi objek kecil dan pengenalan teks dalam video.
- Batas file video: Jenis file MP4 dan MOV didukung. Di Azure AI Studio, video harus berdurasi kurang dari 3 menit. Saat Anda menggunakan API, tidak ada batasan seperti itu.
- Batas perintah: Permintaan video hanya berisi satu video dan tanpa gambar. Di Azure AI Studio, Anda dapat menghapus sesi untuk mencoba video atau gambar lain.
- Pemilihan bingkai terbatas: Layanan memilih 20 bingkai dari seluruh video, yang mungkin tidak menangkap semua momen atau detail penting. Pemilihan bingkai dapat kira-kira tersebar merata melalui video atau difokuskan oleh kueri pengambilan video tertentu, tergantung pada perintah.
- Dukungan bahasa: Layanan ini terutama mendukung bahasa Inggris untuk grounding dengan transkrip. Transkrip tidak memberikan informasi yang akurat tentang lirik dalam lagu.
Langkah berikutnya
- Mulai menggunakan GPT-4 Turbo dengan Vision dengan mengikuti mulai cepat.
- Untuk melihat API yang lebih mendalam, dan untuk menggunakan perintah video dalam obrolan, ikuti panduan cara penggunaan.
- Lihat referensi API penyelesaian dan penyematan