Concetti di GPT-4 Turbo con Visione
GPT-4 Turbo con Visione è un grande modello granulare (LMM) sviluppato da OpenAI in grado di analizzare le immagini e fornire risposte testuali a domande su di essi. Incorpora sia l'elaborazione del linguaggio naturale che la comprensione visiva. Questa guida fornisce informazioni dettagliate sulle funzionalità e sulle limitazioni di GPT-4 Turbo con Visione.
Per provare GPT-4 Turbo con Visione, vedere la guida introduttiva.
Chat con visione
Il modello GPT-4 Turbo con Visione risponde a domande generali su ciò che è presente nelle immagini o nei video caricati.
Informazioni speciali sui prezzi
Importante
I dettagli sui prezzi sono soggetti a modifiche future.
GPT-4 Turbo con Visione accumula addebiti come altri modelli di chat OpenAI di Azure. Si paga una tariffa per token per le richieste e i completamenti, descritta in dettaglio nella pagina dei prezzi. Gli addebiti di base e le funzionalità aggiuntive sono descritti di seguito:
I prezzi di base per GPT-4 Turbo con Visione sono:
- Input: $ 0,01 per 1000 token
- Output: $ 0,03 per 1000 token
Vedere la sezione Token della panoramica per informazioni su come il testo e le immagini si traducono in token.
Esempio di calcolo del prezzo dell'immagine
Importante
Il contenuto seguente è solo un esempio e i prezzi sono soggetti a modifiche in futuro.
Per un caso d'uso tipico, acquisire un'immagine con oggetti visibili e testo e un input di richiesta di 100 token. Quando il servizio elabora il prompt, genera 100 token di output. Nell'immagine è possibile rilevare sia testo che oggetti. Il prezzo di questa transazione sarà:
Articolo | Dettagli | Costo |
---|---|---|
Input della richiesta di testo | 100 token di testo | $0,001 |
Esempio di input dell'immagine (vedere Token immagine) | 170 + 85 token di immagine | $ 0,00255 |
Funzionalità avanzate dei componenti aggiuntivi per OCR | $ 1,50/1000 transazioni | $ 0,0015 |
Funzionalità avanzate dei componenti aggiuntivi per il grounding degli oggetti | $ 1,50/1000 transazioni | $ 0,0015 |
Token di output | 100 token (presupposti) | $ 0,003 |
Totali | $ 0,00955 |
Esempio di calcolo del prezzo del video
Importante
Il contenuto seguente è solo un esempio e i prezzi sono soggetti a modifiche in futuro.
Per un caso d'uso tipico, considerare un video di 3 minuti con un input di richiesta di 100 token. Il video ha una trascrizione lunga 100 token e quando il servizio elabora la richiesta genera 100 token di output. Il prezzo di questa transazione sarà:
Articolo | Dettagli | Costo |
---|---|---|
Token di inserimento di GPT-4 Turbo con Visione | 100 token di testo | $0,001 |
Costo aggiuntivo per identificare i fotogrammi | 100 token di input + 700 token + 1 transazione di Recupero video | $ 0,00825 |
Input immagine e input trascrizione | 20 immagini (85 token ciascuna) + 100 token di trascrizione | $0,018 |
Token di output | 100 token (presupposti) | $ 0,003 |
Totali | $ 0,03025 |
Inoltre, è previsto un costo di indicizzazione una tantum pari a $ 0,15 per generare l'indice Recupero video per questo video di 3 minuti. Questo indice può essere riutilizzato in un numero qualsiasi di chiamate all'API Recupero video e GPT-4 Turbo.
Limitazioni relative all’input
Questa sezione descrive le limitazioni di GPT-4 Turbo con Visione.
Supporto delle immagini
- Dimensioni massime dell'immagine di input: la dimensione massima per le immagini di input è limitata a 20 MB.
- Accuratezza a bassa risoluzione: quando le immagini vengono analizzate usando l'impostazione "a bassa risoluzione", consente risposte più veloci e usa meno token di input per determinati casi d'uso. Tuttavia, ciò potrebbe influire sull'accuratezza del riconoscimento dell'oggetto e del testo all'interno dell'immagine.
- Restrizione della chat di immagini: quando si caricano immagini in Azure AI Studio o nell'API, è previsto un limite di 10 immagini per ogni chiamata di chat.
Supporto dei video
- Bassa risoluzione: i fotogrammi del video vengono analizzati usando l'impostazione GPT-4 Turbo con "bassa risoluzione" di Vision, che può influire sull'accuratezza del riconoscimento di oggetti e testo di piccole dimensioni nel video.
- Limiti dei file video: sono supportati sia i tipi di file MP4 che MOV. In Azure AI Studio i video devono durare meno di 3 minuti. Quando si usa l'API non esiste alcuna limitazione di questo tipo.
- Limiti delle richieste: le richieste video contengono solo un video e nessuna immagine. In Azure AI Studio è possibile cancellare la sessione per provare un altro video o immagini.
- Selezione di fotogrammi limitati: il servizio seleziona 20 fotogrammi dall'intero video, che potrebbero non essere sufficienti per acquisire tutti i momenti o i dettagli critici. La selezione dei fotogrammi può essere distribuita approssimativamente in modo uniforme attraverso il video o incentrata da una query di recupero video specifica, a seconda della richiesta.
- Supporto lingua: il servizio supporta principalmente l'inglese per l'uso di trascrizioni. Le trascrizioni non forniscono informazioni accurate sui testi delle canzoni.
Passaggi successivi
- Per iniziare a usare GPT-4 Turbo con Visione, seguire la guida introduttiva.
- Per uno sguardo più approfondito alle API e per usare le richieste video in chat, seguire la guida pratica.
- Vedere i riferimenti API per completamenti e incorporamenti