Usare modelli di chat abilitati per la visione

Articolo
12/19/2024

I modelli di chat abilitati per la visione sono modelli di chat di grandi dimensioni (LMM) sviluppati da OpenAI che possono analizzare le immagini e fornire risposte testuali alle domande su di esse. Incorporano sia l'elaborazione del linguaggio naturale che la comprensione visiva. I modelli attuali abilitati per la visione sono o1, GPT-4o e GPT-4o-mini, GPT-4 Turbo con Vision.

I modelli abilitati per la visione rispondono a domande generali su ciò che è presente nelle immagini caricate.

Suggerimento

Per usare i modelli abilitati per la visione, chiamare l'API Completamento chat su un modello supportato distribuito. Se non si ha familiarità con l'API Completamento chat, vedere la guida pratica per la chat abilitata per la visione artificiale.

Chiamare le API Completamento chat

Il comando seguente illustra il modo più semplice per usare il modello GPT-4 Turbo con Visione con codice. Se questa è la prima volta che si usano questi modelli a livello di codice, è consigliabile iniziare con la Guida introduttiva a GPT-4 Turbo con Visione.

REST
Python

Inviare una richiesta POST a https://{RESOURCE_NAME}.openai.azure.com/openai/deployments/{DEPLOYMENT_NAME}/chat/completions?api-version=2024-02-15-preview dove

RESOURCE_NAME è il nome della risorsa OpenAI di Azure
DEPLOYMENT_NAME è il nome della distribuzione del modello GPT-4 Turbo con Visione

Intestazioni richieste:

Content-Type: application/json
api-key: {API_KEY}

Corpo: di seguito è riportato un corpo della richiesta di esempio. Il formato è uguale all'API di completamento della chat per GPT-4, ad eccezione del fatto che il contenuto del messaggio può essere una matrice contenente testo e immagini (un URL HTTP o HTTPS valido per un'immagine o un'immagine con codifica base-64).

Importante

Ricordarsi di impostare un valore "max_tokens" oppure l'output restituito verrà tagliato.

Importante

Quando si caricano immagini, è previsto un limite di 10 immagini per ogni richiesta di chat.

{
    "messages": [ 
        {
            "role": "system", 
            "content": "You are a helpful assistant." 
        },
        {
            "role": "user", 
            "content": [
	            {
	                "type": "text",
	                "text": "Describe this picture:"
	            },
	            {
	                "type": "image_url",
	                "image_url": {
                        "url": "<image URL>"
                    }
                } 
           ] 
        }
    ],
    "max_tokens": 100, 
    "stream": false 
}

Definire l'endpoint e la chiave della risorsa OpenAI di Azure.
Immettere il nome della distribuzione del modello GPT-4 Turbo con Visione.

Creare un oggetto client usando tali valori.

api_base = '<your_azure_openai_endpoint>' # your endpoint should look like the following https://YOUR_RESOURCE_NAME.openai.azure.com/
api_key="<your_azure_openai_key>"
deployment_name = '<your_deployment_name>'
api_version = '2024-02-15-preview' # this might change in the future

client = AzureOpenAI(
    api_key=api_key,  
    api_version=api_version,
    base_url=f"{api_base}openai/deployments/{deployment_name}",
)

Chiamare quindi il metodo create del client. Il codice seguente mostra un corpo della richiesta di esempio. Il formato è uguale all'API di completamento della chat per GPT-4, ad eccezione del fatto che il contenuto del messaggio può essere una matrice contenente testo e immagini (un URL HTTP o HTTPS valido per un'immagine o un'immagine con codifica base-64).

Importante

Ricordarsi di impostare un valore "max_tokens" oppure l'output restituito verrà tagliato.

response = client.chat.completions.create(
    model=deployment_name,
    messages=[
        { "role": "system", "content": "You are a helpful assistant." },
        { "role": "user", "content": [  
            { 
                "type": "text", 
                "text": "Describe this picture:" 
            },
            { 
                "type": "image_url",
                "image_url": {
                    "url": "<image URL>"
                }
            }
        ] } 
    ],
    max_tokens=2000 
)
print(response)

Suggerimento

Usare un'immagine locale

Se si vuole usare un'immagine locale, è possibile usare il codice Python seguente per convertirlo in base64 in modo che possa essere passato all'API. Gli strumenti di conversione file alternativi sono disponibili online.

import base64
from mimetypes import guess_type

# Function to encode a local image into data URL 
def local_image_to_data_url(image_path):
    # Guess the MIME type of the image based on the file extension
    mime_type, _ = guess_type(image_path)
    if mime_type is None:
        mime_type = 'application/octet-stream'  # Default MIME type if none is found

    # Read and encode the image file
    with open(image_path, "rb") as image_file:
        base64_encoded_data = base64.b64encode(image_file.read()).decode('utf-8')

    # Construct the data URL
    return f"data:{mime_type};base64,{base64_encoded_data}"

# Example usage
image_path = '<path_to_image>'
data_url = local_image_to_data_url(image_path)
print("Data URL:", data_url)

Quando i dati delle immagini base64 sono pronti, è possibile passarli all'API nel corpo della richiesta, nel modo seguente:

...
"type": "image_url",
"image_url": {
   "url": "data:image/jpeg;base64,<your_image_data>"
}
...

Output

La risposta API dovrebbe essere simile alla seguente.

{
    "id": "chatcmpl-8VAVx58veW9RCm5K1ttmxU6Cm4XDX",
    "object": "chat.completion",
    "created": 1702439277,
    "model": "gpt-4",
    "prompt_filter_results": [
        {
            "prompt_index": 0,
            "content_filter_results": {
                "hate": {
                    "filtered": false,
                    "severity": "safe"
                },
                "self_harm": {
                    "filtered": false,
                    "severity": "safe"
                },
                "sexual": {
                    "filtered": false,
                    "severity": "safe"
                },
                "violence": {
                    "filtered": false,
                    "severity": "safe"
                }
            }
        }
    ],
    "choices": [
        {
            "finish_reason":"stop",
            "index": 0,
            "message": {
                "role": "assistant",
                "content": "The picture shows an individual dressed in formal attire, which includes a black tuxedo with a black bow tie. There is an American flag on the left lapel of the individual's jacket. The background is predominantly blue with white text that reads \"THE KENNEDY PROFILE IN COURAGE AWARD\" and there are also visible elements of the flag of the United States placed behind the individual."
            },
            "content_filter_results": {
                "hate": {
                    "filtered": false,
                    "severity": "safe"
                },
                "self_harm": {
                    "filtered": false,
                    "severity": "safe"
                },
                "sexual": {
                    "filtered": false,
                    "severity": "safe"
                },
                "violence": {
                    "filtered": false,
                    "severity": "safe"
                }
            }
        }
    ],
    "usage": {
        "prompt_tokens": 1156,
        "completion_tokens": 80,
        "total_tokens": 1236
    }
}

Ogni risposta include un campo "finish_reason" e include i valori possibili seguenti:

stop: l'API ha restituito l'output completo del modello.
length: output del modello incompleto a causa del parametro di input max_tokens o del limite di token del modello.
content_filter: contenuto omesso a causa di un flag dai filtri di contenuto.

Impostazioni dei parametri dettagli nell'elaborazione delle immagini: Basso, Alto, Automatico

Il parametro dettaglio nel modello offre tre opzioni: low, high o auto, per regolare il modo in cui il modello interpreta ed elabora le immagini. L'impostazione predefinita è automatica e il modello decide tra livello basso o alto in base alle dimensioni dell'input dell'immagine.

Impostazione low: il modello non attiva la modalità "alta risoluzione", ma elabora invece una versione alla risoluzione inferiore di 512x512, ottenendo risposte più rapide e un consumo ridotto di token per gli scenari in cui i dettagli non sono cruciali.
Impostazione high: il modello attiva la modalità "alta risoluzione". In questo caso, il modello visualizza inizialmente l'immagine a bassa risoluzione e quindi genera segmenti dettagliati a risoluzione 512x512 dall'immagine di input. Ogni segmento usa il doppio del budget del token, consentendo un'interpretazione più dettagliata dell'immagine".

Per informazioni dettagliate su come i parametri dell'immagine influisce sui token usati e sui prezzi, vedere Informazioni su OpenAI di Azure? Token immagine

Output

Le risposte di chat ricevute dal modello dovrebbero ora includere informazioni avanzate sull'immagine, ad esempio etichette degli oggetti, rettangoli delimitatori e risultati OCR. La risposta API dovrebbe essere simile alla seguente.

{
    "id": "chatcmpl-8UyuhLfzwTj34zpevT3tWlVIgCpPg",
    "object": "chat.completion",
    "created": 1702394683,
    "model": "gpt-4",
    "choices":
    [
        {
            "finish_reason": {
                "type": "stop",
                "stop": "<|fim_suffix|>"
            },
            "index": 0,
            "message":
            {
                "role": "assistant",
                "content": "The image shows a close-up of an individual with dark hair and what appears to be a short haircut. The person has visible ears and a bit of their neckline. The background is a neutral light color, providing a contrast to the dark hair."
            }
        }
    ],
    "usage":
    {
        "prompt_tokens": 816,
        "completion_tokens": 49,
        "total_tokens": 865
    }
}

Ogni risposta include un campo "finish_reason" e include i valori possibili seguenti:

stop: l'API ha restituito l'output completo del modello.
length: output del modello incompleto a causa del parametro di input max_tokens o del limite di token del modello.
content_filter: contenuto omesso a causa di un flag dai filtri di contenuto.

Aggiornamento del modello GPT-4 Turbo

La versione con disponibilità generale più recente di GPT-4 Turbo è:

gpt-4 Versione:turbo-2024-04-09

Questa è la sostituzione per i modelli di anteprima seguenti:

gpt-4 Versione:1106-Preview
gpt-4 Versione:0125-Preview
gpt-4 Versione:vision-preview

Differenze tra i modelli OpenAI e Azure OpenAI GPT-4 Turbo GA

La versione di OpenAI del modello turbo 0409 più recente supporta la modalità JSON e la chiamata di funzione per tutte le richieste di inferenza.
La versione di OpenAI di Azure dell'ultima turbo-2024-04-09 attualmente non supporta l'uso della modalità JSON e della chiamata di funzione quando si effettuano richieste di inferenza con input di immagine (visione). Le richieste di input basate su testo (richieste senza image_url e immagini inline) supportano la modalità JSON e le chiamate di funzione.

Differenze rispetto a gpt-4 vision-preview

L'integrazione dei miglioramenti specifici di Visione di Azure per intelligenza artificiale con GPT-4 Turbo con Visione non è supportata per la gpt-4Versione:turbo-2024-04-09. Sono inclusi il riconoscimento ottico dei caratteri (OCR), il grounding degli oggetti, le richieste video e una migliore gestione dei dati con le immagini.

Importante

Le funzionalità di anteprima dei miglioramenti della visione, tra cui riconoscimento ottico dei caratteri (OCR), grounding di oggetti e le richieste video, verranno ritirate e non saranno più disponibili dopo l'aggiornamento di gpt-4 Versione: vision-preview a turbo-2024-04-09. Se attualmente si fa affidamento su una di queste funzionalità di anteprima, questo aggiornamento automatico del modello sarà una modifica che causa un'interruzione.

Disponibilità gestita con provisioning di GPT-4 Turbo

gpt-4 Versione:turbo-2024-04-09 è disponibile sia per le distribuzioni standard che per le distribuzioni con provisioning. Attualmente la versione con provisioning di questo modello non supporta le richieste di inferenza di immagini/visione. Le distribuzioni con provisioning di questo modello accettano solo input di testo. Le distribuzioni di modelli standard accettano richieste di inferenza di testo e immagine/visione.

Distribuzione della disponibilità generale di GPT-4 Turbo con Visione

Per distribuire il modello di disponibilità generale dal portale di Azure AI Foundry, selezionare GPT-4 e quindi scegliere la turbo-2024-04-09 versione dal menu a discesa. La quota predefinita per il modello di gpt-4-turbo-2024-04-09 corrisponderà alla quota corrente per GPT-4-Turbo. Vedere i limiti di quota a livello di area.

Condividi tramite

Usare modelli di chat abilitati per la visione

Chiamare le API Completamento chat

Usare un'immagine locale

Output

Impostazioni dei parametri dettagli nell'elaborazione delle immagini: Basso, Alto, Automatico

Output

Aggiornamento del modello GPT-4 Turbo

Differenze tra i modelli OpenAI e Azure OpenAI GPT-4 Turbo GA

Differenze rispetto a gpt-4 vision-preview

Disponibilità gestita con provisioning di GPT-4 Turbo

Distribuzione della disponibilità generale di GPT-4 Turbo con Visione

Passaggi successivi

Commenti e suggerimenti

Risorse aggiuntive