Share via


Usare GPT-4 Turbo con Visione

GPT-4 Turbo with Vision è un grande modello granulare (LMM) sviluppato da OpenAI che può analizzare le immagini e fornire risposte testuali a domande su di essi. Incorpora sia l'elaborazione del linguaggio naturale che la comprensione visiva.

Il modello GPT-4 Turbo with Vision risponde a domande generali su ciò che è presente nelle immagini. È anche possibile visualizzare il video se si usa il miglioramento della visione.

Suggerimento

Per usare GPT-4 Turbo con Vision, chiamare l'API Completamento chat in un modello GPT-4 Turbo con Visione distribuita. Se non si ha familiarità con l'API di completamento della chat, vedere la guida pratica GPT-4 Turbo & GPT-4.

Aggiornamento del modello Turbo GPT-4

La versione ga più recente di GPT-4 Turbo è:

  • gpt-4Versioneturbo-2024-04-09:

Questa è la sostituzione dei modelli di anteprima seguenti:

  • gpt-4Versione1106-Preview:
  • gpt-4Versione0125-Preview:
  • gpt-4Versionevision-preview:

Differenze tra i modelli OpenAI e Azure OpenAI GPT-4 Turbo GA

  • La versione di OpenAI del modello turbo più recente 0409 supporta la modalità JSON e la chiamata di funzione per tutte le richieste di inferenza.
  • La versione di Azure OpenAI dell'ultima versione turbo-2024-04-09 attualmente non supporta l'uso della modalità JSON e della chiamata di funzione quando si effettuano richieste di inferenza con input di immagine (visione). Le richieste di input basate su testo (richieste senza image_url immagini inline) supportano la modalità JSON e la chiamata a funzioni.

Differenze rispetto a gpt-4 vision-preview

  • L'integrazione dei miglioramenti specifici di Visione artificiale di Azure con GPT-4 Turbo con Vision non è supportata per gpt-4Version:turbo-2024-04-09. Sono inclusi il riconoscimento ottico dei caratteri (OCR), il grounding degli oggetti, le richieste video e una migliore gestione dei dati con le immagini.

Disponibilità gestita con provisioning GPT-4 Turbo

  • gpt-4Versione:turbo-2024-04-09 è disponibile sia per le distribuzioni standard che per le distribuzioni con provisioning. Attualmente la versione di cui è stato effettuato il provisioning di questo modello non supporta le richieste di inferenza di immagini/visione. Le distribuzioni con provisioning di questo modello accettano solo input di testo. Le distribuzioni di modelli standard accettano richieste di inferenza di testo e immagine/visione.

Aree di disponibilità

Per informazioni sulla disponibilità a livello di area del modello, vedere la matrice del modello per le distribuzioni standard e con provisioning.

Distribuzione di GPT-4 Turbo con Vision GA

Per distribuire il modello ga dall'interfaccia utente di Studio, selezionare GPT-4 e quindi scegliere la turbo-2024-04-09 versione dal menu a discesa. La quota predefinita per il gpt-4-turbo-2024-04-09 modello sarà la stessa della quota corrente per GPT-4-Turbo. Vedere i limiti di quota a livello di area.

Chiamare le API di completamento della chat

Il comando seguente illustra il modo più semplice per usare il modello GPT-4 Turbo con Visione con codice. Se questa è la prima volta che si usano questi modelli a livello di codice, è consigliabile iniziare con la guida introduttiva GPT-4 Turbo con Vision.

Inviare una richiesta POST a https://{RESOURCE_NAME}.openai.azure.com/openai/deployments/{DEPLOYMENT_NAME}/chat/completions?api-version=2023-12-01-preview dove

  • RESOURCE_NAME è il nome della risorsa OpenAI di Azure
  • DEPLOYMENT_NAME è il nome della distribuzione del modello GPT-4 Turbo con Visione

Intestazioni obbligatorie:

  • Content-Type: application/json
  • api-key: {API_KEY}

Corpo: di seguito è riportato un corpo della richiesta di esempio. Il formato è uguale all'API di completamento della chat per GPT-4, ad eccezione del fatto che il contenuto del messaggio può essere una matrice contenente testo e immagini (un URL HTTP o HTTPS valido per un'immagine o un'immagine con codifica base 64).

Importante

Ricordarsi di impostare un "max_tokens" valore o l'output restituito verrà tagliato.

{
    "messages": [ 
        {
            "role": "system", 
            "content": "You are a helpful assistant." 
        },
        {
            "role": "user", 
            "content": [
	            {
	                "type": "text",
	                "text": "Describe this picture:"
	            },
	            {
	                "type": "image_url",
	                "image_url": {
                        "url": "<image URL>"
                    }
                } 
           ] 
        }
    ],
    "max_tokens": 100, 
    "stream": false 
} 

Suggerimento

Usare un'immagine locale

Se si vuole usare un'immagine locale, è possibile usare il codice Python seguente per convertirlo in base64 in modo che possa essere passato all'API. Gli strumenti di conversione file alternativi sono disponibili online.

import base64
from mimetypes import guess_type

# Function to encode a local image into data URL 
def local_image_to_data_url(image_path):
    # Guess the MIME type of the image based on the file extension
    mime_type, _ = guess_type(image_path)
    if mime_type is None:
        mime_type = 'application/octet-stream'  # Default MIME type if none is found

    # Read and encode the image file
    with open(image_path, "rb") as image_file:
        base64_encoded_data = base64.b64encode(image_file.read()).decode('utf-8')

    # Construct the data URL
    return f"data:{mime_type};base64,{base64_encoded_data}"

# Example usage
image_path = '<path_to_image>'
data_url = local_image_to_data_url(image_path)
print("Data URL:", data_url)

Quando i dati dell'immagine base64 sono pronti, è possibile passarli all'API nel corpo della richiesta come segue:

...
"type": "image_url",
"image_url": {
   "url": "data:image/jpeg;base64,<your_image_data>"
}
...

Output

La risposta api dovrebbe essere simile alla seguente.

{
    "id": "chatcmpl-8VAVx58veW9RCm5K1ttmxU6Cm4XDX",
    "object": "chat.completion",
    "created": 1702439277,
    "model": "gpt-4",
    "prompt_filter_results": [
        {
            "prompt_index": 0,
            "content_filter_results": {
                "hate": {
                    "filtered": false,
                    "severity": "safe"
                },
                "self_harm": {
                    "filtered": false,
                    "severity": "safe"
                },
                "sexual": {
                    "filtered": false,
                    "severity": "safe"
                },
                "violence": {
                    "filtered": false,
                    "severity": "safe"
                }
            }
        }
    ],
    "choices": [
        {
            "finish_reason":"stop",
            "index": 0,
            "message": {
                "role": "assistant",
                "content": "The picture shows an individual dressed in formal attire, which includes a black tuxedo with a black bow tie. There is an American flag on the left lapel of the individual's jacket. The background is predominantly blue with white text that reads \"THE KENNEDY PROFILE IN COURAGE AWARD\" and there are also visible elements of the flag of the United States placed behind the individual."
            },
            "content_filter_results": {
                "hate": {
                    "filtered": false,
                    "severity": "safe"
                },
                "self_harm": {
                    "filtered": false,
                    "severity": "safe"
                },
                "sexual": {
                    "filtered": false,
                    "severity": "safe"
                },
                "violence": {
                    "filtered": false,
                    "severity": "safe"
                }
            }
        }
    ],
    "usage": {
        "prompt_tokens": 1156,
        "completion_tokens": 80,
        "total_tokens": 1236
    }
}

Ogni risposta include un "finish_details" campo. Ha i valori possibili seguenti:

  • stop: l'API ha restituito l'output completo del modello.
  • length: output del modello incompleto a causa del max_tokens limite di token del parametro di input o del modello.
  • content_filter: omesso contenuto a causa di un flag dai filtri di contenuto.

Impostazioni dei parametri dettagli nell'elaborazione delle immagini: Basso, Alto, Automatico

Il parametro dettagli nel modello offre tre opzioni: low, higho auto, per regolare il modo in cui il modello interpreta ed elabora le immagini. L'impostazione predefinita è automatica, in cui il modello decide tra basso o alto in base alle dimensioni dell'input dell'immagine.

  • low impostazione: il modello non attiva la modalità "high res", elabora invece una versione di risoluzione inferiore 512x512, ottenendo risposte più rapide e un consumo ridotto di token per scenari in cui dettagli non è fondamentale.
  • high impostazione: il modello attiva la modalità "high res". In questo caso, il modello visualizza inizialmente l'immagine a bassa risoluzione e quindi genera segmenti dettagliati di 512x512 dall'immagine di input. Ogni segmento usa il doppio del budget del token, consentendo un'interpretazione più dettagliata dell'immagine".

Per informazioni dettagliate su come i parametri dell'immagine influisce sui token usati e sui prezzi, vedere Informazioni su OpenAI Token di immagine con GPT-4 Turbo con Visione

Usare il miglioramento della visione con le immagini

GPT-4 Turbo con Visione offre l'accesso esclusivo ai servizi di intelligenza artificiale di Azure miglioramenti personalizzati. In combinazione con Visione artificiale di Azure, migliora l'esperienza di chat fornendo al modello di chat informazioni più dettagliate sul testo visibile nell'immagine e sulle posizioni degli oggetti.

L'integrazione OCR (Optical Character Recognition) consente al modello di produrre risposte di qualità superiore per testo denso, immagini trasformate e documenti finanziari con numero elevato. Comprende anche una gamma più ampia di lingue.

L'integrazione del grounding degli oggetti porta un nuovo livello all'analisi dei dati e all'interazione dell'utente, in quanto la funzionalità può distinguere visivamente ed evidenziare elementi importanti nelle immagini che elabora.

Importante

Per usare il miglioramento di Visione con una risorsa OpenAI di Azure, è necessario specificare una risorsa Visione artificiale. Deve essere nel livello a pagamento (S1) e nella stessa area di Azure della risorsa GPT-4 Turbo con Visione. Se si usa una risorsa di Servizi di intelligenza artificiale di Azure, non è necessaria una risorsa Visione artificiale aggiuntiva.

Attenzione

I miglioramenti dell'intelligenza artificiale di Azure per GPT-4 Turbo con Visione verranno fatturati separatamente dalle funzionalità principali. Ogni specifico miglioramento dell'intelligenza artificiale di Azure per GPT-4 Turbo con Vision ha i propri addebiti distinti. Per informazioni dettagliate, vedere le informazioni speciali sui prezzi.

Inviare una richiesta POST a https://{RESOURCE_NAME}.openai.azure.com/openai/deployments/{DEPLOYMENT_NAME}/extensions/chat/completions?api-version=2023-12-01-preview dove

  • RESOURCE_NAME è il nome della risorsa OpenAI di Azure
  • DEPLOYMENT_NAME è il nome della distribuzione del modello GPT-4 Turbo con Visione

Intestazioni obbligatorie:

  • Content-Type: application/json
  • api-key: {API_KEY}

Corpo:

Il formato è simile a quello dell'API di completamento della chat per GPT-4, ma il contenuto del messaggio può essere una matrice contenente stringhe e immagini (un URL HTTP o HTTPS valido per un'immagine o un'immagine con codifica base 64).

È inoltre necessario includere gli enhancements oggetti e dataSources . enhancements rappresenta le funzionalità di miglioramento della visione specifiche richieste nella chat. Ha una grounding proprietà e ocr , che hanno entrambe una proprietà booleana enabled . Usare queste opzioni per richiedere il servizio OCR e/o il servizio di rilevamento/terra degli oggetti. dataSourcesrappresenta i dati delle risorse Visione artificiale necessari per il miglioramento della visione. Ha una type proprietà che deve essere "AzureComputerVision" e una parameters proprietà . Impostare e endpointkey sull'URL dell'endpoint e sulla chiave di accesso della risorsa Visione artificiale.

Importante

Ricordarsi di impostare un "max_tokens" valore o l'output restituito verrà tagliato.

{
    "enhancements": {
            "ocr": {
              "enabled": true
            },
            "grounding": {
              "enabled": true
            }
    },
    "dataSources": [
    {
        "type": "AzureComputerVision",
        "parameters": {
            "endpoint": "<your_computer_vision_endpoint>",
            "key": "<your_computer_vision_key>"
        }
    }],
    "messages": [
        {
            "role": "system",
            "content": "You are a helpful assistant."
        },
        {
            "role": "user",
            "content": [
	            {
	                "type": "text",
	                "text": "Describe this picture:"
	            },
	            {
	                "type": "image_url",
	                "image_url": {
                        "url":"<image URL>" 
                    }
                }
           ] 
        }
    ],
    "max_tokens": 100, 
    "stream": false 
} 

Output

Le risposte di chat ricevute dal modello dovrebbero ora includere informazioni avanzate sull'immagine, ad esempio etichette degli oggetti e rettangoli delimitatori e risultati OCR. La risposta api dovrebbe essere simile alla seguente.

{
    "id": "chatcmpl-8UyuhLfzwTj34zpevT3tWlVIgCpPg",
    "object": "chat.completion",
    "created": 1702394683,
    "model": "gpt-4",
    "choices":
    [
        {
            "finish_details": {
                "type": "stop",
                "stop": "<|fim_suffix|>"
            },
            "index": 0,
            "message":
            {
                "role": "assistant",
                "content": "The image shows a close-up of an individual with dark hair and what appears to be a short haircut. The person has visible ears and a bit of their neckline. The background is a neutral light color, providing a contrast to the dark hair."
            },
            "enhancements":
            {
                "grounding":
                {
                    "lines":
                    [
                        {
                            "text": "The image shows a close-up of an individual with dark hair and what appears to be a short haircut. The person has visible ears and a bit of their neckline. The background is a neutral light color, providing a contrast to the dark hair.",
                            "spans":
                            [
                                {
                                    "text": "the person",
                                    "length": 10,
                                    "offset": 99,
                                    "polygon": [{"x":0.11950000375509262,"y":0.4124999940395355},{"x":0.8034999370574951,"y":0.4124999940395355},{"x":0.8034999370574951,"y":0.6434999704360962},{"x":0.11950000375509262,"y":0.6434999704360962}]
                                }
                            ]
                        }
                    ],
                    "status": "Success"
                }
            }
        }
    ],
    "usage":
    {
        "prompt_tokens": 816,
        "completion_tokens": 49,
        "total_tokens": 865
    }
}

Ogni risposta include un "finish_details" campo. Ha i valori possibili seguenti:

  • stop: l'API ha restituito l'output completo del modello.
  • length: output del modello incompleto a causa del max_tokens limite di token del parametro di input o del modello.
  • content_filter: omesso contenuto a causa di un flag dai filtri di contenuto.

Usare il miglioramento della visione con il video

GPT-4 Turbo con Visione offre l'accesso esclusivo ai servizi di intelligenza artificiale di Azure miglioramenti personalizzati. L'integrazione della richiesta video usa il recupero video di Visione artificiale di Azure per campionare un set di fotogrammi da un video e creare una trascrizione del parlato nel video. Consente al modello di intelligenza artificiale di fornire riepiloghi e risposte sul contenuto video.

Seguire questa procedura per configurare un sistema di recupero video e integrarlo con il modello di chat di intelligenza artificiale.

Importante

Per usare il miglioramento di Visione con una risorsa OpenAI di Azure, è necessario specificare una risorsa Visione artificiale. Deve essere nel livello a pagamento (S1) e nella stessa area di Azure della risorsa GPT-4 Turbo con Visione. Se si usa una risorsa di Servizi di intelligenza artificiale di Azure, non è necessaria una risorsa Visione artificiale aggiuntiva.

Attenzione

I miglioramenti dell'intelligenza artificiale di Azure per GPT-4 Turbo con Visione verranno fatturati separatamente dalle funzionalità principali. Ogni specifico miglioramento dell'intelligenza artificiale di Azure per GPT-4 Turbo con Vision ha i propri addebiti distinti. Per informazioni dettagliate, vedere le informazioni speciali sui prezzi.

Suggerimento

Se si preferisce, è possibile eseguire i passaggi seguenti usando invece un notebook jupyter: i completamenti della chat video.

Caricare video in Archiviazione BLOB di Azure

È necessario caricare i video in un contenitore Archiviazione BLOB di Azure. Creare un nuovo account di archiviazione se non ne è già disponibile uno.

Dopo aver caricato i video, è possibile ottenere gli URL di firma di accesso condiviso, che verranno usati per accedervi nei passaggi successivi.

Assicurarsi che l'accesso in lettura sia appropriato

A seconda del metodo di autenticazione, potrebbe essere necessario eseguire alcuni passaggi aggiuntivi per concedere l'accesso al contenitore Archiviazione BLOB di Azure. Se si usa una risorsa di Servizi di intelligenza artificiale di Azure anziché una risorsa OpenAI di Azure, è necessario usare le identità gestite per concedere l'accesso in lettura a Archiviazione BLOB di Azure:

Abilitare le identità assegnate dal sistema nella risorsa di Servizi di intelligenza artificiale di Azure seguendo questa procedura:

  1. Dalla risorsa servizi di intelligenza artificiale in portale di Azure selezionare Gestione risorse ->Identità e attivare o disattivare lo stato su ON.
  2. Assegnare Archiviazione accesso in lettura ai dati BLOB alla risorsa servizi di intelligenza artificiale: nella pagina Identità selezionare Assegnazioni di ruolo di Azure e quindi Aggiungere un'assegnazione di ruolo con le impostazioni seguenti:
    • ambito: archiviazione
    • sottoscrizione: {sottoscrizione}
    • Risorsa: {selezionare la risorsa Archiviazione BLOB di Azure}
    • Ruolo: lettore di dati BLOB Archiviazione
  3. Salva le impostazioni.

Creare un indice di recupero video

  1. Ottenere una risorsa di Visione artificiale di Azure nella stessa area della risorsa OpenAI di Azure in uso.

  2. Creare un indice per archiviare e organizzare i file video e i relativi metadati. Il comando di esempio seguente illustra come creare un indice denominato my-video-index usando l'API Crea indice . Salvare il nome dell'indice in una posizione temporanea; sarà necessario nei passaggi successivi.

    Suggerimento

    Per istruzioni più dettagliate sulla creazione di un indice video, vedere Eseguire il recupero video usando la vettorializzazione.

    curl.exe -v -X PUT "https://<YOUR_ENDPOINT_URL>/computervision/retrieval/indexes/my-video-index?api-version=2023-05-01-preview" -H "Ocp-Apim-Subscription-Key: <YOUR_SUBSCRIPTION_KEY>" -H "Content-Type: application/json" --data-ascii "
    {
      'metadataSchema': {
        'fields': [
          {
            'name': 'cameraId',
            'searchable': false,
            'filterable': true,
            'type': 'string'
          },
          {
            'name': 'timestamp',
            'searchable': false,
            'filterable': true,
            'type': 'datetime'
          }
        ]
      },
      'features': [
        {
          'name': 'vision',
          'domain': 'surveillance'
        },
        {
          'name': 'speech'
        }
      ]
    }"
    
  3. Aggiungere file video all'indice con i metadati associati. L'esempio seguente illustra come aggiungere due file video all'indice usando GLI URL di firma di accesso condiviso con l'API Di inserimento crea. Salvare gli URL e documentId i valori di firma di accesso condiviso in una posizione temporanea. Saranno necessari nei passaggi successivi.

    curl.exe -v -X PUT "https://<YOUR_ENDPOINT_URL>/computervision/retrieval/indexes/my-video-index/ingestions/my-ingestion?api-version=2023-05-01-preview" -H "Ocp-Apim-Subscription-Key: <YOUR_SUBSCRIPTION_KEY>" -H "Content-Type: application/json" --data-ascii "
    {
      'videos': [
        {
          'mode': 'add',
          'documentId': '02a504c9cd28296a8b74394ed7488045',
          'documentUrl': 'https://example.blob.core.windows.net/videos/02a504c9cd28296a8b74394ed7488045.mp4?sas_token_here',
          'metadata': {
            'cameraId': 'camera1',
            'timestamp': '2023-06-30 17:40:33'
          }
        },
        {
          'mode': 'add',
          'documentId': '043ad56daad86cdaa6e493aa11ebdab3',
          'documentUrl': '[https://example.blob.core.windows.net/videos/043ad56daad86cdaa6e493aa11ebdab3.mp4?sas_token_here',
          'metadata': {
            'cameraId': 'camera2'
          }
        }
      ]
    }"
    
  4. Dopo aver aggiunto file video all'indice, viene avviato il processo di inserimento. L'operazione potrebbe richiedere del tempo a seconda delle dimensioni e del numero di file. Per assicurarsi che l'inserimento sia completato prima di eseguire ricerche, è possibile usare l'API Recupera inserimento per controllare lo stato. Attendere che la chiamata venga restituita "state" = "Completed" prima di procedere al passaggio successivo.

    curl.exe -v -X GET "https://<YOUR_ENDPOINT_URL>/computervision/retrieval/indexes/my-video-index/ingestions?api-version=2023-05-01-preview&$top=20" -H "ocp-apim-subscription-key: <YOUR_SUBSCRIPTION_KEY>"
    

Integrare l'indice video con GPT-4 Turbo con Vision

  1. Preparare una richiesta POST in https://{RESOURCE_NAME}.openai.azure.com/openai/deployments/{DEPLOYMENT_NAME}/extensions/chat/completions?api-version=2023-12-01-preview cui

    • RESOURCE_NAME è il nome della risorsa OpenAI di Azure
    • DEPLOYMENT_NAME è il nome della distribuzione del modello di visione GPT-4

    Intestazioni obbligatorie:

    • Content-Type: application/json
    • api-key: {API_KEY}
  2. Aggiungere la struttura JSON seguente nel corpo della richiesta:

    {
        "enhancements": {
                "video": {
                  "enabled": true
                }
        },
        "dataSources": [
        {
            "type": "AzureComputerVisionVideoIndex",
            "parameters": {
                "computerVisionBaseUrl": "<your_computer_vision_endpoint>",
                "computerVisionApiKey": "<your_computer_vision_key>",
                "indexName": "<name_of_your_index>",
                "videoUrls": ["<your_video_SAS_URL>"]
            }
        }],
        "messages": [ 
            {
                "role": "system", 
                "content": "You are a helpful assistant." 
            },
            {
                "role": "user",
                "content": [
                        {
                            "type": "acv_document_id",
                            "acv_document_id": "<your_video_ID>"
                        },
                        {
                            "type": "text",
                            "text": "Describe this video:"
                        }
                    ]
            }
        ],
        "max_tokens": 100, 
    } 
    

    La richiesta include gli enhancements oggetti e dataSources . enhancements rappresenta le funzionalità di miglioramento della visione specifiche richieste nella chat. dataSourcesrappresenta i dati delle risorse Visione artificiale necessari per il miglioramento della visione. Ha una type proprietà che deve essere "AzureComputerVisionVideoIndex" e una parameters proprietà che contiene le informazioni video e visione artificiale.

  3. Compilare tutti i <placeholder> campi precedenti con le proprie informazioni: immettere gli URL dell'endpoint e le chiavi delle risorse OpenAI e AI Vision, dove appropriato, e recuperare le informazioni sull'indice video dal passaggio precedente.

  4. Inviare la richiesta POST all'endpoint API. Deve contenere le credenziali di OpenAI e ai Vision, il nome dell'indice video e l'ID e l'URL sas di un singolo video.

Importante

Il "data_sources" contenuto dell'oggetto varia a seconda del tipo di risorsa di Azure e del metodo di autenticazione in uso. Vedere il riferimento seguente:

"data_sources": [
{
    "type": "AzureComputerVisionVideoIndex",
    "parameters": {
    "endpoint": "<your_computer_vision_endpoint>",
    "computerVisionApiKey": "<your_computer_vision_key>",
    "indexName": "<name_of_your_index>",
    "videoUrls": ["<your_video_SAS_URL>"]
    }
}],

Output

Le risposte di chat ricevute dal modello devono includere informazioni sul video. La risposta api dovrebbe essere simile alla seguente.

{
    "id": "chatcmpl-8V4J2cFo7TWO7rIfs47XuDzTKvbct",
    "object": "chat.completion",
    "created": 1702415412,
    "model": "gpt-4",
    "choices":
    [
        {
            "finish_reason":"stop",
            "index": 0,
            "message":
            {
                "role": "assistant",
                "content": "The advertisement video opens with a blurred background that suggests a serene and aesthetically pleasing environment, possibly a workspace with a nature view. As the video progresses, a series of frames showcase a digital interface with search bars and prompts like \"Inspire new ideas,\" \"Research a topic,\" and \"Organize my plans,\" suggesting features of a software or application designed to assist with productivity and creativity.\n\nThe color palette is soft and varied, featuring pastel blues, pinks, and purples, creating a calm and inviting atmosphere. The backgrounds of some frames are adorned with abstract, organically shaped elements and animations, adding to the sense of innovation and modernity.\n\nMidway through the video, the focus shifts to what appears to be a browser or software interface with the phrase \"Screens simulated, subject to change; feature availability and timing may vary,\" indicating the product is in development and that the visuals are illustrative of its capabilities.\n\nThe use of text prompts continues with \"Help me relax,\" followed by a demonstration of a 'dark mode' feature, providing a glimpse into the software's versatility and user-friendly design.\n\nThe video concludes by revealing the product name, \"Copilot,\" and positioning it as \"Your everyday AI companion,\" implying the use of artificial intelligence to enhance daily tasks. The final frames feature the Microsoft logo, associating the product with the well-known technology company.\n\nIn summary, the advertisement video is for a Microsoft product named \"Copilot,\" which seems to be an AI-powered software tool aimed at improving productivity, creativity, and organization for its users. The video conveys a message of innovation, ease, and support in daily digital interactions through a visually appealing and calming presentation."
            }
        }
    ],
    "usage":
    {
        "prompt_tokens": 2068,
        "completion_tokens": 341,
        "total_tokens": 2409
    }
}

Ogni risposta include un "finish_details" campo. Ha i valori possibili seguenti:

  • stop: l'API ha restituito l'output completo del modello.
  • length: output del modello incompleto a causa del max_tokens limite di token del parametro di input o del modello.
  • content_filter: omesso contenuto a causa di un flag dai filtri di contenuto.

Esempio di prezzi per le richieste video

I prezzi per GPT-4 Turbo con Visione sono dinamici e dipendono dalle caratteristiche e dagli input specifici usati. Per una panoramica completa dei prezzi di Azure OpenAI, vedere Prezzi di Azure OpenAI.

Gli addebiti di base e le funzionalità aggiuntive sono descritti di seguito:

I prezzi di base per GPT-4 Turbo con Visione sono:

  • Input: $0,01 per 1000 token
  • Output: $0,03 per 1000 token

Integrazione della richiesta video con il componente aggiuntivo Recupero video:

  • Inserimento: $ 0,05 al minuto di video
  • Transazioni: $ 0,25 per 1000 query del recupero video

Passaggi successivi