Guida introduttiva: Usare le immagini nelle chat di intelligenza artificiale

Introduzione all'uso di GPT-4 Turbo con immagini con il servizio Azure OpenAI.

Aggiornamento del modello Turbo GPT-4

La versione ga più recente di GPT-4 Turbo è:

  • gpt-4Versioneturbo-2024-04-09:

Questa è la sostituzione dei modelli di anteprima seguenti:

  • gpt-4Versione1106-Preview:
  • gpt-4Versione0125-Preview:
  • gpt-4Versionevision-preview:

Differenze tra i modelli OpenAI e Azure OpenAI GPT-4 Turbo GA

  • La versione di OpenAI del modello turbo più recente 0409 supporta la modalità JSON e la chiamata di funzione per tutte le richieste di inferenza.
  • La versione di Azure OpenAI dell'ultima versione turbo-2024-04-09 attualmente non supporta l'uso della modalità JSON e della chiamata di funzione quando si effettuano richieste di inferenza con input di immagine (visione). Le richieste di input basate su testo (richieste senza image_url immagini inline) supportano la modalità JSON e la chiamata a funzioni.

Differenze rispetto a gpt-4 vision-preview

  • L'integrazione dei miglioramenti specifici di Visione artificiale di Azure con GPT-4 Turbo con Vision non è supportata per gpt-4Version:turbo-2024-04-09. Sono inclusi il riconoscimento ottico dei caratteri (OCR), il grounding degli oggetti, le richieste video e una migliore gestione dei dati con le immagini.

Disponibilità gestita con provisioning GPT-4 Turbo

  • gpt-4Versione:turbo-2024-04-09 è disponibile sia per le distribuzioni standard che per le distribuzioni con provisioning. Attualmente la versione di cui è stato effettuato il provisioning di questo modello non supporta le richieste di inferenza di immagini/visione. Le distribuzioni con provisioning di questo modello accettano solo input di testo. Le distribuzioni di modelli standard accettano richieste di inferenza di testo e immagine/visione.

Aree di disponibilità

Per informazioni sulla disponibilità a livello di area del modello, vedere la matrice del modello per le distribuzioni standard e con provisioning.

Distribuzione di GPT-4 Turbo con Vision GA

Per distribuire il modello ga dall'interfaccia utente di Studio, selezionare GPT-4 e quindi scegliere la turbo-2024-04-09 versione dal menu a discesa. La quota predefinita per il gpt-4-turbo-2024-04-09 modello sarà la stessa della quota corrente per GPT-4-Turbo. Vedere i limiti di quota a livello di area.

Iniziare a esplorare GPT-4 Turbo con le funzionalità di Visione con un approccio senza codice tramite Azure OpenAI Studio.

Prerequisiti

  • Una sottoscrizione di Azure. Crearne una gratuitamente.
  • Accesso concesso ad Azure OpenAI nella sottoscrizione di Azure desiderata. Attualmente, l'accesso a questo servizio viene concesso solo dall'applicazione. È possibile richiedere l'accesso a OpenAI di Azure completando il modulo all'indirizzo https://aka.ms/oai/access. Apri un problema in questo repository per contattare Microsoft in caso di problemi.
  • Una risorsa del servizio OpenAI di Azure con un modello GPT-4 Turbo con Visione distribuita. Per le aree disponibili, vedere disponibilità del modello GPT-4 e GPT-4 Turbo Preview. Per altre informazioni sulla creazione di risorse, vedere la guida alla distribuzione delle risorse.
  • Per il miglioramento della visione (facoltativo): una risorsa di Azure Visione artificiale nella stessa area della risorsa OpenAI di Azure, nel livello a pagamento (S1).

Nota

Attualmente non è supportato disattivare il filtro del contenuto per il modello GPT-4 Turbo con Visione.

Passa ad Azure OpenAI Studio

Passare ad Azure OpenAI Studio e accedere con le credenziali associate alla risorsa OpenAI di Azure. Durante o dopo il flusso di lavoro di accesso, selezionare la directory appropriata, la sottoscrizione di Azure e la risorsa OpenAI di Azure.

In Gestione selezionare Distribuzioni e Creare una distribuzione GPT-4 Turbo with Vision selezionando il nome del modello: "gpt-4" e la versione del modello "vision-preview". Per ulteriori informazioni sulla distribuzione del modello, vedere la guida alla distribuzione delle risorse.

Nella sezione Playground selezionare Chat.

Playground

Da questa pagina è possibile eseguire rapidamente l'iterazione e sperimentare le funzionalità del modello.

Per informazioni generali sulla configurazione dell'assistente, le sessioni di chat, le impostazioni e i pannelli, vedere la guida introduttiva alla chat.

Avviare una sessione di chat per analizzare immagini o video

In questa sessione di chat si indica all'assistente di comprendere le immagini immesse.

  1. Per iniziare, selezionare la distribuzione di GPT-4 Turbo con Visione nell'elenco a discesa.

  2. Nel riquadro Configurazione assistente specificare un messaggio di sistema per guidare l'assistente. Il messaggio di sistema predefinito è: "Si è un assistente di intelligenza artificiale che aiuta le persone a trovare informazioni". È possibile personalizzare il messaggio di sistema in base all'immagine o allo scenario che si sta caricando.

    Nota

    È consigliabile aggiornare il messaggio di sistema in modo che sia specifico per l'attività per evitare risposte inutili dal modello.

  3. Salvare le modifiche e, quando viene richiesto di confermare l'aggiornamento del messaggio di sistema, selezionare Continua.

  4. Nel riquadro Sessione chat immettere un prompt di testo come "Descrivere questa immagine" e caricare un'immagine con il pulsante allegato. È possibile usare una richiesta di testo diversa per il caso d'uso. Selezionare Invia.

  5. Osservare l'output fornito. Per altre informazioni, è consigliabile porre domande di completamento correlate all'analisi dell'immagine.

Screenshot del playground di chat di OpenAI Studio.

Pulire le risorse

Se si vuole pulire e rimuovere una risorsa OpenAI di Azure, è possibile eliminare la risorsa o il gruppo di risorse. L'eliminazione del gruppo di risorse comporta anche l'eliminazione di tutte le altre risorse associate.

Usare questo articolo per iniziare a usare le API REST OpenAI di Azure per distribuire e usare il modello GPT-4 Turbo con Visione.

Prerequisiti

  • Una sottoscrizione di Azure. Crearne una gratuitamente.
  • Accesso concesso ad Azure OpenAI nella sottoscrizione di Azure desiderata. Attualmente, l'accesso a questo servizio viene concesso solo dall'applicazione. È possibile richiedere l'accesso a OpenAI di Azure completando il modulo all'indirizzo https://aka.ms/oai/access. Apri un problema in questo repository per contattare Microsoft in caso di problemi.
  • Python 3.8 o versione successiva.
  • Le librerie Python seguenti: requests, json.
  • Una risorsa del servizio OpenAI di Azure con un modello GPT-4 Turbo con Visione distribuita. Per le aree disponibili, vedere disponibilità del modello GPT-4 e GPT-4 Turbo Preview. Per altre informazioni sulla creazione di risorse, vedere la guida alla distribuzione delle risorse.
  • Per il miglioramento della visione (facoltativo): una risorsa di Azure Visione artificiale nella stessa area della risorsa OpenAI di Azure, nel livello a pagamento (S1).

Nota

Attualmente non è supportato disattivare il filtro del contenuto per il modello GPT-4 Turbo con Visione.

Recuperare la chiave e l'endpoint

Per chiamare correttamente le API OpenAI di Azure, sono necessarie le informazioni seguenti sulla risorsa OpenAI di Azure:

Variabile Nome Valore
Endpoint api_base Il valore dell'endpoint si trova in Chiavi ed endpoint per la risorsa nel portale di Azure. In alternativa, è possibile trovare il valore in OpenAI Studio di Azure>Playground>Visualizzazione codice. Un endpoint di esempio è https://docs-test-001.openai.azure.com/.
Chiave api_key Il valore della chiave si trova anche in Chiavi ed Endpoint per la risorsa nel portale di Azure. Azure genera due chiavi per la risorsa. È possibile usare uno dei due valori.

Passare alla risorsa nel portale di Azure. Nel riquadro di spostamento selezionare Chiavi ed endpoint in Gestione risorse. Copiare il valore endpoint e un valore della chiave di accesso. È possibile usare il valore KEY 1 o KEY 2 . La presenza di due chiavi consente di ruotare e rigenerare in modo sicuro le chiavi senza causare un'interruzione del servizio.

Screenshot che mostra la pagina Chiavi ed endpoint per una risorsa OpenAI di Azure nel portale di Azure.

Creare una nuova applicazione Python

Creare un nuovo file Python denominato quickstart.py. Aprire il nuovo file nell'editor o nell'IDE preferito.

  1. Sostituire il contenuto di quickstart.py con il codice seguente.

    # Packages required:
    import requests 
    import json 
    
    api_base = '<your_azure_openai_endpoint>' 
    deployment_name = '<your_deployment_name>'
    API_KEY = '<your_azure_openai_key>'
    
    base_url = f"{api_base}openai/deployments/{deployment_name}" 
    headers = {   
        "Content-Type": "application/json",   
        "api-key": API_KEY 
    } 
    
    # Prepare endpoint, headers, and request body 
    endpoint = f"{base_url}/chat/completions?api-version=2023-12-01-preview" 
    data = { 
        "messages": [ 
            { "role": "system", "content": "You are a helpful assistant." }, 
            { "role": "user", "content": [  
                { 
                    "type": "text", 
                    "text": "Describe this picture:" 
                },
                { 
                    "type": "image_url",
                    "image_url": {
                        "url": "<image URL>"
                    }
                }
            ] } 
        ], 
        "max_tokens": 2000 
    }   
    
    # Make the API call   
    response = requests.post(endpoint, headers=headers, data=json.dumps(data))   
    
    print(f"Status Code: {response.status_code}")   
    print(response.text)
    
  2. Apportare le modifiche seguenti:

    1. Immettere l'URL e la chiave dell'endpoint nei campi appropriati.

    2. Immettere il nome della distribuzione di GPT-4 Turbo con Visione nel campo appropriato.

    3. Modificare il valore del "image" campo impostando l'URL dell'immagine.

      Suggerimento

      È anche possibile usare dati immagine codificati in base 64 anziché un URL. Per altre informazioni, vedere la guida pratica GPT-4 Turbo with Vision.For more information, see the GPT-4 Turbo with Vision how-to guide.

  3. Eseguire l'applicazione con il comando python:

    python quickstart.py
    

Pulire le risorse

Se si vuole pulire e rimuovere una risorsa OpenAI di Azure, è possibile eliminare la risorsa o il gruppo di risorse. L'eliminazione del gruppo di risorse comporta anche l'eliminazione di tutte le altre risorse associate.

Usare questo articolo per iniziare a usare Azure OpenAI Python SDK per distribuire e usare il modello GPT-4 Turbo con Visione.

Codice sorgente della libreria | Pacchetto (PyPi) |

Prerequisiti

  • Una sottoscrizione di Azure. Crearne una gratuitamente.
  • Accesso concesso ad Azure OpenAI nella sottoscrizione di Azure desiderata. Attualmente, l'accesso a questo servizio viene concesso solo dall'applicazione. È possibile richiedere l'accesso a OpenAI di Azure completando il modulo all'indirizzo https://aka.ms/oai/access. Apri un problema in questo repository per contattare Microsoft in caso di problemi.
  • Python 3.8 o versione successiva.
  • Le librerie Python seguenti: os
  • Una risorsa del servizio OpenAI di Azure con un modello GPT-4 Turbo con Visione distribuita. Per le aree disponibili, vedere disponibilità del modello GPT-4 e GPT-4 Turbo Preview. Per altre informazioni sulla creazione di risorse, vedere la guida alla distribuzione delle risorse.
  • Per il miglioramento della visione (facoltativo): una risorsa di Azure Visione artificiale nella stessa area della risorsa OpenAI di Azure, nel livello a pagamento (S1).

Impostazione

Installare la libreria client Python OpenAI con:

pip install openai

Nota

Questa libreria è gestita da OpenAI ed è attualmente in anteprima. Fare riferimento alla cronologia delle versioni o alla cronologia di commit di version.py per tenere traccia degli ultimi aggiornamenti apportati alla libreria.

Recuperare la chiave e l'endpoint

Per effettuare correttamente una chiamata ad Azure OpenAI, sono necessari un endpoint e una chiave.

Nome variabile Valore
ENDPOINT Questo valore è disponibile nella sezione Chiavi &ed endpoint durante l'esame della risorsa dalla portale di Azure. In alternativa, è possibile trovare il valore in OpenAI Studio di Azure>Playground>Visualizzazione codice. Un endpoint di esempio è https://docs-test-001.openai.azure.com/.
API-KEY Questo valore è disponibile nella sezione Chiavi ed endpoint durante l'esame della risorsa dalla portale di Azure. Puoi usare entrambi KEY1 o KEY2.

Passare alla risorsa nel portale di Azure. La sezione Chiavi ed endpoint è disponibile nella sezione Gestione risorse. Copiare l'endpoint e la chiave di accesso in base alle esigenze per l'autenticazione delle chiamate API. Puoi usare entrambi KEY1 o KEY2. Disporre sempre di due chiavi consente di ruotare e rigenerare in modo sicuro le chiavi senza causare un'interruzione del servizio.

Screenshot dell'interfaccia utente di panoramica per una risorsa OpenAI di Azure nella portale di Azure con la posizione dell'endpoint e delle chiavi di accesso in rosso.

Variabili di ambiente

Creare e assegnare variabili di ambiente persistenti per la chiave e l'endpoint.

setx AZURE_OPENAI_API_KEY "REPLACE_WITH_YOUR_KEY_VALUE_HERE" 
setx AZURE_OPENAI_ENDPOINT "REPLACE_WITH_YOUR_ENDPOINT_HERE" 

Creare una nuova applicazione Python

Creare un nuovo file Python denominato quickstart.py. Aprire il nuovo file nell'editor o nell'IDE preferito.

  1. Sostituire il contenuto di quickstart.py con il codice seguente.

    from openai import AzureOpenAI
    
    api_base = os.getenv("AZURE_OPENAI_ENDPOINT")
    api_key= os.getenv("AZURE_OPENAI_API_KEY")
    deployment_name = '<your_deployment_name>'
    api_version = '2023-12-01-preview' # this might change in the future
    
    client = AzureOpenAI(
        api_key=api_key,  
        api_version=api_version,
        base_url=f"{api_base}/openai/deployments/{deployment_name}"
    )
    
    response = client.chat.completions.create(
        model=deployment_name,
        messages=[
            { "role": "system", "content": "You are a helpful assistant." },
            { "role": "user", "content": [  
                { 
                    "type": "text", 
                    "text": "Describe this picture:" 
                },
                { 
                    "type": "image_url",
                    "image_url": {
                        "url": "<image URL>"
                    }
                }
            ] } 
        ],
        max_tokens=2000 
    )
    
    print(response)
    
  2. Apportare le modifiche seguenti:

    1. Immettere il nome della distribuzione GPT-4 Turbo con Visione nel campo appropriato.
    2. Modificare il valore del "url" campo impostando l'URL dell'immagine.

      Suggerimento

      È anche possibile usare dati immagine codificati in base 64 anziché un URL. Per altre informazioni, vedere la guida pratica GPT-4 Turbo with Vision.For more information, see the GPT-4 Turbo with Vision how-to guide.

  3. Eseguire l'applicazione con il comando python:

    python quickstart.py
    

Pulire le risorse

Se si vuole pulire e rimuovere una risorsa OpenAI di Azure, è possibile eliminare la risorsa o il gruppo di risorse. L'eliminazione del gruppo di risorse comporta anche l'eliminazione di tutte le altre risorse associate.

Passaggi successivi