Vision-kompatibilis csevegőmodellek használata

2025-07-02

A vision-kompatibilis csevegőmodellek az OpenAI által kifejlesztett nagyméretű multimodális modellek (LMM), amelyek képeket elemezhetnek, és szöveges válaszokat adhatnak a velük kapcsolatos kérdésekre. A természetes nyelvi feldolgozást és a vizuális megértést is magukban foglalják. A jelenlegi látásbarát modellek az o-sorozatú érvelési modellek, a GPT-4.1 sorozatú modellek, a GPT-4.5, a GPT-4o sorozat és a GPT-4 Turbo with Vision.

A látásra képes modellek általános kérdésekre is választ kaphatnak a feltöltött képeken található adatokról.

Jótanács

A látást támogató modellek használatához hívja meg az üzembe helyezett, támogatott modellen a Chat Completion API-t. Ha nem ismeri a Csevegés befejezése API-t, tekintse meg a Vision-kompatibilis csevegés útmutatóját.

A csevegés befejezésére vonatkozó API-k meghívása

Az alábbi parancs bemutatja a látásalapú csevegőmodellek kóddal való használatának legalapvetőbb módját. Ha ez az első alkalom, hogy programozott módon használja ezeket a modelleket, javasoljuk, hogy kezdje a Csevegés képekkel rövid útmutatót.

REST
Piton

Küldjön egy POST-kérést a https://{RESOURCE_NAME}.openai.azure.com/openai/deployments/{DEPLOYMENT_NAME}/chat/completions?api-version=2024-02-15-preview címre, ahol

RESOURCE_NAME az Azure OpenAI-erőforrás neve
DEPLOYMENT_NAME a modell üzembe helyezésének neve

Szükséges fejlécek:

Content-Type: application/json
api-key: {API_KEY}

Törzs: A következő egy mintakérés törzse. A formátum megegyezik a GPT-4 csevegővégzítési API-jának formátumával, azzal a különbségpel, hogy az üzenet tartalma lehet szövegeket és képeket tartalmazó tömb (egy kép érvényes HTTP- vagy HTTPS-URL-címe, vagy egy 64-es alapkódú kép).

Fontos

Ne felejtsen el beállítani egy "max_tokens" értéket, vagy a visszatérési kimenet ki lesz vágva.

Fontos

Képek feltöltése esetén a csevegési kérésenként legfeljebb 10 kép lehet.

{
    "messages": [ 
        {
            "role": "system", 
            "content": "You are a helpful assistant." 
        },
        {
            "role": "user", 
            "content": [
	            {
	                "type": "text",
	                "text": "Describe this picture:"
	            },
	            {
	                "type": "image_url",
	                "image_url": {
                        "url": "<image URL>"
                    }
                } 
           ] 
        }
    ],
    "max_tokens": 100, 
    "stream": false 
}

Határozza meg az Azure OpenAI-erőforrásvégpontot és -kulcsot.
Adja meg a modell üzembe helyezésének nevét.

Hozzon létre egy ügyfélobjektumot ezekkel az értékekkel.

api_base = '<your_azure_openai_endpoint>' # your endpoint should look like the following https://YOUR_RESOURCE_NAME.openai.azure.com/
api_key="<your_azure_openai_key>"
deployment_name = '<your_deployment_name>'
api_version = '2024-02-15-preview' # this might change in the future

client = AzureOpenAI(
    api_key=api_key,  
    api_version=api_version,
    base_url=f"{api_base}openai/deployments/{deployment_name}",
)

Ezután hívja meg az ügyfél létrehozó metódusát. Az alábbi kód egy mintakérés törzsét mutatja be. A formátum megegyezik a GPT-4 csevegővégzítési API-jának formátumával, azzal a különbségpel, hogy az üzenet tartalma lehet szövegeket és képeket tartalmazó tömb (egy kép érvényes HTTP- vagy HTTPS-URL-címe, vagy egy 64-es alapkódú kép).

Fontos

Ne felejtsen el beállítani egy "max_tokens" értéket, vagy a visszatérési kimenet ki lesz vágva.

response = client.chat.completions.create(
    model=deployment_name,
    messages=[
        { "role": "system", "content": "You are a helpful assistant." },
        { "role": "user", "content": [  
            { 
                "type": "text", 
                "text": "Describe this picture:" 
            },
            { 
                "type": "image_url",
                "image_url": {
                    "url": "<image URL>"
                }
            }
        ] } 
    ],
    max_tokens=2000 
)
print(response)

Jótanács

Helyi rendszerkép használata

Ha helyi rendszerképet szeretne használni, a következő Python-kóddal konvertálhatja base64-re, hogy át lehessen adni az API-nak. Alternatív fájlkonvertálási eszközök érhetők el online.

import base64
from mimetypes import guess_type

# Function to encode a local image into data URL 
def local_image_to_data_url(image_path):
    # Guess the MIME type of the image based on the file extension
    mime_type, _ = guess_type(image_path)
    if mime_type is None:
        mime_type = 'application/octet-stream'  # Default MIME type if none is found

    # Read and encode the image file
    with open(image_path, "rb") as image_file:
        base64_encoded_data = base64.b64encode(image_file.read()).decode('utf-8')

    # Construct the data URL
    return f"data:{mime_type};base64,{base64_encoded_data}"

# Example usage
image_path = '<path_to_image>'
data_url = local_image_to_data_url(image_path)
print("Data URL:", data_url)

Ha a base64-es rendszerkép adatai készen állnak, a következő módon továbbíthatja az API-nak a kérelem törzsében:

...
"type": "image_url",
"image_url": {
   "url": "data:image/jpeg;base64,<your_image_data>"
}
...

Részletes paraméterbeállítások

Opcionálisan megadhat egy "detail" paramétert a "image_url" mezőben. Válasszon egyet a három érték közül, low, high vagy auto, hogy beállítsa a modell képek értelmezésének és feldolgozásának módját.

auto beállítás: Az alapértelmezett beállítás. A modell a képbemenet méretétől függően dönt az alacsony vagy a magas érték között.
low beállítás: a modell nem aktiválja a "magas felbontású" módot, hanem egy alacsonyabb felbontású, 512x512-es verziót dolgoz fel, ami gyorsabb válaszokat és kevesebb tokenfelhasználást eredményez olyan helyzetekben, ahol a részletesség nem fontos.
high beállítás: a modell aktiválja a "magas res" módot. Itt a modell először az alacsony felbontású képet tekinti meg, majd részletes 512x512 szegmenst hoz létre a bemeneti képből. Minden szegmens a token költségkeret kétszeresét használja, lehetővé téve a kép részletesebb értelmezését.

Az értéket az alábbi példában látható formátummal állíthatja be:

{ 
    "type": "image_url",
    "image_url": {
        "url": "<image URL>",
        "detail": "high"
    }
}

A képparaméterek által a felhasznált tokenekre és a díjszabásra gyakorolt hatás részleteit lásd: Mi az Azure OpenAI? Képtokenek

Kimenet

Az API-válasznak az alábbihoz hasonlóan kell kinéznie.

{
    "id": "chatcmpl-8VAVx58veW9RCm5K1ttmxU6Cm4XDX",
    "object": "chat.completion",
    "created": 1702439277,
    "model": "gpt-4",
    "prompt_filter_results": [
        {
            "prompt_index": 0,
            "content_filter_results": {
                "hate": {
                    "filtered": false,
                    "severity": "safe"
                },
                "self_harm": {
                    "filtered": false,
                    "severity": "safe"
                },
                "sexual": {
                    "filtered": false,
                    "severity": "safe"
                },
                "violence": {
                    "filtered": false,
                    "severity": "safe"
                }
            }
        }
    ],
    "choices": [
        {
            "finish_reason":"stop",
            "index": 0,
            "message": {
                "role": "assistant",
                "content": "The picture shows an individual dressed in formal attire, which includes a black tuxedo with a black bow tie. There is an American flag on the left lapel of the individual's jacket. The background is predominantly blue with white text that reads \"THE KENNEDY PROFILE IN COURAGE AWARD\" and there are also visible elements of the flag of the United States placed behind the individual."
            },
            "content_filter_results": {
                "hate": {
                    "filtered": false,
                    "severity": "safe"
                },
                "self_harm": {
                    "filtered": false,
                    "severity": "safe"
                },
                "sexual": {
                    "filtered": false,
                    "severity": "safe"
                },
                "violence": {
                    "filtered": false,
                    "severity": "safe"
                }
            }
        }
    ],
    "usage": {
        "prompt_tokens": 1156,
        "completion_tokens": 80,
        "total_tokens": 1236
    }
}

Minden válasz tartalmaz egy "finish_reason" mezőt. A következő lehetséges értékekkel rendelkezik:

stop: Az API teljes modellkimenetet adott vissza.
length: Hiányos modellkimenet a max_tokens bemeneti paraméter vagy a modell token korlátja miatt.
content_filter: Tartalom kihagyva a tartalomszűrőink miatt.

Kimenet

A modelltől kapott csevegési válaszoknak mostantól továbbfejlesztett információkat kell tartalmazniuk a képről, például az objektumfeliratokat és a határolókereteket, valamint az OCR-eredményeket. Az API-válasznak az alábbihoz hasonlóan kell kinéznie.

{
    "id": "chatcmpl-8UyuhLfzwTj34zpevT3tWlVIgCpPg",
    "object": "chat.completion",
    "created": 1702394683,
    "model": "gpt-4",
    "choices":
    [
        {
            "finish_reason": {
                "type": "stop",
                "stop": "<|fim_suffix|>"
            },
            "index": 0,
            "message":
            {
                "role": "assistant",
                "content": "The image shows a close-up of an individual with dark hair and what appears to be a short haircut. The person has visible ears and a bit of their neckline. The background is a neutral light color, providing a contrast to the dark hair."
            }
        }
    ],
    "usage":
    {
        "prompt_tokens": 816,
        "completion_tokens": 49,
        "total_tokens": 865
    }
}

Minden válasz tartalmaz egy "finish_reason" mezőt. A következő lehetséges értékekkel rendelkezik:

stop: Az API teljes modellkimenetet adott vissza.
length: Hiányos modellkimenet a max_tokens bemeneti paraméter vagy a modell token korlátja miatt.
content_filter: Tartalom kihagyva a tartalomszűrőink miatt.

GPT-4 Turbo modell frissítése

A GPT-4 Turbo legújabb GA kiadása a következő:

gpt-4 Verzió:turbo-2024-04-09

Ez a következő előzetes modellek lecserélése:

gpt-4 Verzió:1106-Preview
gpt-4 Verzió:0125-Preview
gpt-4 Verzió:vision-preview

Az OpenAI és az Azure OpenAI GPT-4 Turbo GA modellek közötti különbségek

Az OpenAI legújabb 0409 turbómodell verziója támogatja a JSON módot és a függvényeket, amelyek minden következtetési kérést meghívnak.
Az Azure OpenAI legújabb turbo-2024-04-09 verziója jelenleg nem támogatja a JSON mód és a függvényhívás használatát, amikor következtetési kérelmeket készít képi (vision) bemenettel. A szövegalapú kérések (olyanok, amelyek nélkülözik a image_url-t és a beágyazott képeket) támogatják a JSON-módot és a függvényhívást.

Különbségek a gpt-4 vision-preview-tól

Az Azure AI-specifikus Vision fejlesztések integrációja a Vision-nel rendelkező GPT-4 Turbo-val nem támogatott ennél a verziónál gpt-4:turbo-2024-04-09. Ez magában foglalja az optikai karakterfelismerést (OCR), az objektumok földelését, a videoüzeneteket és az adatok képekkel való jobb kezelését.

Fontos

A Vision fejlesztések előzetes funkciói, beleértve az optikai karakterfelismerést (OCR), a tárgy horgonyzást és a videó utasításokat, ki lesznek vonva, és már nem lesznek elérhetők, ha a gpt-4 verzió vision-preview frissítve lesz turbo-2024-04-09 változatra. Ha jelenleg ezen előzetes verziójú funkciók bármelyikére támaszkodik, ez az automatikus modellfrissítés kompatibilitástörő változás lesz.

GPT-4 Turbo szolgáltatott és felügyelt rendelkezésre állás

gpt-4 Verzió:turbo-2024-04-09 standard és speciális telepítésekhez is elérhető. A modell kiépített verziója jelenleg nem támogatja a kép-/látásbeli következtetési kérelmeket. A modell kiépített üzembe helyezései csak szöveges bemeneteket fogadnak el. A standard modelltelepítések szöveges és képi/látási következtetési kéréseket is elfogadnak.

A GPT-4 Turbo üzembe helyezése a Vision GA-val

A GA-modell üzembe helyezéséhez az Azure AI Foundry portálon válassza ki GPT-4 , majd válassza ki a turbo-2024-04-09 verziót a legördülő menüből. A modell alapértelmezett kvótája megegyezik a gpt-4-turbo-2024-04-09 GPT-4-Turbo jelenlegi kvótával. Tekintse meg a regionális kvótakorlátokat.

Megosztás a következőn keresztül:

Vision-kompatibilis csevegőmodellek használata

A csevegés befejezésére vonatkozó API-k meghívása

Helyi rendszerkép használata

Részletes paraméterbeállítások

Kimenet

Kimenet

GPT-4 Turbo modell frissítése

Az OpenAI és az Azure OpenAI GPT-4 Turbo GA modellek közötti különbségek

Különbségek a gpt-4 vision-preview-tól

GPT-4 Turbo szolgáltatott és felügyelt rendelkezésre állás

A GPT-4 Turbo üzembe helyezése a Vision GA-val

Kapcsolódó tartalom

Visszajelzés

További források