Megjegyzés
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhat bejelentkezni vagy módosítani a címtárat.
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhatja módosítani a címtárat.
A vision-kompatibilis csevegőmodellek az OpenAI által kifejlesztett nagyméretű multimodális modellek (LMM), amelyek képeket elemezhetnek, és szöveges válaszokat adhatnak a velük kapcsolatos kérdésekre. A természetes nyelvi feldolgozást és a vizuális megértést is magukban foglalják. A jelenlegi látásbarát modellek az o-sorozatú érvelési modellek, a GPT-4.1 sorozatú modellek, a GPT-4.5, a GPT-4o sorozat és a GPT-4 Turbo with Vision.
A látásra képes modellek általános kérdésekre is választ kaphatnak a feltöltött képeken található adatokról.
Jótanács
A látást támogató modellek használatához hívja meg az üzembe helyezett, támogatott modellen a Chat Completion API-t. Ha nem ismeri a Csevegés befejezése API-t, tekintse meg a Vision-kompatibilis csevegés útmutatóját.
A csevegés befejezésére vonatkozó API-k meghívása
Az alábbi parancs bemutatja a látásalapú csevegőmodellek kóddal való használatának legalapvetőbb módját. Ha ez az első alkalom, hogy programozott módon használja ezeket a modelleket, javasoljuk, hogy kezdje a Csevegés képekkel rövid útmutatót.
Küldjön egy POST-kérést a https://{RESOURCE_NAME}.openai.azure.com/openai/deployments/{DEPLOYMENT_NAME}/chat/completions?api-version=2024-02-15-preview
címre, ahol
- RESOURCE_NAME az Azure OpenAI-erőforrás neve
- DEPLOYMENT_NAME a modell üzembe helyezésének neve
Szükséges fejlécek:
-
Content-Type
: application/json -
api-key
: {API_KEY}
Törzs: A következő egy mintakérés törzse. A formátum megegyezik a GPT-4 csevegővégzítési API-jának formátumával, azzal a különbségpel, hogy az üzenet tartalma lehet szövegeket és képeket tartalmazó tömb (egy kép érvényes HTTP- vagy HTTPS-URL-címe, vagy egy 64-es alapkódú kép).
Fontos
Ne felejtsen el beállítani egy "max_tokens"
értéket, vagy a visszatérési kimenet ki lesz vágva.
Fontos
Képek feltöltése esetén a csevegési kérésenként legfeljebb 10 kép lehet.
{
"messages": [
{
"role": "system",
"content": "You are a helpful assistant."
},
{
"role": "user",
"content": [
{
"type": "text",
"text": "Describe this picture:"
},
{
"type": "image_url",
"image_url": {
"url": "<image URL>"
}
}
]
}
],
"max_tokens": 100,
"stream": false
}
Jótanács
Helyi rendszerkép használata
Ha helyi rendszerképet szeretne használni, a következő Python-kóddal konvertálhatja base64-re, hogy át lehessen adni az API-nak. Alternatív fájlkonvertálási eszközök érhetők el online.
import base64
from mimetypes import guess_type
# Function to encode a local image into data URL
def local_image_to_data_url(image_path):
# Guess the MIME type of the image based on the file extension
mime_type, _ = guess_type(image_path)
if mime_type is None:
mime_type = 'application/octet-stream' # Default MIME type if none is found
# Read and encode the image file
with open(image_path, "rb") as image_file:
base64_encoded_data = base64.b64encode(image_file.read()).decode('utf-8')
# Construct the data URL
return f"data:{mime_type};base64,{base64_encoded_data}"
# Example usage
image_path = '<path_to_image>'
data_url = local_image_to_data_url(image_path)
print("Data URL:", data_url)
Ha a base64-es rendszerkép adatai készen állnak, a következő módon továbbíthatja az API-nak a kérelem törzsében:
...
"type": "image_url",
"image_url": {
"url": "data:image/jpeg;base64,<your_image_data>"
}
...
Részletes paraméterbeállítások
Opcionálisan megadhat egy "detail"
paramétert a "image_url"
mezőben. Válasszon egyet a három érték közül, low
, high
vagy auto
, hogy beállítsa a modell képek értelmezésének és feldolgozásának módját.
-
auto
beállítás: Az alapértelmezett beállítás. A modell a képbemenet méretétől függően dönt az alacsony vagy a magas érték között. -
low
beállítás: a modell nem aktiválja a "magas felbontású" módot, hanem egy alacsonyabb felbontású, 512x512-es verziót dolgoz fel, ami gyorsabb válaszokat és kevesebb tokenfelhasználást eredményez olyan helyzetekben, ahol a részletesség nem fontos. -
high
beállítás: a modell aktiválja a "magas res" módot. Itt a modell először az alacsony felbontású képet tekinti meg, majd részletes 512x512 szegmenst hoz létre a bemeneti képből. Minden szegmens a token költségkeret kétszeresét használja, lehetővé téve a kép részletesebb értelmezését.
Az értéket az alábbi példában látható formátummal állíthatja be:
{
"type": "image_url",
"image_url": {
"url": "<image URL>",
"detail": "high"
}
}
A képparaméterek által a felhasznált tokenekre és a díjszabásra gyakorolt hatás részleteit lásd: Mi az Azure OpenAI? Képtokenek
Kimenet
Az API-válasznak az alábbihoz hasonlóan kell kinéznie.
{
"id": "chatcmpl-8VAVx58veW9RCm5K1ttmxU6Cm4XDX",
"object": "chat.completion",
"created": 1702439277,
"model": "gpt-4",
"prompt_filter_results": [
{
"prompt_index": 0,
"content_filter_results": {
"hate": {
"filtered": false,
"severity": "safe"
},
"self_harm": {
"filtered": false,
"severity": "safe"
},
"sexual": {
"filtered": false,
"severity": "safe"
},
"violence": {
"filtered": false,
"severity": "safe"
}
}
}
],
"choices": [
{
"finish_reason":"stop",
"index": 0,
"message": {
"role": "assistant",
"content": "The picture shows an individual dressed in formal attire, which includes a black tuxedo with a black bow tie. There is an American flag on the left lapel of the individual's jacket. The background is predominantly blue with white text that reads \"THE KENNEDY PROFILE IN COURAGE AWARD\" and there are also visible elements of the flag of the United States placed behind the individual."
},
"content_filter_results": {
"hate": {
"filtered": false,
"severity": "safe"
},
"self_harm": {
"filtered": false,
"severity": "safe"
},
"sexual": {
"filtered": false,
"severity": "safe"
},
"violence": {
"filtered": false,
"severity": "safe"
}
}
}
],
"usage": {
"prompt_tokens": 1156,
"completion_tokens": 80,
"total_tokens": 1236
}
}
Minden válasz tartalmaz egy "finish_reason"
mezőt. A következő lehetséges értékekkel rendelkezik:
-
stop
: Az API teljes modellkimenetet adott vissza. -
length
: Hiányos modellkimenet amax_tokens
bemeneti paraméter vagy a modell token korlátja miatt. -
content_filter
: Tartalom kihagyva a tartalomszűrőink miatt.
Kimenet
A modelltől kapott csevegési válaszoknak mostantól továbbfejlesztett információkat kell tartalmazniuk a képről, például az objektumfeliratokat és a határolókereteket, valamint az OCR-eredményeket. Az API-válasznak az alábbihoz hasonlóan kell kinéznie.
{
"id": "chatcmpl-8UyuhLfzwTj34zpevT3tWlVIgCpPg",
"object": "chat.completion",
"created": 1702394683,
"model": "gpt-4",
"choices":
[
{
"finish_reason": {
"type": "stop",
"stop": "<|fim_suffix|>"
},
"index": 0,
"message":
{
"role": "assistant",
"content": "The image shows a close-up of an individual with dark hair and what appears to be a short haircut. The person has visible ears and a bit of their neckline. The background is a neutral light color, providing a contrast to the dark hair."
}
}
],
"usage":
{
"prompt_tokens": 816,
"completion_tokens": 49,
"total_tokens": 865
}
}
Minden válasz tartalmaz egy "finish_reason"
mezőt. A következő lehetséges értékekkel rendelkezik:
-
stop
: Az API teljes modellkimenetet adott vissza. -
length
: Hiányos modellkimenet amax_tokens
bemeneti paraméter vagy a modell token korlátja miatt. -
content_filter
: Tartalom kihagyva a tartalomszűrőink miatt.
GPT-4 Turbo modell frissítése
A GPT-4 Turbo legújabb GA kiadása a következő:
-
gpt-4
Verzió:turbo-2024-04-09
Ez a következő előzetes modellek lecserélése:
-
gpt-4
Verzió:1106-Preview
-
gpt-4
Verzió:0125-Preview
-
gpt-4
Verzió:vision-preview
Az OpenAI és az Azure OpenAI GPT-4 Turbo GA modellek közötti különbségek
- Az OpenAI legújabb
0409
turbómodell verziója támogatja a JSON módot és a függvényeket, amelyek minden következtetési kérést meghívnak. - Az Azure OpenAI legújabb
turbo-2024-04-09
verziója jelenleg nem támogatja a JSON mód és a függvényhívás használatát, amikor következtetési kérelmeket készít képi (vision) bemenettel. A szövegalapú kérések (olyanok, amelyek nélkülözik aimage_url
-t és a beágyazott képeket) támogatják a JSON-módot és a függvényhívást.
Különbségek a gpt-4 vision-preview-tól
- Az Azure AI-specifikus Vision fejlesztések integrációja a Vision-nel rendelkező GPT-4 Turbo-val nem támogatott ennél a verziónál
gpt-4
:turbo-2024-04-09
. Ez magában foglalja az optikai karakterfelismerést (OCR), az objektumok földelését, a videoüzeneteket és az adatok képekkel való jobb kezelését.
Fontos
A Vision fejlesztések előzetes funkciói, beleértve az optikai karakterfelismerést (OCR), a tárgy horgonyzást és a videó utasításokat, ki lesznek vonva, és már nem lesznek elérhetők, ha a gpt-4
verzió vision-preview
frissítve lesz turbo-2024-04-09
változatra. Ha jelenleg ezen előzetes verziójú funkciók bármelyikére támaszkodik, ez az automatikus modellfrissítés kompatibilitástörő változás lesz.
GPT-4 Turbo szolgáltatott és felügyelt rendelkezésre állás
-
gpt-4
Verzió:turbo-2024-04-09
standard és speciális telepítésekhez is elérhető. A modell kiépített verziója jelenleg nem támogatja a kép-/látásbeli következtetési kérelmeket. A modell kiépített üzembe helyezései csak szöveges bemeneteket fogadnak el. A standard modelltelepítések szöveges és képi/látási következtetési kéréseket is elfogadnak.
A GPT-4 Turbo üzembe helyezése a Vision GA-val
A GA-modell üzembe helyezéséhez az Azure AI Foundry portálon válassza ki GPT-4
, majd válassza ki a turbo-2024-04-09
verziót a legördülő menüből. A modell alapértelmezett kvótája megegyezik a gpt-4-turbo-2024-04-09
GPT-4-Turbo jelenlegi kvótával. Tekintse meg a regionális kvótakorlátokat.