Share via


A GPT-4 Turbo és a Vision használata

A GPT-4 Turbo with Vision egy nagy multimodális modell (LMM), amelyet az OpenAI fejlesztett ki, amely képes képek elemzésére és szöveges válaszokat adni a velük kapcsolatos kérdésekre. A természetes nyelvi feldolgozást és a vizuális megértést egyaránt magában foglalja.

A GPT-4 Turbo with Vision modell általános kérdésekre ad választ, hogy mi található a képeken. Akkor is megjelenítheti a videót, ha Vision-fejlesztést használ.

Tipp.

A GPT-4 Turbo és a Vision használatához meghívja a Chat Completion API-t egy GPT-4 Turbo és Vision modellen, amelyet üzembe helyezett. Ha nem ismeri a Csevegés befejezése API-t, tekintse meg a GPT-4 Turbo &GPT-4 útmutatóját.

GPT-4 Turbo modell frissítése

A GPT-4 Turbo legújabb GA kiadása a következő:

  • gpt-4Verzió:turbo-2024-04-09

Ez a következő előzetes modellek lecserélése:

  • gpt-4Verzió:1106-Preview
  • gpt-4Verzió:0125-Preview
  • gpt-4Verzió:vision-preview

Az OpenAI és az Azure OpenAI GPT-4 Turbo GA modellek közötti különbségek

  • Az OpenAI legújabb 0409 turbómodell verziója támogatja a JSON módot és a függvényeket, amelyek minden következtetési kérést meghívnak.
  • Az Azure OpenAI legújabb turbo-2024-04-09 verziója jelenleg nem támogatja a JSON mód és a függvényhívás használatát, amikor következtetési kérelmeket készít képi (vision) bemenettel. A szövegalapú bemeneti kérések (képek nélküli image_url és beágyazott kérések) támogatják a JSON-módot és a függvényhívást.

Különbségek a gpt-4 vision-preview-tól

  • Az Azure AI-specifikus Vision-fejlesztések a GPT-4 Turbo és a Vision integrációját nem támogatják a gpt-4Verzió:turbo-2024-04-09. Ez magában foglalja az optikai karakterfelismerést (OCR), az objektumok földelését, a videoüzeneteket és az adatok képekkel való jobb kezelését.

GPT-4 Turbo kiosztott felügyelt rendelkezésre állás

  • gpt-4Verzió:turbo-2024-04-09 standard és kiépített üzemelő példányokhoz is elérhető. A modell kiépített verziója jelenleg nem támogatja a kép-/látásbeli következtetési kérelmeket. A modell kiépített üzembe helyezései csak szöveges bemeneteket fogadnak el. A standard modelltelepítések szöveges és képi/látási következtetési kéréseket is elfogadnak.

Régiónkénti elérhetőség

A modell regionális elérhetőségével kapcsolatos információkért tekintse meg a standard és a kiépített üzemelő példányok modellmátrixát.

A GPT-4 Turbo üzembe helyezése a Vision GA-val

Ha a GA-modellt a Studio felhasználói felületén szeretné üzembe helyezni, válassza ki GPT-4 , majd válassza ki a turbo-2024-04-09 verziót a legördülő menüből. A modell alapértelmezett kvótája megegyezik a gpt-4-turbo-2024-04-09 GPT-4-Turbo jelenlegi kvótával. Tekintse meg a regionális kvótakorlátokat.

A csevegés befejezésére vonatkozó API-k meghívása

Az alábbi parancs a GPT-4 Turbo és a Vision modell kóddal való használatának legalapvetőbb módját mutatja be. Ha ez az első alkalom, hogy programozott módon használja ezeket a modelleket, javasoljuk, hogy kezdje a GPT-4 Turbo és a Vision rövid útmutatójával.

POST-kérés küldése oda, https://{RESOURCE_NAME}.openai.azure.com/openai/deployments/{DEPLOYMENT_NAME}/chat/completions?api-version=2023-12-01-preview ahol

  • RESOURCE_NAME az Azure OpenAI-erőforrás neve
  • DEPLOYMENT_NAME a GPT-4 Turbo és a Vision-modell üzembe helyezése

Szükséges fejlécek:

  • Content-Type: application/json
  • api-key: {API_KEY}

Törzs: A következő egy mintakérés törzse. A formátum megegyezik a GPT-4 csevegővégzítési API-jának formátumával, azzal a különbségpel, hogy az üzenet tartalma lehet szövegeket és képeket tartalmazó tömb (egy kép érvényes HTTP- vagy HTTPS-URL-címe, vagy egy 64-es alapkódú kép).

Fontos

Ne felejtsen el beállítani egy "max_tokens" értéket, vagy a visszatérési kimenet ki lesz vágva.

{
    "messages": [ 
        {
            "role": "system", 
            "content": "You are a helpful assistant." 
        },
        {
            "role": "user", 
            "content": [
	            {
	                "type": "text",
	                "text": "Describe this picture:"
	            },
	            {
	                "type": "image_url",
	                "image_url": {
                        "url": "<image URL>"
                    }
                } 
           ] 
        }
    ],
    "max_tokens": 100, 
    "stream": false 
} 

Tipp.

Helyi rendszerkép használata

Ha helyi rendszerképet szeretne használni, a következő Python-kóddal konvertálhatja base64-re, hogy át lehessen adni az API-nak. Alternatív fájlkonvertálási eszközök érhetők el online.

import base64
from mimetypes import guess_type

# Function to encode a local image into data URL 
def local_image_to_data_url(image_path):
    # Guess the MIME type of the image based on the file extension
    mime_type, _ = guess_type(image_path)
    if mime_type is None:
        mime_type = 'application/octet-stream'  # Default MIME type if none is found

    # Read and encode the image file
    with open(image_path, "rb") as image_file:
        base64_encoded_data = base64.b64encode(image_file.read()).decode('utf-8')

    # Construct the data URL
    return f"data:{mime_type};base64,{base64_encoded_data}"

# Example usage
image_path = '<path_to_image>'
data_url = local_image_to_data_url(image_path)
print("Data URL:", data_url)

Ha a base64-es rendszerkép adatai készen állnak, a következő módon továbbíthatja az API-nak a kérelem törzsében:

...
"type": "image_url",
"image_url": {
   "url": "data:image/jpeg;base64,<your_image_data>"
}
...

Hozam

Az API-válasznak az alábbihoz hasonlóan kell kinéznie.

{
    "id": "chatcmpl-8VAVx58veW9RCm5K1ttmxU6Cm4XDX",
    "object": "chat.completion",
    "created": 1702439277,
    "model": "gpt-4",
    "prompt_filter_results": [
        {
            "prompt_index": 0,
            "content_filter_results": {
                "hate": {
                    "filtered": false,
                    "severity": "safe"
                },
                "self_harm": {
                    "filtered": false,
                    "severity": "safe"
                },
                "sexual": {
                    "filtered": false,
                    "severity": "safe"
                },
                "violence": {
                    "filtered": false,
                    "severity": "safe"
                }
            }
        }
    ],
    "choices": [
        {
            "finish_reason":"stop",
            "index": 0,
            "message": {
                "role": "assistant",
                "content": "The picture shows an individual dressed in formal attire, which includes a black tuxedo with a black bow tie. There is an American flag on the left lapel of the individual's jacket. The background is predominantly blue with white text that reads \"THE KENNEDY PROFILE IN COURAGE AWARD\" and there are also visible elements of the flag of the United States placed behind the individual."
            },
            "content_filter_results": {
                "hate": {
                    "filtered": false,
                    "severity": "safe"
                },
                "self_harm": {
                    "filtered": false,
                    "severity": "safe"
                },
                "sexual": {
                    "filtered": false,
                    "severity": "safe"
                },
                "violence": {
                    "filtered": false,
                    "severity": "safe"
                }
            }
        }
    ],
    "usage": {
        "prompt_tokens": 1156,
        "completion_tokens": 80,
        "total_tokens": 1236
    }
}

Minden válasz tartalmaz egy "finish_details" mezőt. A következő lehetséges értékekkel rendelkezik:

  • stop: Az API teljes modellkimenetet adott vissza.
  • length: Hiányos modellkimenet a bemeneti paraméter vagy a max_tokens modell jogkivonatkorlátja miatt.
  • content_filter: A tartalomszűrők jelölője miatt kihagyott tartalmat.

Részletes paraméterbeállítások a képfeldolgozásban: Alacsony, Magas, Automatikus

A modell részletparamétere három lehetőséget kínál: lowhighautoa rendszerképek értelmezésének és folyamatának módosítására. Az alapértelmezett beállítás az automatikus, ahol a modell a képbemenet méretétől függően alacsony vagy magas között dönt.

  • low beállítás: a modell nem aktiválja a "magas res" módot, hanem egy alacsonyabb felbontású, 512x512-es verziót dolgoz fel, ami gyorsabb válaszokat és kevesebb jogkivonat-használatot eredményez olyan helyzetekben, ahol a részletesség nem fontos.
  • high beállítás: a modell aktiválja a "magas res" módot. Itt a modell először az alacsony felbontású képet tekinti meg, majd részletes 512x512 szegmenst hoz létre a bemeneti képből. Minden szegmens a jogkivonat költségvetésének kétszeresét használja, lehetővé téve a kép részletesebb értelmezését.""

A képparaméterek a használt jogkivonatokra és a díjszabásra gyakorolt hatásáról a – Mi az OpenAI? Image Tokens with GPT-4 Turbo with Vision

Vision-fejlesztés használata képekkel

A GPT-4 Turbo with Vision kizárólagos hozzáférést biztosít az Azure AI Services személyre szabott fejlesztéseihez. Az Azure AI Vision-lel kombinálva javítja a csevegési élményt azáltal, hogy részletesebb információkat nyújt a csevegési modellnek a képen látható szövegről és az objektumok helyéről.

Az optikai karakterfelismerés (OCR) integrálása lehetővé teszi a modell számára, hogy jobb minőségű válaszokat állítsunk elő a sűrű szöveghez, az átalakított képekhez és a számmal terhelt pénzügyi dokumentumokhoz. Emellett a nyelvek szélesebb körét is lefedi.

Az objektum-földelés integrációja új réteget hoz az adatelemzéshez és a felhasználói interakcióhoz, mivel a funkció vizuálisan megkülönbözteti és kiemeli az általa feldolgozott képek fontos elemeit.

Fontos

Ha egy Azure OpenAI-erőforrással szeretné használni a Vision-fejlesztést, meg kell adnia egy Computer Vision-erőforrást. A fizetős (S1) szinten kell lennie, és ugyanabban az Azure-régióban, mint a GPT-4 Turbo with Vision erőforrás. Ha Azure AI Services-erőforrást használ, nincs szükség további Computer Vision-erőforrásra.

Figyelemfelhívás

A GPT-4 Turbo és a Vision Azure AI-fejlesztései a fő funkcióktól elkülönítve lesznek számlázva. A GPT-4 Turbo és a Vision egyes Azure AI-fejlesztései külön díjakkal bírnak. További részletekért tekintse meg a speciális díjszabási információkat.

POST-kérés küldése oda, https://{RESOURCE_NAME}.openai.azure.com/openai/deployments/{DEPLOYMENT_NAME}/extensions/chat/completions?api-version=2023-12-01-preview ahol

  • RESOURCE_NAME az Azure OpenAI-erőforrás neve
  • DEPLOYMENT_NAME a GPT-4 Turbo és a Vision-modell üzembe helyezése

Szükséges fejlécek:

  • Content-Type: application/json
  • api-key: {API_KEY}

Törzs:

A formátum hasonló a GPT-4-hez készült csevegés-befejezési API formátumához, de az üzenet tartalma lehet sztringeket és képeket tartalmazó tömb (egy kép érvényes HTTP- vagy HTTPS-URL-címe, vagy egy 64-es alapkódú kép).

Az objektumokat és dataSources az enhancements objektumokat is tartalmaznia kell. enhancements a csevegésben kért speciális Vision-fejlesztési funkciókat jelöli. Rendelkezik egy és ocr egy grounding tulajdonságával, amely mindkettő logikai enabled tulajdonságú. Ezekkel kérheti le az OCR szolgáltatást és/vagy az objektumészlelési/földelési szolgáltatást. dataSources a Vision fejlesztéséhez szükséges Computer Vision-erőforrásadatokat jelöli. Van egy type tulajdonsága, amelynek meg kell lennie"AzureComputerVision", és egy tulajdonság.parameters Állítsa be a endpointkey Computer Vision-erőforrás végponti URL-címét és hozzáférési kulcsát.

Fontos

Ne felejtsen el beállítani egy "max_tokens" értéket, vagy a visszatérési kimenet ki lesz vágva.

{
    "enhancements": {
            "ocr": {
              "enabled": true
            },
            "grounding": {
              "enabled": true
            }
    },
    "dataSources": [
    {
        "type": "AzureComputerVision",
        "parameters": {
            "endpoint": "<your_computer_vision_endpoint>",
            "key": "<your_computer_vision_key>"
        }
    }],
    "messages": [
        {
            "role": "system",
            "content": "You are a helpful assistant."
        },
        {
            "role": "user",
            "content": [
	            {
	                "type": "text",
	                "text": "Describe this picture:"
	            },
	            {
	                "type": "image_url",
	                "image_url": {
                        "url":"<image URL>" 
                    }
                }
           ] 
        }
    ],
    "max_tokens": 100, 
    "stream": false 
} 

Hozam

A modelltől kapott csevegési válaszoknak mostantól továbbfejlesztett információkat kell tartalmazniuk a képről, például az objektumfeliratokat és a határolókereteket, valamint az OCR-eredményeket. Az API-válasznak az alábbihoz hasonlóan kell kinéznie.

{
    "id": "chatcmpl-8UyuhLfzwTj34zpevT3tWlVIgCpPg",
    "object": "chat.completion",
    "created": 1702394683,
    "model": "gpt-4",
    "choices":
    [
        {
            "finish_details": {
                "type": "stop",
                "stop": "<|fim_suffix|>"
            },
            "index": 0,
            "message":
            {
                "role": "assistant",
                "content": "The image shows a close-up of an individual with dark hair and what appears to be a short haircut. The person has visible ears and a bit of their neckline. The background is a neutral light color, providing a contrast to the dark hair."
            },
            "enhancements":
            {
                "grounding":
                {
                    "lines":
                    [
                        {
                            "text": "The image shows a close-up of an individual with dark hair and what appears to be a short haircut. The person has visible ears and a bit of their neckline. The background is a neutral light color, providing a contrast to the dark hair.",
                            "spans":
                            [
                                {
                                    "text": "the person",
                                    "length": 10,
                                    "offset": 99,
                                    "polygon": [{"x":0.11950000375509262,"y":0.4124999940395355},{"x":0.8034999370574951,"y":0.4124999940395355},{"x":0.8034999370574951,"y":0.6434999704360962},{"x":0.11950000375509262,"y":0.6434999704360962}]
                                }
                            ]
                        }
                    ],
                    "status": "Success"
                }
            }
        }
    ],
    "usage":
    {
        "prompt_tokens": 816,
        "completion_tokens": 49,
        "total_tokens": 865
    }
}

Minden válasz tartalmaz egy "finish_details" mezőt. A következő lehetséges értékekkel rendelkezik:

  • stop: Az API teljes modellkimenetet adott vissza.
  • length: Hiányos modellkimenet a bemeneti paraméter vagy a max_tokens modell jogkivonatkorlátja miatt.
  • content_filter: A tartalomszűrők jelölője miatt kihagyott tartalmat.

A Vision fejlesztése videóval

A GPT-4 Turbo with Vision kizárólagos hozzáférést biztosít az Azure AI Services személyre szabott fejlesztéseihez. A videoüzenetek integrációja az Azure AI Vision videólekérésével mintát vesz egy videó kereteiből, és létrehozza a beszéd átiratát a videóban. Lehetővé teszi az AI-modell számára, hogy összefoglalókat és válaszokat adjon a videótartalmakról.

Az alábbi lépéseket követve beállíthat egy videólekérdezési rendszert, és integrálhatja azt az AI-csevegési modellel.

Fontos

Ha egy Azure OpenAI-erőforrással szeretné használni a Vision-fejlesztést, meg kell adnia egy Computer Vision-erőforrást. A fizetős (S1) szinten kell lennie, és ugyanabban az Azure-régióban, mint a GPT-4 Turbo with Vision erőforrás. Ha Azure AI Services-erőforrást használ, nincs szükség további Computer Vision-erőforrásra.

Figyelemfelhívás

A GPT-4 Turbo és a Vision Azure AI-fejlesztései a fő funkcióktól elkülönítve lesznek számlázva. A GPT-4 Turbo és a Vision egyes Azure AI-fejlesztései külön díjakkal bírnak. További részletekért tekintse meg a speciális díjszabási információkat.

Tipp.

Ha szeretné, az alábbi lépéseket egy Jupyter-jegyzetfüzet használatával hajthatja végre: A videocsevegés befejezi a jegyzetfüzetet.

Videók feltöltése az Azure Blob Storage-ba

A videókat fel kell töltenie egy Azure Blob Storage-tárolóba. Hozzon létre egy új tárfiókot, ha még nem rendelkezik ilyen fiókkal .

A videók feltöltése után lekérheti az SAS-URL-címeiket, amelyekkel később elérheti őket.

Megfelelő olvasási hozzáférés biztosítása

A hitelesítési módszertől függően előfordulhat, hogy további lépéseket kell tennie az Azure Blob Storage-tárolóhoz való hozzáférés biztosításához. Ha Azure OpenAI-erőforrás helyett Azure AI Services-erőforrást használ, a felügyelt identitásokkal olvasási hozzáférést kell biztosítania az Azure Blob Storage-hoz:

A rendszer által hozzárendelt identitások engedélyezése az Azure AI Services-erőforráson az alábbi lépések végrehajtásával:

  1. Az Azure Portal AI Services-erőforrásában válassza az Erőforrás-kezelés>Identitás lehetőséget, és állítsa be állásba az állapotot.
  2. Tárblobadatok olvasási hozzáférésének hozzárendelése az AI-szolgáltatások erőforrásához: Az Identitás lapon válassza ki az Azure-szerepkör-hozzárendeléseket, majd adja hozzá a szerepkör-hozzárendelést a következő beállításokkal:
    • hatókör: storage
    • előfizetés: {az előfizetés}
    • Erőforrás: {válassza ki az Azure Blob Storage-erőforrást}
    • Szerepkör: Storage Blob-adatolvasó
  3. Mentse el a beállításokat.

Videólekérési index létrehozása

  1. Szerezze be az Azure AI Vision-erőforrást ugyanabban a régióban, mint a használt Azure OpenAI-erőforrás.

  2. Hozzon létre egy indexet a videofájlok és metaadataik tárolásához és rendszerezéséhez. Az alábbi példaparancs bemutatja, hogyan hozhat létre indexet my-video-index az Index létrehozása API használatával. Mentse az index nevét egy ideiglenes helyre; a későbbi lépésekben szüksége lesz rá.

    Tipp.

    A videóindexek létrehozásával kapcsolatos részletesebb utasításokért lásd: Videólekérés vektorizálással.

    curl.exe -v -X PUT "https://<YOUR_ENDPOINT_URL>/computervision/retrieval/indexes/my-video-index?api-version=2023-05-01-preview" -H "Ocp-Apim-Subscription-Key: <YOUR_SUBSCRIPTION_KEY>" -H "Content-Type: application/json" --data-ascii "
    {
      'metadataSchema': {
        'fields': [
          {
            'name': 'cameraId',
            'searchable': false,
            'filterable': true,
            'type': 'string'
          },
          {
            'name': 'timestamp',
            'searchable': false,
            'filterable': true,
            'type': 'datetime'
          }
        ]
      },
      'features': [
        {
          'name': 'vision',
          'domain': 'surveillance'
        },
        {
          'name': 'speech'
        }
      ]
    }"
    
  3. Videofájlok hozzáadása az indexhez a hozzájuk tartozó metaadatokkal. Az alábbi példa bemutatja, hogyan adhat hozzá két videofájlt az indexhez SAS URL-címek használatával a Create Ingestion API-val. Mentse az SAS-URL-címeket és documentId -értékeket egy ideiglenes helyre; a későbbi lépésekben szüksége lesz rájuk.

    curl.exe -v -X PUT "https://<YOUR_ENDPOINT_URL>/computervision/retrieval/indexes/my-video-index/ingestions/my-ingestion?api-version=2023-05-01-preview" -H "Ocp-Apim-Subscription-Key: <YOUR_SUBSCRIPTION_KEY>" -H "Content-Type: application/json" --data-ascii "
    {
      'videos': [
        {
          'mode': 'add',
          'documentId': '02a504c9cd28296a8b74394ed7488045',
          'documentUrl': 'https://example.blob.core.windows.net/videos/02a504c9cd28296a8b74394ed7488045.mp4?sas_token_here',
          'metadata': {
            'cameraId': 'camera1',
            'timestamp': '2023-06-30 17:40:33'
          }
        },
        {
          'mode': 'add',
          'documentId': '043ad56daad86cdaa6e493aa11ebdab3',
          'documentUrl': '[https://example.blob.core.windows.net/videos/043ad56daad86cdaa6e493aa11ebdab3.mp4?sas_token_here',
          'metadata': {
            'cameraId': 'camera2'
          }
        }
      ]
    }"
    
  4. Miután hozzáadta a videofájlokat az indexhez, megkezdődik a betöltési folyamat. A fájlok méretétől és számától függően eltarthat egy ideig. Annak érdekében, hogy a betöltés befejeződött a keresések végrehajtása előtt, a Get Ingestion API használatával ellenőrizheti az állapotot. Várja meg, amíg a hívás visszatér "state" = "Completed" , mielőtt továbblép a következő lépésre.

    curl.exe -v -X GET "https://<YOUR_ENDPOINT_URL>/computervision/retrieval/indexes/my-video-index/ingestions?api-version=2023-05-01-preview&$top=20" -H "ocp-apim-subscription-key: <YOUR_SUBSCRIPTION_KEY>"
    

A videóindex integrálása a GPT-4 Turbo és a Vision használatával

  1. POST-kérelem előkészítése arra a helyre, https://{RESOURCE_NAME}.openai.azure.com/openai/deployments/{DEPLOYMENT_NAME}/extensions/chat/completions?api-version=2023-12-01-preview ahol

    • RESOURCE_NAME az Azure OpenAI-erőforrás neve
    • DEPLOYMENT_NAME a GPT-4 Vision-modell üzembe helyezésének neve

    Szükséges fejlécek:

    • Content-Type: application/json
    • api-key: {API_KEY}
  2. Adja hozzá a következő JSON-struktúrát a kérelem törzséhez:

    {
        "enhancements": {
                "video": {
                  "enabled": true
                }
        },
        "dataSources": [
        {
            "type": "AzureComputerVisionVideoIndex",
            "parameters": {
                "computerVisionBaseUrl": "<your_computer_vision_endpoint>",
                "computerVisionApiKey": "<your_computer_vision_key>",
                "indexName": "<name_of_your_index>",
                "videoUrls": ["<your_video_SAS_URL>"]
            }
        }],
        "messages": [ 
            {
                "role": "system", 
                "content": "You are a helpful assistant." 
            },
            {
                "role": "user",
                "content": [
                        {
                            "type": "acv_document_id",
                            "acv_document_id": "<your_video_ID>"
                        },
                        {
                            "type": "text",
                            "text": "Describe this video:"
                        }
                    ]
            }
        ],
        "max_tokens": 100, 
    } 
    

    A kérelem tartalmazza az objektumokat és dataSources az enhancements objektumokat. enhancements a csevegésben kért speciális Vision-fejlesztési funkciókat jelöli. dataSources a Vision fejlesztéséhez szükséges Computer Vision-erőforrásadatokat jelöli. Olyan tulajdonságot type tartalmaz, amelynek lennie "AzureComputerVisionVideoIndex" kell, valamint egy parameters tulajdonságot, amely tartalmazza az AI Vision és a videoinformációkat.

  3. Töltse ki a <placeholder> fenti mezőket a saját adataival: adja meg az OpenAI- és AI Vision-erőforrások végponti URL-címét és kulcsait, ahol szükséges, és kérje le a videoindex adatait a korábbi lépésből.

  4. Küldje el a POST-kérelmet az API-végpontnak. Tartalmaznia kell az OpenAI és az AI Vision hitelesítő adatait, a videóindex nevét, valamint egyetlen videó azonosítóját és SAS-URL-címét.

Fontos

Az "data_sources" objektum tartalma attól függően változik, hogy melyik Azure-erőforrástípust és hitelesítési módszert használja. Lásd a következő hivatkozást:

"data_sources": [
{
    "type": "AzureComputerVisionVideoIndex",
    "parameters": {
    "endpoint": "<your_computer_vision_endpoint>",
    "computerVisionApiKey": "<your_computer_vision_key>",
    "indexName": "<name_of_your_index>",
    "videoUrls": ["<your_video_SAS_URL>"]
    }
}],

Hozam

A modelltől kapott csevegési válaszoknak tartalmazniuk kell a videóval kapcsolatos információkat. Az API-válasznak az alábbihoz hasonlóan kell kinéznie.

{
    "id": "chatcmpl-8V4J2cFo7TWO7rIfs47XuDzTKvbct",
    "object": "chat.completion",
    "created": 1702415412,
    "model": "gpt-4",
    "choices":
    [
        {
            "finish_reason":"stop",
            "index": 0,
            "message":
            {
                "role": "assistant",
                "content": "The advertisement video opens with a blurred background that suggests a serene and aesthetically pleasing environment, possibly a workspace with a nature view. As the video progresses, a series of frames showcase a digital interface with search bars and prompts like \"Inspire new ideas,\" \"Research a topic,\" and \"Organize my plans,\" suggesting features of a software or application designed to assist with productivity and creativity.\n\nThe color palette is soft and varied, featuring pastel blues, pinks, and purples, creating a calm and inviting atmosphere. The backgrounds of some frames are adorned with abstract, organically shaped elements and animations, adding to the sense of innovation and modernity.\n\nMidway through the video, the focus shifts to what appears to be a browser or software interface with the phrase \"Screens simulated, subject to change; feature availability and timing may vary,\" indicating the product is in development and that the visuals are illustrative of its capabilities.\n\nThe use of text prompts continues with \"Help me relax,\" followed by a demonstration of a 'dark mode' feature, providing a glimpse into the software's versatility and user-friendly design.\n\nThe video concludes by revealing the product name, \"Copilot,\" and positioning it as \"Your everyday AI companion,\" implying the use of artificial intelligence to enhance daily tasks. The final frames feature the Microsoft logo, associating the product with the well-known technology company.\n\nIn summary, the advertisement video is for a Microsoft product named \"Copilot,\" which seems to be an AI-powered software tool aimed at improving productivity, creativity, and organization for its users. The video conveys a message of innovation, ease, and support in daily digital interactions through a visually appealing and calming presentation."
            }
        }
    ],
    "usage":
    {
        "prompt_tokens": 2068,
        "completion_tokens": 341,
        "total_tokens": 2409
    }
}

Minden válasz tartalmaz egy "finish_details" mezőt. A következő lehetséges értékekkel rendelkezik:

  • stop: Az API teljes modellkimenetet adott vissza.
  • length: Hiányos modellkimenet a bemeneti paraméter vagy a max_tokens modell jogkivonatkorlátja miatt.
  • content_filter: A tartalomszűrők jelölője miatt kihagyott tartalmat.

Díjszabási példa videóüzenetekhez

A GPT-4 Turbo és a Vision díjszabása dinamikus, és a használt funkcióktól és bemenettől függ. Az Azure OpenAI díjszabásának átfogó megtekintéséhez tekintse meg az Azure OpenAI díjszabását.

Az alapdíjakat és a további funkciókat az alábbiakban ismertetjük:

A GPT-4 Turbo és a Vision alapára a következő:

  • Bemenet: 1000 tokenenként 0,01 USD
  • Kimenet: $0.03 per 1000 token

Videoüzenetek integrációja a Video Retrieveal bővítménysel:

  • Betöltési idő: 0,05 USD/perc videó
  • Tranzakciók: 0,25 USD a videolekérés 1000 lekérdezésénként

Következő lépések