Použití GPT-4 Turbo s vision

Článek
05/02/2024

GPT-4 Turbo s vision je velký multimodální model (LMM) vyvinutý openAI, který dokáže analyzovat obrázky a poskytovat textové odpovědi na otázky o nich. Zahrnuje zpracování přirozeného jazyka i vizuální porozumění.

GpT-4 Turbo s modelem Vision odpovídá na obecné otázky týkající se toho, co je na obrázcích k dispozici. Pokud používáte vylepšení obrazu, můžete ho také zobrazit.

Tip

Pokud chcete použít GPT-4 Turbo s vision, zavoláte rozhraní API pro dokončování chatu na modelu GPT-4 Turbo s obrazovým modelem, který jste nasadili. Pokud rozhraní API pro dokončování chatu neznáte, přečtěte si průvodce postupy GPT-4 Turbo &GPT-4.

Upgrade modelu GPT-4 Turbo

Nejnovější verze GA GPT-4 Turbo je:

gpt-4Verze:turbo-2024-04-09

Toto je náhrada následujících modelů Preview:

gpt-4Verze:1106-Preview
gpt-4Verze:0125-Preview
gpt-4Verze:vision-preview

Rozdíly mezi modely OpenAI a Azure OpenAI GPT-4 Turbo GA

Verze nejnovějšího 0409 modelu Turbo OpenAI podporuje režim JSON a volání funkcí pro všechny žádosti o odvozování.
Verze nejnovější turbo-2024-04-09 verze Azure OpenAI v současné době nepodporuje použití režimu JSON a volání funkcí při odvozování požadavků na odvozování pomocí vstupu obrázku (vision). Textové vstupní požadavky (požadavky bez image_url a vložené obrázky) podporují režim JSON a volání funkcí.

Rozdíly od gpt-4 vision-preview

Integrace vylepšení zpracování obrazu specifická pro gpt-4Azure AI s GPT-4 Turbo s vision se pro verzi nepodporuje:turbo-2024-04-09 Patří sem optické rozpoznávání znaků (OCR), uzemnění objektů, výzvy k videu a vylepšené zpracování dat pomocí obrázků.

Spravovaná dostupnost zřízená pomocí GPT-4 Turbo

gpt-4Verze:turbo-2024-04-09 je k dispozici pro standardní i zřízená nasazení. V současné době zřízená verze tohoto modelu nepodporuje požadavky na odvozování obrázků a obrazu. Zřízená nasazení tohoto modelu přijímají pouze textové zadání. Nasazení standardního modelu přijímají požadavky na odvozování textu i obrazu a obrazu.

Regionální dostupnost

Informace o regionální dostupnosti modelu najdete v matici modelu pro standardní a zřízená nasazení.

Nasazení GPT-4 Turbo s ga vision

Pokud chcete nasadit model GA z uživatelského rozhraní sady Studio, vyberte GPT-4 a pak v rozevírací nabídce zvolte turbo-2024-04-09 verzi. Výchozí kvóta modelu gpt-4-turbo-2024-04-09 bude stejná jako aktuální kvóta pro GPT-4-Turbo. Podívejte se na limity kvót v jednotlivých oblastech.

Volání rozhraní API pro dokončování chatu

Následující příkaz ukazuje nejzásadnější způsob použití modelu GPT-4 Turbo s kódem. Pokud tyto modely používáte programově poprvé, doporučujeme začít s naším rychlým startem GPT-4 Turbo s vision.

REST
Python

Odeslání požadavku POST na místo, kde https://{RESOURCE_NAME}.openai.azure.com/openai/deployments/{DEPLOYMENT_NAME}/chat/completions?api-version=2023-12-01-preview

RESOURCE_NAME je název vašeho prostředku Azure OpenAI.
DEPLOYMENT_NAME je název vašeho nasazení modelu GPT-4 Turbo s nasazením modelu Vision.

Povinná záhlaví:

Content-Type: application/json
api-key: {API_KEY}

Text: Následuje ukázkový text požadavku. Formát je stejný jako rozhraní API pro dokončování chatu pro GPT-4, s výjimkou toho, že obsah zprávy může být pole obsahující text a obrázky (platnou adresu URL HTTP nebo HTTPS obrázku nebo zakódovaný v base-64).

Důležité

Nezapomeňte nastavit "max_tokens" hodnotu nebo se ořízne návratový výstup.

Důležité

Při nahrávání obrázků platí limit 10 obrázků na žádost chatu.

{
    "messages": [ 
        {
            "role": "system", 
            "content": "You are a helpful assistant." 
        },
        {
            "role": "user", 
            "content": [
	            {
	                "type": "text",
	                "text": "Describe this picture:"
	            },
	            {
	                "type": "image_url",
	                "image_url": {
                        "url": "<image URL>"
                    }
                } 
           ] 
        }
    ],
    "max_tokens": 100, 
    "stream": false 
}

Definujte koncový bod a klíč prostředku Azure OpenAI.
Zadejte název vašeho modelu GPT-4 Turbo s nasazením modelu Vision.

Pomocí těchto hodnot vytvořte objekt klienta.

api_base = '<your_azure_openai_endpoint>' # your endpoint should look like the following https://YOUR_RESOURCE_NAME.openai.azure.com/
api_key="<your_azure_openai_key>"
deployment_name = '<your_deployment_name>'
api_version = '2023-12-01-preview' # this might change in the future

client = AzureOpenAI(
    api_key=api_key,  
    api_version=api_version,
    base_url=f"{api_base}openai/deployments/{deployment_name}/extensions",
)

Pak zavolejte metodu vytvoření klienta. Následující kód ukazuje ukázkový text požadavku. Formát je stejný jako rozhraní API pro dokončování chatu pro GPT-4, s výjimkou toho, že obsah zprávy může být pole obsahující text a obrázky (platnou adresu URL HTTP nebo HTTPS obrázku nebo zakódovaný v base-64).

Důležité

Nezapomeňte nastavit "max_tokens" hodnotu nebo se ořízne návratový výstup.

response = client.chat.completions.create(
    model=deployment_name,
    messages=[
        { "role": "system", "content": "You are a helpful assistant." },
        { "role": "user", "content": [  
            { 
                "type": "text", 
                "text": "Describe this picture:" 
            },
            { 
                "type": "image_url",
                "image_url": {
                    "url": "<image URL>"
                }
            }
        ] } 
    ],
    max_tokens=2000 
)
print(response)

Tip

Použití místní image

Pokud chcete použít místní image, můžete ho pomocí následujícího kódu Pythonu převést na base64, aby se mohl předat do rozhraní API. Alternativní nástroje pro převod souborů jsou k dispozici online.

import base64
from mimetypes import guess_type

# Function to encode a local image into data URL 
def local_image_to_data_url(image_path):
    # Guess the MIME type of the image based on the file extension
    mime_type, _ = guess_type(image_path)
    if mime_type is None:
        mime_type = 'application/octet-stream'  # Default MIME type if none is found

    # Read and encode the image file
    with open(image_path, "rb") as image_file:
        base64_encoded_data = base64.b64encode(image_file.read()).decode('utf-8')

    # Construct the data URL
    return f"data:{mime_type};base64,{base64_encoded_data}"

# Example usage
image_path = '<path_to_image>'
data_url = local_image_to_data_url(image_path)
print("Data URL:", data_url)

Jakmile jsou data image base64 připravená, můžete je předat do rozhraní API v textu požadavku takto:

...
"type": "image_url",
"image_url": {
   "url": "data:image/jpeg;base64,<your_image_data>"
}
...

Výstup

Odpověď rozhraní API by měla vypadat následovně.

{
    "id": "chatcmpl-8VAVx58veW9RCm5K1ttmxU6Cm4XDX",
    "object": "chat.completion",
    "created": 1702439277,
    "model": "gpt-4",
    "prompt_filter_results": [
        {
            "prompt_index": 0,
            "content_filter_results": {
                "hate": {
                    "filtered": false,
                    "severity": "safe"
                },
                "self_harm": {
                    "filtered": false,
                    "severity": "safe"
                },
                "sexual": {
                    "filtered": false,
                    "severity": "safe"
                },
                "violence": {
                    "filtered": false,
                    "severity": "safe"
                }
            }
        }
    ],
    "choices": [
        {
            "finish_reason":"stop",
            "index": 0,
            "message": {
                "role": "assistant",
                "content": "The picture shows an individual dressed in formal attire, which includes a black tuxedo with a black bow tie. There is an American flag on the left lapel of the individual's jacket. The background is predominantly blue with white text that reads \"THE KENNEDY PROFILE IN COURAGE AWARD\" and there are also visible elements of the flag of the United States placed behind the individual."
            },
            "content_filter_results": {
                "hate": {
                    "filtered": false,
                    "severity": "safe"
                },
                "self_harm": {
                    "filtered": false,
                    "severity": "safe"
                },
                "sexual": {
                    "filtered": false,
                    "severity": "safe"
                },
                "violence": {
                    "filtered": false,
                    "severity": "safe"
                }
            }
        }
    ],
    "usage": {
        "prompt_tokens": 1156,
        "completion_tokens": 80,
        "total_tokens": 1236
    }
}

Každá odpověď obsahuje "finish_details" pole. Má následující možné hodnoty:

stop: Rozhraní API vrátilo úplný výstup modelu.
length: Nekompletní výstup modelu z důvodu limitu max_tokens tokenu vstupního parametru nebo modelu.
content_filter: Vynechání obsahu kvůli příznaku z našich filtrů obsahu.

Nastavení parametrů podrobností při zpracování obrazu: Nízká, Vysoká, Automatické

Parametr podrobností v modelu nabízí tři volby: low, highnebo auto, upravit způsob, jakým model interpretuje a zpracovává obrázky. Výchozí nastavení je automatické, kde se model rozhodne mezi nízkým nebo vysokým na základě velikosti vstupu obrázku.

low nastavení: Model neaktivuje režim "s vysokým rozlišením", místo toho zpracovává nižší rozlišení 512x512, což vede k rychlejším odpovědím a snížení spotřeby tokenů ve scénářích, kde nejsou podrobné podrobnosti zásadní.
high nastavení: Model aktivuje režim "high res". V této části model zpočátku zobrazí obrázek s nízkým rozlišením a pak vygeneruje z vstupního obrázku podrobné segmenty 512x512. Každý segment používá dvojitý rozpočet tokenu, což umožňuje podrobnější interpretaci obrázku."

Podrobnosti o tom, jak parametry image ovlivňují použité tokeny a ceny, najdete v tématu – Co je OpenAI? Tokeny obrázků s GPT-4 Turbo s vision

Použití vylepšení obrazu s obrázky

GPT-4 Turbo with Vision poskytuje exkluzivní přístup k vylepšením přizpůsobeným službám Azure AI. V kombinaci s Azure AI Vision vylepšuje vaše prostředí chatu tím, že model chatu poskytuje podrobnější informace o viditelném textu na obrázku a umístění objektů.

Integrace optického rozpoznávání znaků (OCR) umožňuje modelu vytvářet kvalitnější odpovědi na zhuštěný text, transformované obrázky a finanční dokumenty náročné na čísla. Zahrnuje také širší škálu jazyků.

Integrace uzemnění objektů přináší novou vrstvu pro analýzu dat a interakci uživatelů, protože tato funkce dokáže vizuálně rozlišit a zvýraznit důležité prvky v obrázcích, které zpracovává.

Důležité

Pokud chcete použít vylepšení zpracování obrazu s prostředkem Azure OpenAI, musíte zadat prostředek Počítačové zpracování obrazu. Musí být na placené úrovni (S1) a ve stejné oblasti Azure jako váš prostředek GPT-4 Turbo s vision. Pokud používáte prostředek Azure AI Services, nepotřebujete další Počítačové zpracování obrazu prostředek.

Upozornění

Vylepšení Azure AI pro GPT-4 Turbo s vision se budou účtovat odděleně od základních funkcí. Každé konkrétní vylepšení Azure AI pro GPT-4 Turbo s vision má své vlastní odlišné poplatky. Podrobnosti najdete v informacích o speciálních cenách.

REST
Python

Odeslání požadavku POST na místo, kde https://{RESOURCE_NAME}.openai.azure.com/openai/deployments/{DEPLOYMENT_NAME}/extensions/chat/completions?api-version=2023-12-01-preview

RESOURCE_NAME je název vašeho prostředku Azure OpenAI.
DEPLOYMENT_NAME je název vašeho nasazení modelu GPT-4 Turbo s nasazením modelu Vision.

Povinná záhlaví:

Content-Type: application/json
api-key: {API_KEY}

Text:

Formát se podobá rozhraní API pro dokončování chatu pro GPT-4, ale obsah zprávy může být pole obsahující řetězce a obrázky (platnou adresu URL HTTP nebo HTTPS obrázku nebo zakódovaný jako base-64).

Musíte také zahrnout objekty enhancements a dataSources objekty. enhancements představuje konkrétní funkce vylepšení obrazu požadované v chatu. Má vlastnost grounding a ocr vlastnost, která má logickou enabled vlastnost. Použijte je k vyžádání služby OCR nebo služby rozpoznávání objektů nebo uzemnění. dataSourcespředstavuje Počítačové zpracování obrazu dat prostředků, která jsou potřebná pro vylepšení vision. type Má vlastnost, která by měla být "AzureComputerVision" a parameters vlastnost. endpoint Nastavte adresu URL koncového bodu a key přístupový klíč vašeho prostředku Počítačové zpracování obrazu.

Důležité

Nezapomeňte nastavit "max_tokens" hodnotu nebo se ořízne návratový výstup.

{
    "enhancements": {
            "ocr": {
              "enabled": true
            },
            "grounding": {
              "enabled": true
            }
    },
    "dataSources": [
    {
        "type": "AzureComputerVision",
        "parameters": {
            "endpoint": "<your_computer_vision_endpoint>",
            "key": "<your_computer_vision_key>"
        }
    }],
    "messages": [
        {
            "role": "system",
            "content": "You are a helpful assistant."
        },
        {
            "role": "user",
            "content": [
	            {
	                "type": "text",
	                "text": "Describe this picture:"
	            },
	            {
	                "type": "image_url",
	                "image_url": {
                        "url":"<image URL>" 
                    }
                }
           ] 
        }
    ],
    "max_tokens": 100, 
    "stream": false 
}

Zavoláte stejnou metodu jako v předchozím kroku, ale zahrnete nový parametr extra_body . Obsahuje pole enhancements a dataSources pole.

enhancements představuje konkrétní funkce vylepšení obrazu požadované v chatu. Má a groundingocr pole, které mají logickou enabled vlastnost. Použijte je k vyžádání služby OCR nebo služby rozpoznávání objektů nebo uzemnění.

dataSourcespředstavuje Počítačové zpracování obrazu dat prostředků, která jsou potřebná pro vylepšení vision. Má type pole, které by mělo být "AzureComputerVision" a pole parameters . endpoint Nastavte adresu URL koncového bodu a key přístupový klíč vašeho prostředku Počítačové zpracování obrazu. R

Důležité

Nezapomeňte nastavit "max_tokens" hodnotu nebo se ořízne návratový výstup.

response = client.chat.completions.create(
    model=deployment_name,
    messages=[
        { "role": "system", "content": "You are a helpful assistant." },
        { "role": "user", "content": [  
            { 
                "type": "text", 
                "text": "Describe this picture:" 
            },
            { 
                "type": "image_url",
                "image_url": {
                    "url": "<image URL>"
                }
            }
        ] } 
    ],
    extra_body={
        "dataSources": [
            {
                "type": "AzureComputerVision",
                "parameters": {
                    "endpoint": "<your_computer_vision_endpoint>",
                    "key": "<your_computer_vision_key>"
                }
            }],
        "enhancements": {
            "ocr": {
                "enabled": True
            },
            "grounding": {
                "enabled": True
            }
        }
    },
    max_tokens=2000
)
print(response)

Výstup

Odpovědi na chat, které obdržíte z modelu, by teď měly obsahovat vylepšené informace o obrázku, jako jsou popisky objektů a ohraničující rámečky a výsledky OCR. Odpověď rozhraní API by měla vypadat následovně.

{
    "id": "chatcmpl-8UyuhLfzwTj34zpevT3tWlVIgCpPg",
    "object": "chat.completion",
    "created": 1702394683,
    "model": "gpt-4",
    "choices":
    [
        {
            "finish_details": {
                "type": "stop",
                "stop": "<|fim_suffix|>"
            },
            "index": 0,
            "message":
            {
                "role": "assistant",
                "content": "The image shows a close-up of an individual with dark hair and what appears to be a short haircut. The person has visible ears and a bit of their neckline. The background is a neutral light color, providing a contrast to the dark hair."
            },
            "enhancements":
            {
                "grounding":
                {
                    "lines":
                    [
                        {
                            "text": "The image shows a close-up of an individual with dark hair and what appears to be a short haircut. The person has visible ears and a bit of their neckline. The background is a neutral light color, providing a contrast to the dark hair.",
                            "spans":
                            [
                                {
                                    "text": "the person",
                                    "length": 10,
                                    "offset": 99,
                                    "polygon": [{"x":0.11950000375509262,"y":0.4124999940395355},{"x":0.8034999370574951,"y":0.4124999940395355},{"x":0.8034999370574951,"y":0.6434999704360962},{"x":0.11950000375509262,"y":0.6434999704360962}]
                                }
                            ]
                        }
                    ],
                    "status": "Success"
                }
            }
        }
    ],
    "usage":
    {
        "prompt_tokens": 816,
        "completion_tokens": 49,
        "total_tokens": 865
    }
}

Každá odpověď obsahuje "finish_details" pole. Má následující možné hodnoty:

stop: Rozhraní API vrátilo úplný výstup modelu.
length: Nekompletní výstup modelu z důvodu limitu max_tokens tokenu vstupního parametru nebo modelu.
content_filter: Vynechání obsahu kvůli příznaku z našich filtrů obsahu.

Použití vylepšení zpracování obrazu s videem

GPT-4 Turbo with Vision poskytuje exkluzivní přístup k vylepšením přizpůsobeným službám Azure AI. Integrace výzvy k videu využívá načítání videa ve službě Azure AI Vision k ukázce sady snímků z videa a vytvoření přepisu řeči ve videu. Umožňuje modelu AI poskytnout souhrny a odpovědi na obsah videa.

Tímto postupem nastavíte systém načítání videa a integrujete ho s modelem chatu AI.

Důležité

Upozornění

Tip

Pokud chcete, můžete místo toho pomocí poznámkového bloku Jupyter provést následující kroky: Poznámkový blok dokončení videochatu.

Nahrání videí do služby Azure Blob Storage

Potřebujete nahrát videa do kontejneru Azure Blob Storage. Pokud ho ještě nemáte, vytvořte nový účet úložiště.

Po nahrání videí můžete získat jejich adresy URL SAS, které použijete pro přístup k nim v dalších krocích.

Zajištění správného přístupu pro čtení

V závislosti na metodě ověřování možná budete muset udělat několik dalších kroků, abyste udělili přístup ke kontejneru Azure Blob Storage. Pokud místo prostředku Azure OpenAI používáte prostředek Azure AI Services, musíte k udělení přístupu ke službě Azure Blob Storage použít spravované identity:

pomocí identit přiřazených systémem
používání identit přiřazených uživatelem

Následujícím postupem povolte identity přiřazené systémem ve vašem prostředku Azure AI Services:

V prostředku AI Services na webu Azure Portal vyberte Správa prostředků –> Identita a přepněte stav na ZAPNUTO.
Přiřaďte přístup ke čtení dat objektů blob služby Storage k prostředku služby AI Services: Na stránce Identita vyberte přiřazení rolí Azure a pak přidejte přiřazení role s následujícím nastavením:
- scope: storage
- předplatné: {your subscription}
- Prostředek: {select the Azure Blob Storage resource}
- Role: Čtenář dat objektů blob úložiště
Uložte svá nastavení.

Vytvoření indexu načítání videa

Získejte prostředek Azure AI Vision ve stejné oblasti jako prostředek Azure OpenAI, který používáte.

Vytvořte index pro ukládání a uspořádání videosouborů a jejich metadat. Následující ukázkový příkaz ukazuje, jak vytvořit index s názvem my-video-index pomocí rozhraní API pro vytvoření indexu. Uložte název indexu do dočasného umístění; budete ho potřebovat v dalších krocích.

Tip

Podrobnější pokyny k vytvoření indexu videa najdete v tématu Načítání videa pomocí vektorizace.

Důležité

Název indexu videa může mít délku až 24 znaků, pokud se nejedná o identifikátor GUID, který může být 36 znaků.

curl.exe -v -X PUT "https://<YOUR_ENDPOINT_URL>/computervision/retrieval/indexes/my-video-index?api-version=2023-05-01-preview" -H "Ocp-Apim-Subscription-Key: <YOUR_SUBSCRIPTION_KEY>" -H "Content-Type: application/json" --data-ascii "
{
  'metadataSchema': {
    'fields': [
      {
        'name': 'cameraId',
        'searchable': false,
        'filterable': true,
        'type': 'string'
      },
      {
        'name': 'timestamp',
        'searchable': false,
        'filterable': true,
        'type': 'datetime'
      }
    ]
  },
  'features': [
    {
      'name': 'vision',
      'domain': 'surveillance'
    },
    {
      'name': 'speech'
    }
  ]
}"

Přidejte videosoubory do indexu s přidruženými metadaty. Následující příklad ukazuje, jak do indexu přidat dva videosoubory pomocí adres URL SAS s rozhraním API pro vytváření příjmu dat . Uložte adresy URL a documentId hodnoty SAS do dočasného umístění. Budete je potřebovat v pozdějších krocích.

curl.exe -v -X PUT "https://<YOUR_ENDPOINT_URL>/computervision/retrieval/indexes/my-video-index/ingestions/my-ingestion?api-version=2023-05-01-preview" -H "Ocp-Apim-Subscription-Key: <YOUR_SUBSCRIPTION_KEY>" -H "Content-Type: application/json" --data-ascii "
{
  'videos': [
    {
      'mode': 'add',
      'documentId': '02a504c9cd28296a8b74394ed7488045',
      'documentUrl': 'https://example.blob.core.windows.net/videos/02a504c9cd28296a8b74394ed7488045.mp4?sas_token_here',
      'metadata': {
        'cameraId': 'camera1',
        'timestamp': '2023-06-30 17:40:33'
      }
    },
    {
      'mode': 'add',
      'documentId': '043ad56daad86cdaa6e493aa11ebdab3',
      'documentUrl': '[https://example.blob.core.windows.net/videos/043ad56daad86cdaa6e493aa11ebdab3.mp4?sas_token_here',
      'metadata': {
        'cameraId': 'camera2'
      }
    }
  ]
}"

Po přidání videosouborů do indexu se spustí proces příjmu dat. V závislosti na velikosti a počtu souborů může nějakou dobu trvat. Abyste se ujistili, že je příjem dat dokončený před vyhledáváním, můžete stav zkontrolovat pomocí rozhraní API pro příjem dat. Než budete pokračovat k dalšímu kroku, počkejte, než se tento hovor vrátí "state" = "Completed" .
```
curl.exe -v -X GET "https://<YOUR_ENDPOINT_URL>/computervision/retrieval/indexes/my-video-index/ingestions?api-version=2023-05-01-preview&$top=20" -H "ocp-apim-subscription-key: <YOUR_SUBSCRIPTION_KEY>"
```

Integrace indexu videa s GPT-4 Turbo s vision

REST
Python

Příprava požadavku POST na místo, kde https://{RESOURCE_NAME}.openai.azure.com/openai/deployments/{DEPLOYMENT_NAME}/extensions/chat/completions?api-version=2023-12-01-preview
- RESOURCE_NAME je název vašeho prostředku Azure OpenAI.
- DEPLOYMENT_NAME je název nasazení modelu GPT-4 Vision.
Povinná záhlaví:
- Content-Type: application/json
- api-key: {API_KEY}

Do textu požadavku přidejte následující strukturu JSON:

{
    "enhancements": {
            "video": {
              "enabled": true
            }
    },
    "dataSources": [
    {
        "type": "AzureComputerVisionVideoIndex",
        "parameters": {
            "computerVisionBaseUrl": "<your_computer_vision_endpoint>",
            "computerVisionApiKey": "<your_computer_vision_key>",
            "indexName": "<name_of_your_index>",
            "videoUrls": ["<your_video_SAS_URL>"]
        }
    }],
    "messages": [ 
        {
            "role": "system", 
            "content": "You are a helpful assistant." 
        },
        {
            "role": "user",
            "content": [
                    {
                        "type": "acv_document_id",
                        "acv_document_id": "<your_video_ID>"
                    },
                    {
                        "type": "text",
                        "text": "Describe this video:"
                    }
                ]
        }
    ],
    "max_tokens": 100, 
}

Požadavek zahrnuje objekty enhancements a dataSources objekty. enhancements představuje konkrétní funkce vylepšení obrazu požadované v chatu. dataSourcespředstavuje Počítačové zpracování obrazu dat prostředků, která jsou potřebná pro vylepšení vision. type Má vlastnost, která by měla být "AzureComputerVisionVideoIndex" a parameters vlastnost, která obsahuje informace o AI Vision a video.

Vyplňte všechna <placeholder> výše uvedená pole vlastními informacemi: Zadejte adresy URL koncového bodu a klíče prostředků OpenAI a AI Vision, kde je to vhodné, a načtěte informace o indexu videa z předchozího kroku.
Odešlete požadavek POST do koncového bodu rozhraní API. Měla by obsahovat přihlašovací údaje OpenAI a AI Vision, název indexu videa a ID a adresu URL SAS jednoho videa.

Ve skriptu Pythonu volejte metodu create klienta jako v předchozích částech, ale zahrňte parametr extra_body. Tady obsahuje pole enhancements a data_sources pole. enhancements představuje konkrétní funkce vylepšení obrazu požadované v chatu. video Má pole, které má logickou enabled vlastnost. Tuto možnost použijte k vyžádání služby načítání videa.

data_sources představuje data externích prostředků, která jsou potřebná pro vylepšení zpracování obrazu. Má type pole, které by mělo být "AzureComputerVisionVideoIndex" a pole parameters .

computerVisionBaseUrl Nastavte adresu URL koncového bodu a computerVisionApiKey přístupový klíč vašeho prostředku Počítačové zpracování obrazu. Nastavte indexName název indexu videa. Nastavte videoUrls seznam adres URL SAS videí.

Důležité

Nezapomeňte nastavit "max_tokens" hodnotu nebo se ořízne návratový výstup.

response = client.chat.completions.create(
    model=deployment_name,
    messages=[
        { "role": "system", "content": "You are a helpful assistant." },
        { "role": "user", "content": [  
            {
                "type": "acv_document_id",
                "acv_document_id": "<your_video_ID>"
            },
            { 
                "type": "text", 
                "text": "Describe this video:" 
            }
        ] } 
    ],
    extra_body={
        "data_sources": [
            {
                "type": "AzureComputerVisionVideoIndex",
                "parameters": {
                    "computerVisionBaseUrl": "<your_computer_vision_endpoint>", # your endpoint should look like the following https://YOUR_RESOURCE_NAME.cognitiveservices.azure.com/computervision
                    "computerVisionApiKey": "<your_computer_vision_key>",
                    "indexName": "<name_of_your_index>",
                    "videoUrls": ["<your_video_SAS_URL>"]
                }
            }],
        "enhancements": {
            "video": {
                "enabled": True
            }
        }
    },
    max_tokens=100
)

print(response)

Důležité

Obsah "data_sources" objektu se liší v závislosti na typu prostředku Azure a metodě ověřování, kterou používáte. Projděte si následující referenční informace:

"data_sources": [
{
    "type": "AzureComputerVisionVideoIndex",
    "parameters": {
    "endpoint": "<your_computer_vision_endpoint>",
    "computerVisionApiKey": "<your_computer_vision_key>",
    "indexName": "<name_of_your_index>",
    "videoUrls": ["<your_video_SAS_URL>"]
    }
}],

"data_sources": [
{
    "type": "AzureComputerVisionVideoIndex",
    "parameters": {
    "indexName": "<name_of_your_index>",
    "videoUrls": ["<your_video_SAS_URL>"]
    }
}],

"data_sources": [
{
    "type": "AzureComputerVisionVideoIndex",
    "parameters": {
        "indexName": "<name_of_your_index>",
        "documentAuthenticationKind": "managedidentity",
    }
}],

Výstup

Odpovědi na chat, které obdržíte z modelu, by měly obsahovat informace o videu. Odpověď rozhraní API by měla vypadat následovně.

{
    "id": "chatcmpl-8V4J2cFo7TWO7rIfs47XuDzTKvbct",
    "object": "chat.completion",
    "created": 1702415412,
    "model": "gpt-4",
    "choices":
    [
        {
            "finish_reason":"stop",
            "index": 0,
            "message":
            {
                "role": "assistant",
                "content": "The advertisement video opens with a blurred background that suggests a serene and aesthetically pleasing environment, possibly a workspace with a nature view. As the video progresses, a series of frames showcase a digital interface with search bars and prompts like \"Inspire new ideas,\" \"Research a topic,\" and \"Organize my plans,\" suggesting features of a software or application designed to assist with productivity and creativity.\n\nThe color palette is soft and varied, featuring pastel blues, pinks, and purples, creating a calm and inviting atmosphere. The backgrounds of some frames are adorned with abstract, organically shaped elements and animations, adding to the sense of innovation and modernity.\n\nMidway through the video, the focus shifts to what appears to be a browser or software interface with the phrase \"Screens simulated, subject to change; feature availability and timing may vary,\" indicating the product is in development and that the visuals are illustrative of its capabilities.\n\nThe use of text prompts continues with \"Help me relax,\" followed by a demonstration of a 'dark mode' feature, providing a glimpse into the software's versatility and user-friendly design.\n\nThe video concludes by revealing the product name, \"Copilot,\" and positioning it as \"Your everyday AI companion,\" implying the use of artificial intelligence to enhance daily tasks. The final frames feature the Microsoft logo, associating the product with the well-known technology company.\n\nIn summary, the advertisement video is for a Microsoft product named \"Copilot,\" which seems to be an AI-powered software tool aimed at improving productivity, creativity, and organization for its users. The video conveys a message of innovation, ease, and support in daily digital interactions through a visually appealing and calming presentation."
            }
        }
    ],
    "usage":
    {
        "prompt_tokens": 2068,
        "completion_tokens": 341,
        "total_tokens": 2409
    }
}

Každá odpověď obsahuje "finish_details" pole. Má následující možné hodnoty:

stop: Rozhraní API vrátilo úplný výstup modelu.
length: Nekompletní výstup modelu z důvodu limitu max_tokens tokenu vstupního parametru nebo modelu.
content_filter: Vynechání obsahu kvůli příznaku z našich filtrů obsahu.

Příklad cen pro výzvy k videu

Ceny PRO GPT-4 Turbo s vision jsou dynamické a závisí na konkrétních vlastnostech a vstupech použitých. Komplexní přehled o cenách Azure OpenAI najdete v tématu Ceny Azure OpenAI.

Základní poplatky a další funkce jsou popsané níže:

Základní ceny GPT-4 Turbo s vision jsou:

Vstup: $0,01 za 1 000 tokenů
Výstup: 0,03 USD za 1 000 tokenů

Integrace výzvy k videu s doplňkem Pro načítání videa:

Příjem dat: 0,05 USD za minutu videa
Transakce: 0,25 USD za 1 000 dotazů na načítání videa

Sdílet prostřednictvím

Použití GPT-4 Turbo s vision

Upgrade modelu GPT-4 Turbo

Rozdíly mezi modely OpenAI a Azure OpenAI GPT-4 Turbo GA

Rozdíly od gpt-4 vision-preview

Spravovaná dostupnost zřízená pomocí GPT-4 Turbo

Regionální dostupnost

Nasazení GPT-4 Turbo s ga vision

Volání rozhraní API pro dokončování chatu

Použití místní image

Výstup

Nastavení parametrů podrobností při zpracování obrazu: Nízká, Vysoká, Automatické

Použití vylepšení obrazu s obrázky

Výstup

Použití vylepšení zpracování obrazu s videem

Nahrání videí do služby Azure Blob Storage

Zajištění správného přístupu pro čtení

Vytvoření indexu načítání videa

Integrace indexu videa s GPT-4 Turbo s vision

Výstup

Příklad cen pro výzvy k videu

Další kroky

Váš názor

Váš názor

Další materiály