Compartilhar via


Usar o GPT-4 Turbo with Vision

O GPT-4 Turbo with Vision é um grande modelo multimodal (LMM) desenvolvido pela OpenAI que pode analisar imagens e fornecer respostas textuais a perguntas sobre elas. Ele incorpora o processamento de linguagem natural e a compreensão visual.

O modelo GPT-4 Turbo with Vision responde a perguntas gerais sobre o que está presente nas imagens. Você também pode mostrar o vídeo se usar o aprimoramento do Visão.

Dica

Para usar o GPT-4 Turbo com a Visão, chame a API de Conclusão de Chat em um modelo GPT-4 Turbo with Vision implantado. Se você não estiver familiarizado com a API de Conclusão de Chat, consulte o Guia de instruções do GPT-4 Turbo e GPT-4.

Upgrade do modelo GPT-4 Turbo

A última versão GA do GPT-4 Turbo é:

  • gpt-4Versão:turbo-2024-04-09

Essa é a substituição dos seguintes modelos de versão prévia:

  • gpt-4Versão:1106-Preview
  • gpt-4Versão:0125-Preview
  • gpt-4Versão:vision-preview

Diferenças entre os modelos OpenAI e Azure OpenAI GPT-4 Turbo GA

  • A versão mais recente do modelo turbo 0409 do OpenAI suporta o modo JSON e chamadas de função para todas as solicitações de inferência.
  • A versão do OpenAI do Azure do turbo-2024-04-09 mais recente no momento não dá suporte ao uso do modo JSON e chamadas de função ao fazer solicitações de inferência com entrada de imagem (visão). As solicitações de entrada baseadas em texto (solicitações sem image_url e imagens embutidas) dão suporte ao modo JSON e à chamada de função.

Diferenças do gpt-4 vision-preview

  • A IA do Azure não oferece suporte à integração de aprimoramentos específicos de Visão com o GPT-4 Turbo com Visão para a gpt-4Versão:turbo-2024-04-09. Isso inclui Reconhecimento Óptico de Caracteres (OCR), ancoragem de objetos, solicitações de vídeo e melhor manuseio dos seus dados com imagens.

Disponibilidade gerenciada provisionada do GPT-4 Turbo

  • gpt-4Versão:turbo-2024-04-09 está disponível para implantações padrão e provisionadas. Atualmente, a versão provisionada deste modelo não dá suporte a solicitações de inferência de imagem/visão. As implantações provisionadas deste modelo aceitam apenas a entrada de texto. As implantações de modelo Standard aceitam solicitações de inferência de texto e imagem/visão.

Disponibilidade de região

Para obter informações sobre a disponibilidade regional do modelo, confira a matriz de modelos para implantações padrão e provisionadas.

Implantar o GPT-4 Turbo com Visão GA

Para implantar o modelo GA na interface do usuário do Estúdio, selecione GPT-4 e escolha a versão turbo-2024-04-09 no menu suspenso. A cota padrão para o modelo gpt-4-turbo-2024-04-09 será a mesma da cota atual para o GPT-4-Turbo. Consulte os limites de cota regional.

Chamar as APIs de Conclusão de Chat

O comando a seguir mostra a maneira mais básica de usar o modelo GPT-4 Turbo com Visão com código. Se esta for sua primeira vez usando esses modelos programaticamente, recomendamos começar com nosso início rápido do GPT-4 Turbo with Vision.

Enviar uma solicitação POST para https://{RESOURCE_NAME}.openai.azure.com/openai/deployments/{DEPLOYMENT_NAME}/chat/completions?api-version=2023-12-01-preview onde

  • RESOURCE_NAME é o nome do recurso do Azure OpenAI
  • DEPLOYMENT_NAME é o nome da implantação do modelo GPT-4 Turbo with Vision

Cabeçalhos necessários:

  • Content-Type: application/json
  • api-key: {API_KEY}

Corpo: o seguinte é um corpo de solicitação de exemplo. O formato é o mesmo da API de conclusões de chat para GPT-4, exceto pelo fato de que o conteúdo da mensagem pode ser uma matriz contendo texto e imagens (uma URL HTTP ou HTTPS válida para uma imagem ou uma imagem codificada em base 64).

Importante

Lembre-se de definir um valor "max_tokens", caso contrário, a saída de retorno será cortada.

Importante

Ao carregar imagens, há um limite de dez imagens por solicitação de chat.

{
    "messages": [ 
        {
            "role": "system", 
            "content": "You are a helpful assistant." 
        },
        {
            "role": "user", 
            "content": [
	            {
	                "type": "text",
	                "text": "Describe this picture:"
	            },
	            {
	                "type": "image_url",
	                "image_url": {
                        "url": "<image URL>"
                    }
                } 
           ] 
        }
    ],
    "max_tokens": 100, 
    "stream": false 
} 

Dica

Usar uma imagem local

Se você quiser usar uma imagem local, poderá usar o seguinte código Python para convertê-la em base64 para que ela possa ser passada para a API. Ferramentas alternativas de conversão de arquivo estão disponíveis online.

import base64
from mimetypes import guess_type

# Function to encode a local image into data URL 
def local_image_to_data_url(image_path):
    # Guess the MIME type of the image based on the file extension
    mime_type, _ = guess_type(image_path)
    if mime_type is None:
        mime_type = 'application/octet-stream'  # Default MIME type if none is found

    # Read and encode the image file
    with open(image_path, "rb") as image_file:
        base64_encoded_data = base64.b64encode(image_file.read()).decode('utf-8')

    # Construct the data URL
    return f"data:{mime_type};base64,{base64_encoded_data}"

# Example usage
image_path = '<path_to_image>'
data_url = local_image_to_data_url(image_path)
print("Data URL:", data_url)

Quando os dados de imagem base64 estiverem prontos, você poderá passá-los para a API no corpo da solicitação da seguinte maneira:

...
"type": "image_url",
"image_url": {
   "url": "data:image/jpeg;base64,<your_image_data>"
}
...

Saída

A resposta da API deve ser semelhante à seguinte.

{
    "id": "chatcmpl-8VAVx58veW9RCm5K1ttmxU6Cm4XDX",
    "object": "chat.completion",
    "created": 1702439277,
    "model": "gpt-4",
    "prompt_filter_results": [
        {
            "prompt_index": 0,
            "content_filter_results": {
                "hate": {
                    "filtered": false,
                    "severity": "safe"
                },
                "self_harm": {
                    "filtered": false,
                    "severity": "safe"
                },
                "sexual": {
                    "filtered": false,
                    "severity": "safe"
                },
                "violence": {
                    "filtered": false,
                    "severity": "safe"
                }
            }
        }
    ],
    "choices": [
        {
            "finish_reason":"stop",
            "index": 0,
            "message": {
                "role": "assistant",
                "content": "The picture shows an individual dressed in formal attire, which includes a black tuxedo with a black bow tie. There is an American flag on the left lapel of the individual's jacket. The background is predominantly blue with white text that reads \"THE KENNEDY PROFILE IN COURAGE AWARD\" and there are also visible elements of the flag of the United States placed behind the individual."
            },
            "content_filter_results": {
                "hate": {
                    "filtered": false,
                    "severity": "safe"
                },
                "self_harm": {
                    "filtered": false,
                    "severity": "safe"
                },
                "sexual": {
                    "filtered": false,
                    "severity": "safe"
                },
                "violence": {
                    "filtered": false,
                    "severity": "safe"
                }
            }
        }
    ],
    "usage": {
        "prompt_tokens": 1156,
        "completion_tokens": 80,
        "total_tokens": 1236
    }
}

Todas as respostas incluem um campo "finish_details". Tem os seguintes valores possíveis:

  • stop: a API retornou a saída completa do modelo.
  • length: saída do modelo incompleta devido ao parâmetro de entrada max_tokens ou limite de tokens do modelo.
  • content_filter: conteúdo omitido devido a um sinalizador dos nossos filtros de conteúdo.

Detalhar as configurações de parâmetro no processamento de imagens: Baixo, Alto, Automático

O parâmetro detail no modelo oferece três opções: low, high ou auto, para ajustar a maneira como o modelo interpreta e processa imagens. A configuração padrão é automática, em que o modelo decide entre baixo ou alto com base no tamanho da entrada da imagem.

  • Configuração low: o modelo não ativa o modo "altas res", em vez disso, processa uma versão de resolução 512x512 mais baixa, resultando em respostas mais rápidas e redução do consumo de token para cenários em que detalhes finos não são cruciais.
  • Configuração high: o modelo ativa o modo "altas res". Aqui, o modelo exibe inicialmente a imagem de baixa resolução e, em seguida, gera segmentos detalhados de 512 x 512 da imagem de entrada. Cada segmento usa o dobro do orçamento do token, permitindo uma interpretação mais detalhada da imagem."

Para obter detalhes sobre como os parâmetros de imagem afetam tokens usados e preços, consulte – O que é OpenAI? Tokens de imagem com GPT-4 Turbo com Visão

Usar o aprimoramento do Visão com imagens

O GPT-4 Turbo with Vision fornece acesso exclusivo aos aprimoramentos personalizados dos Serviços de IA do Azure. Quando combinado com a Visão de IA do Azure, ele aprimora sua experiência de chat fornecendo ao modelo de chat informações mais detalhadas sobre texto visível na imagem e nos locais dos objetos.

A integração do OCR (reconhecimento óptico de caracteres) permite que o modelo produza respostas de qualidade mais altas para texto denso, imagens transformadas e documentos financeiros com número pesado. Ele também abrange uma gama mais ampla de idiomas.

A integração de aterramento de objetos traz uma nova camada para análise de dados e interação do usuário, pois o recurso pode distinguir e realçar elementos importantes visualmente nas imagens que processa.

Importante

Para usar o aprimoramento da Visão com um recurso do OpenAI do Azure, você precisa especificar um recurso de Pesquisa Visual Computacional. Ele precisa estar na camada paga (S1) e na mesma região do Azure que o GPT-4 Turbo com recurso de Visão. Se você estiver usando um recurso dos Serviços de IA do Azure, não precisará de um recurso adicional da Pesquisa Visual Computacional.

Cuidado

Os aprimoramentos de IA do Azure para GPT-4 Turbo with Vision serão cobrados separadamente das principais funcionalidades. Cada aprimoramento específico da IA do Azure para GPT-4 Turbo with Vision tem seus próprios encargos distintos. Para obter detalhes, consulte as informações sobre preços especiais.

Enviar uma solicitação POST para https://{RESOURCE_NAME}.openai.azure.com/openai/deployments/{DEPLOYMENT_NAME}/extensions/chat/completions?api-version=2023-12-01-preview onde

  • RESOURCE_NAME é o nome do recurso do Azure OpenAI
  • DEPLOYMENT_NAME é o nome da implantação do modelo GPT-4 Turbo with Vision

Cabeçalhos necessários:

  • Content-Type: application/json
  • api-key: {API_KEY}

Corpo:

O formato é semelhante ao da API de conclusões de chat para GPT-4, mas o conteúdo da mensagem pode ser uma matriz contendo cadeias de caracteres e imagens (uma URL HTTP ou HTTPS válida para uma imagem ou uma imagem codificada em base 64).

Você também deve incluir os objetos enhancements e dataSources. enhancements representa os recursos específicos de aprimoramento do Visão solicitados no chat. Tem uma propriedade grounding e ocr, cada uma tem uma propriedade enabled booliana. Use-as para solicitar o serviço OCR e/ou o serviço de detecção/aterramento de objetos. dataSources representa os dados de recursos da Pesquisa Visual Computacional necessários para o aprimoramento do Visão. Ele tem uma propriedade type que deve ser uma propriedade "AzureComputerVision" e parameters. Defina a URL do ponto de extremidade endpoint e key e a chave de acesso do recurso de Pesquisa Visual Computacional.

Importante

Lembre-se de definir um valor "max_tokens", caso contrário, a saída de retorno será cortada.

{
    "enhancements": {
            "ocr": {
              "enabled": true
            },
            "grounding": {
              "enabled": true
            }
    },
    "dataSources": [
    {
        "type": "AzureComputerVision",
        "parameters": {
            "endpoint": "<your_computer_vision_endpoint>",
            "key": "<your_computer_vision_key>"
        }
    }],
    "messages": [
        {
            "role": "system",
            "content": "You are a helpful assistant."
        },
        {
            "role": "user",
            "content": [
	            {
	                "type": "text",
	                "text": "Describe this picture:"
	            },
	            {
	                "type": "image_url",
	                "image_url": {
                        "url":"<image URL>" 
                    }
                }
           ] 
        }
    ],
    "max_tokens": 100, 
    "stream": false 
} 

Saída

As respostas de chat recebidas do modelo agora devem incluir informações aprimoradas sobre a imagem, como rótulos de objeto e caixas delimitadoras, e resultados do OCR. A resposta da API deve ser semelhante à seguinte.

{
    "id": "chatcmpl-8UyuhLfzwTj34zpevT3tWlVIgCpPg",
    "object": "chat.completion",
    "created": 1702394683,
    "model": "gpt-4",
    "choices":
    [
        {
            "finish_details": {
                "type": "stop",
                "stop": "<|fim_suffix|>"
            },
            "index": 0,
            "message":
            {
                "role": "assistant",
                "content": "The image shows a close-up of an individual with dark hair and what appears to be a short haircut. The person has visible ears and a bit of their neckline. The background is a neutral light color, providing a contrast to the dark hair."
            },
            "enhancements":
            {
                "grounding":
                {
                    "lines":
                    [
                        {
                            "text": "The image shows a close-up of an individual with dark hair and what appears to be a short haircut. The person has visible ears and a bit of their neckline. The background is a neutral light color, providing a contrast to the dark hair.",
                            "spans":
                            [
                                {
                                    "text": "the person",
                                    "length": 10,
                                    "offset": 99,
                                    "polygon": [{"x":0.11950000375509262,"y":0.4124999940395355},{"x":0.8034999370574951,"y":0.4124999940395355},{"x":0.8034999370574951,"y":0.6434999704360962},{"x":0.11950000375509262,"y":0.6434999704360962}]
                                }
                            ]
                        }
                    ],
                    "status": "Success"
                }
            }
        }
    ],
    "usage":
    {
        "prompt_tokens": 816,
        "completion_tokens": 49,
        "total_tokens": 865
    }
}

Todas as respostas incluem um campo "finish_details". Tem os seguintes valores possíveis:

  • stop: a API retornou a saída completa do modelo.
  • length: saída do modelo incompleta devido ao parâmetro de entrada max_tokens ou limite de tokens do modelo.
  • content_filter: conteúdo omitido devido a um sinalizador dos nossos filtros de conteúdo.

Usar o aprimoramento do Visão com vídeo

O GPT-4 Turbo with Vision fornece acesso exclusivo aos aprimoramentos personalizados dos Serviços de IA do Azure. A integração de prompt de vídeo usa a recuperação de vídeo da Visão de IA do Azure para amostrar um conjunto de quadros de um vídeo e criar uma transcrição da fala no vídeo. Ele permite que o modelo de IA forneça resumos e respostas sobre o conteúdo do vídeo.

Siga estas etapas para configurar um sistema de recuperação de vídeo e integrá-lo ao seu modelo de chat de IA.

Importante

Para usar o aprimoramento da Visão com um recurso do OpenAI do Azure, você precisa especificar um recurso de Pesquisa Visual Computacional. Ele precisa estar na camada paga (S1) e na mesma região do Azure que o GPT-4 Turbo com recurso de Visão. Se você estiver usando um recurso dos Serviços de IA do Azure, não precisará de um recurso adicional da Pesquisa Visual Computacional.

Cuidado

Os aprimoramentos de IA do Azure para GPT-4 Turbo with Vision serão cobrados separadamente das principais funcionalidades. Cada aprimoramento específico da IA do Azure para GPT-4 Turbo with Vision tem seus próprios encargos distintos. Para obter detalhes, consulte as informações sobre preços especiais.

Dica

Se preferir, você pode executar as etapas abaixo usando um notebook Jupyter: notebook de conclusões de chats de vídeo.

Carregar vídeos no Armazenamento de Blobs do Azure

Você precisa carregar seus vídeos em um contêiner do Armazenamento de Blobs do Azure. Crie uma nova conta de armazenamento se você ainda não tiver uma.

Depois que seus vídeos forem carregados, você poderá obter suas URLs SAS, que serão usadas para acessá-los em etapas posteriores.

Garantir o acesso de leitura adequado

Dependendo do método de autenticação, talvez seja necessário executar algumas etapas extras para conceder acesso ao contêiner do Armazenamento de Blobs do Azure. Se você estiver usando um recurso dos Serviços de IA do Azure em vez de um recurso do OpenAI do Azure, precisará usar identidades gerenciadas para conceder a ele acesso de leitura ao Armazenamento de Blobs do Azure:

Habilite as identidades atribuídas pelo sistema no recurso dos Serviços de IA do Azure seguindo estas etapas:

  1. Em seu recurso dos Serviços de IA no portal do Azure, selecione Gerenciamento de Recursos ->Identidade e alterne o status para ATIVADO.
  2. Atribua acesso de Leitura de Dados do Blob de Armazenamento ao recurso de Serviços de IA: Na página Identidade, selecione Atribuições de função do Azure e, em seguida, Adicionar atribuição de função com as seguintes configurações:
    • escopo: armazenamento
    • assinatura: {sua assinatura}
    • Recurso: {selecione o recurso de Armazenamento de Blobs do Azure}
    • Função: Leitor de Dados do Blob de Armazenamento
  3. Salve suas configurações.

Criar um índice de recuperação de vídeo

  1. Obtenha um recurso do Visão de IA do Azure na mesma região que o recurso do OpenAI do Azure que você está usando.

  2. Crie um índice para armazenar e organizar os arquivos de vídeo e seus metadados. O comando de exemplo abaixo demonstra como criar um índice chamado my-video-index usando a API Criar Índice. Salve o nome do índice em um local temporário; você precisará dele em etapas posteriores.

    Dica

    Para obter instruções mais detalhadas sobre como criar um índice de vídeo, confira Recuperação de vídeo usando vetorização.

    Importante

    Um nome de índice de vídeo pode ter até 24 caracteres, a menos que seja um GUID, que pode ter 36 caracteres.

    curl.exe -v -X PUT "https://<YOUR_ENDPOINT_URL>/computervision/retrieval/indexes/my-video-index?api-version=2023-05-01-preview" -H "Ocp-Apim-Subscription-Key: <YOUR_SUBSCRIPTION_KEY>" -H "Content-Type: application/json" --data-ascii "
    {
      'metadataSchema': {
        'fields': [
          {
            'name': 'cameraId',
            'searchable': false,
            'filterable': true,
            'type': 'string'
          },
          {
            'name': 'timestamp',
            'searchable': false,
            'filterable': true,
            'type': 'datetime'
          }
        ]
      },
      'features': [
        {
          'name': 'vision',
          'domain': 'surveillance'
        },
        {
          'name': 'speech'
        }
      ]
    }"
    
  3. Adicione arquivos de vídeo ao índice com seus metadados associados. O exemplo a seguir demonstra como adicionar dois arquivos de vídeo ao índice usando URLs SAS com a API Criar Ingestão. Salve as URLs da SAS e os valores documentId em um local temporário; você precisará deles em etapas posteriores.

    curl.exe -v -X PUT "https://<YOUR_ENDPOINT_URL>/computervision/retrieval/indexes/my-video-index/ingestions/my-ingestion?api-version=2023-05-01-preview" -H "Ocp-Apim-Subscription-Key: <YOUR_SUBSCRIPTION_KEY>" -H "Content-Type: application/json" --data-ascii "
    {
      'videos': [
        {
          'mode': 'add',
          'documentId': '02a504c9cd28296a8b74394ed7488045',
          'documentUrl': 'https://example.blob.core.windows.net/videos/02a504c9cd28296a8b74394ed7488045.mp4?sas_token_here',
          'metadata': {
            'cameraId': 'camera1',
            'timestamp': '2023-06-30 17:40:33'
          }
        },
        {
          'mode': 'add',
          'documentId': '043ad56daad86cdaa6e493aa11ebdab3',
          'documentUrl': '[https://example.blob.core.windows.net/videos/043ad56daad86cdaa6e493aa11ebdab3.mp4?sas_token_here',
          'metadata': {
            'cameraId': 'camera2'
          }
        }
      ]
    }"
    
  4. Após você adicionar arquivos de vídeo ao índice, o processo de ingestão será iniciado. Isso pode levar algum tempo, dependendo do tamanho e do número de arquivos. Para garantir que a ingestão seja concluída antes de executar pesquisas, você pode usar a API Obter Ingestão para verificar o status. Aguarde até que essa chamada retorne "state" = "Completed" antes de prosseguir para a próxima etapa.

    curl.exe -v -X GET "https://<YOUR_ENDPOINT_URL>/computervision/retrieval/indexes/my-video-index/ingestions?api-version=2023-05-01-preview&$top=20" -H "ocp-apim-subscription-key: <YOUR_SUBSCRIPTION_KEY>"
    

Integre seu índice de vídeo com o GPT-4 Turbo com o Vision

  1. Preparar uma solicitação POST para https://{RESOURCE_NAME}.openai.azure.com/openai/deployments/{DEPLOYMENT_NAME}/extensions/chat/completions?api-version=2023-12-01-preview onde

    • RESOURCE_NAME é o nome do recurso do Azure OpenAI
    • DEPLOYMENT_NAME é o nome da implantação do modelo GPT-4 Vision

    Cabeçalhos necessários:

    • Content-Type: application/json
    • api-key: {API_KEY}
  2. Adicione a seguinte estrutura JSON no corpo da solicitação:

    {
        "enhancements": {
                "video": {
                  "enabled": true
                }
        },
        "dataSources": [
        {
            "type": "AzureComputerVisionVideoIndex",
            "parameters": {
                "computerVisionBaseUrl": "<your_computer_vision_endpoint>",
                "computerVisionApiKey": "<your_computer_vision_key>",
                "indexName": "<name_of_your_index>",
                "videoUrls": ["<your_video_SAS_URL>"]
            }
        }],
        "messages": [ 
            {
                "role": "system", 
                "content": "You are a helpful assistant." 
            },
            {
                "role": "user",
                "content": [
                        {
                            "type": "acv_document_id",
                            "acv_document_id": "<your_video_ID>"
                        },
                        {
                            "type": "text",
                            "text": "Describe this video:"
                        }
                    ]
            }
        ],
        "max_tokens": 100, 
    } 
    

    A solicitação inclui os objetos enhancements e dataSources. enhancements representa os recursos específicos de aprimoramento do Visão solicitados no chat. dataSources representa os dados de recursos da Pesquisa Visual Computacional necessários para o aprimoramento do Visão. Ele tem uma propriedade type que deve ser "AzureComputerVisionVideoIndex" e uma propriedade parameters que contém sua Visão de IA e informações de vídeo.

  3. Preencha todos os <placeholder> campos acima com suas próprias informações: insira as URLs de ponto de extremidade e as chaves de seus recursos do OpenAI e da Visão de IA, quando apropriado, e recupere as informações de índice de vídeo da etapa anterior.

  4. Envie a solicitação POST para o ponto de extremidade da API. Ele deve conter suas credenciais do OpenAI e da Visão de IA, o nome do índice de vídeo e a ID e a URL SAS de um único vídeo.

Importante

O conteúdo do objeto "data_sources" varia de acordo com o tipo de recurso do Azure e o método de autenticação que você está usando. Confira a seguinte referência:

"data_sources": [
{
    "type": "AzureComputerVisionVideoIndex",
    "parameters": {
    "endpoint": "<your_computer_vision_endpoint>",
    "computerVisionApiKey": "<your_computer_vision_key>",
    "indexName": "<name_of_your_index>",
    "videoUrls": ["<your_video_SAS_URL>"]
    }
}],

Saída

As respostas de chat recebidas do modelo devem incluir informações sobre o vídeo. A resposta da API deve ser semelhante à seguinte.

{
    "id": "chatcmpl-8V4J2cFo7TWO7rIfs47XuDzTKvbct",
    "object": "chat.completion",
    "created": 1702415412,
    "model": "gpt-4",
    "choices":
    [
        {
            "finish_reason":"stop",
            "index": 0,
            "message":
            {
                "role": "assistant",
                "content": "The advertisement video opens with a blurred background that suggests a serene and aesthetically pleasing environment, possibly a workspace with a nature view. As the video progresses, a series of frames showcase a digital interface with search bars and prompts like \"Inspire new ideas,\" \"Research a topic,\" and \"Organize my plans,\" suggesting features of a software or application designed to assist with productivity and creativity.\n\nThe color palette is soft and varied, featuring pastel blues, pinks, and purples, creating a calm and inviting atmosphere. The backgrounds of some frames are adorned with abstract, organically shaped elements and animations, adding to the sense of innovation and modernity.\n\nMidway through the video, the focus shifts to what appears to be a browser or software interface with the phrase \"Screens simulated, subject to change; feature availability and timing may vary,\" indicating the product is in development and that the visuals are illustrative of its capabilities.\n\nThe use of text prompts continues with \"Help me relax,\" followed by a demonstration of a 'dark mode' feature, providing a glimpse into the software's versatility and user-friendly design.\n\nThe video concludes by revealing the product name, \"Copilot,\" and positioning it as \"Your everyday AI companion,\" implying the use of artificial intelligence to enhance daily tasks. The final frames feature the Microsoft logo, associating the product with the well-known technology company.\n\nIn summary, the advertisement video is for a Microsoft product named \"Copilot,\" which seems to be an AI-powered software tool aimed at improving productivity, creativity, and organization for its users. The video conveys a message of innovation, ease, and support in daily digital interactions through a visually appealing and calming presentation."
            }
        }
    ],
    "usage":
    {
        "prompt_tokens": 2068,
        "completion_tokens": 341,
        "total_tokens": 2409
    }
}

Todas as respostas incluem um campo "finish_details". Tem os seguintes valores possíveis:

  • stop: a API retornou a saída completa do modelo.
  • length: saída do modelo incompleta devido ao parâmetro de entrada max_tokens ou limite de tokens do modelo.
  • content_filter: conteúdo omitido devido a um sinalizador dos nossos filtros de conteúdo.

Exemplo de preços para prompts de vídeo

O preço do GPT-4 Turbo com Visão é dinâmico e depende dos recursos e entradas específicos usados. Para obter uma visão abrangente dos preços do Azure OpenAI, consulte os preços do Azure OpenAI.

Os encargos base e os recursos adicionais são descritos abaixo:

O preço base do GPT-4 Turbo com Visão é:

  • Entrada: $0,01 por 1000 tokens
  • Saída: $0,03 por 1000 tokens

Integração do prompt de vídeo com o Complemento de Recuperação de Vídeo:

  • Ingestão: $0,05 por minuto de vídeo
  • Transações: US$ 0,25 por 1.000 consultas de recuperação de vídeo

Próximas etapas