Guia de início rápido: comece a usar o GPT-4 Turbo com Visão em suas imagens e vídeos no Azure AI Studio

Artigo
05/21/2024

Importante

Alguns dos recursos descritos neste artigo podem estar disponíveis apenas na visualização. Essa visualização é fornecida sem um contrato de nível de serviço e não a recomendamos para cargas de trabalho de produção. Algumas funcionalidades poderão não ser suportadas ou poderão ter capacidades limitadas. Para obter mais informações, veja Termos Suplementares de Utilização para Pré-visualizações do Microsoft Azure.

Use este artigo para começar a usar o Azure AI Studio para implantar e testar o modelo GPT-4 Turbo with Vision.

O GPT-4 Turbo com Visão e o Azure AI Vision oferecem funcionalidades avançadas, incluindo:

Reconhecimento ótico de caracteres (OCR): extrai texto de imagens e combina-o com o prompt e a imagem do usuário para expandir o contexto.
Aterramento de objetos: Complementa o GPT-4 Turbo com resposta de texto Vision com aterramento de objetos e delineia objetos salientes nas imagens de entrada.
Prompts de vídeo: GPT-4 Turbo com visão pode responder a perguntas recuperando os quadros de vídeo mais relevantes para o prompt do usuário.

Taxas de uso adicionais podem ser aplicadas ao usar o GPT-4 Turbo com a funcionalidade Visão e Azure AI Vision.

Pré-requisitos

Uma assinatura do Azure - Crie uma gratuitamente.
Acesso concedido ao Azure OpenAI na subscrição pretendida do Azure. Atualmente, o acesso a este serviço é concedido apenas por pedido. Você pode solicitar acesso ao Azure OpenAI preenchendo o formulário em https://aka.ms/oai/access. Abra um problema neste repositório para entrar em contato conosco se tiver um problema.
Depois de ter sua assinatura do Azure, crie um recurso do Azure OpenAI .
Um hub do AI Studio com seu recurso Azure OpenAI adicionado como uma conexão.

Prepare os seus conteúdos multimédia

Você precisa de uma imagem para concluir os inícios rápidos da imagem. Você pode usar esta imagem de exemplo ou qualquer outra imagem disponível.

Para solicitações de vídeo, você precisa de um vídeo com menos de três minutos de duração.

Implante um modelo GPT-4 Turbo com Visão

Entre no Azure AI Studio e selecione o hub no qual você gostaria de trabalhar.
No menu de navegação esquerdo, selecione Serviços AI. Selecione o painel Experimentar GPT-4 Turbo .
Na página gpt-4, selecione Implantar. Na janela exibida, selecione seu recurso Azure OpenAI. Selecione vision-preview como a versão do modelo.
Selecione Implementar.
Em seguida, vá para a página do seu novo modelo e selecione Abrir no playground. No playground de bate-papo, a implantação GPT-4 que você criou deve ser selecionada no menu suspenso Implantação .

Nesta sessão de chat, você instrui o assistente a ajudar a entender as imagens que você inserir.

Na caixa de texto Mensagem do sistema na guia Mensagem do sistema, forneça este prompt para orientar o assistente: "You're an AI assistant that helps people find information." Você pode adaptar o prompt à sua imagem ou cenário.
Selecione Aplicar alterações para salvar as alterações.
No painel de sessões de chat, selecione o botão de anexo e, em seguida, Carregar imagem. Escolha a sua imagem.
Adicione a seguinte pergunta no campo de chat: "Describe this image"e, em seguida, selecione o ícone de seta para a direita para enviar.
O ícone de seta para a direita é substituído por um botão Parar. Se você selecioná-lo, o assistente para de processar sua solicitação. Para este início rápido, deixe o assistente terminar sua resposta.
O assistente responde com uma descrição da imagem.
Faça uma pergunta de acompanhamento relacionada com a análise da sua imagem. Você poderia entrar, "What should I highlight about this image to my insurance company?".

Você deve receber uma resposta relevante semelhante à mostrada aqui:

When reporting the incident to your insurance company, you should highlight the following key points from the image:  

1. **Location of Damage**: Clearly state that the front end of the car, particularly the driver's side, is damaged. Mention the crumpled hood, broken front bumper, and the damaged left headlight.  

2. **Point of Impact**: Indicate that the car has collided with a guardrail, which may suggest that no other vehicles were involved in the accident.  

3. **Condition of the Car**: Note that the damage seems to be concentrated on the front end, and there is no visible damage to the windshield or rear of the car from this perspective.  

4. **License Plate Visibility**: Mention that the license plate is intact and can be used for identification purposes.  

5. **Environment**: Report that the accident occurred near a roadside with a guardrail, possibly in a rural or semi-rural area, which might help in establishing the accident location and context.  

6. **Other Observations**: If there were any other circumstances or details not visible in the image that may have contributed to the accident, such as weather conditions, road conditions, or any other relevant information, be sure to include those as well.  

Remember to be factual and descriptive, avoiding speculation about the cause of the accident, as the insurance company will conduct its own investigation.

Nesta sessão de chat, você instrui o assistente a ajudar a entender as imagens que você inserir. Experimente as capacidades do modelo de visão aumentada.

No painel Aprimoramentos, no lado esquerdo da janela de bate-papo, ative a opção Visão. Na janela exibida, selecione seu recurso de Visão de Computador do Azure.
Na caixa de texto Mensagem do sistema na guia Mensagem do sistema, forneça este prompt para orientar o assistente: "You're an AI assistant that helps people find information." Você pode adaptar o prompt à sua imagem ou cenário. Selecione Aplicar alterações para salvar as alterações.
No painel de sessões de chat, selecione o botão de anexo e, em seguida, Carregar imagem. Escolha a sua imagem.
Adicione a seguinte pergunta no campo de chat: "Describe this image"e, em seguida, selecione o ícone de seta para a direita para enviar.
O ícone de seta para a direita é substituído por um botão Parar. Se você selecioná-lo, o assistente para de processar sua solicitação. Para este início rápido, deixe o assistente terminar sua resposta.
O assistente responde com uma descrição da imagem. Ele usa o serviço Azure AI Vision para extrair mais detalhes da imagem que você carregou.
Faça uma pergunta de acompanhamento relacionada com a análise da sua imagem. Enter e, em seguida, "What should I highlight about this image to my insurance company?" selecione o ícone de seta para a direita para enviar.

Você deve receber uma resposta relevante semelhante à mostrada aqui:

When reporting the incident to your insurance company, you should highlight the following key points from the image:  

1. **Location of Damage**: Clearly state that the front end of the car, particularly the driver's side, is damaged. Mention the crumpled hood, broken front bumper, and the damaged left headlight.  

2. **Point of Impact**: Indicate that the car has collided with a guardrail, which may suggest that no other vehicles were involved in the accident.  

3. **Condition of the Car**: Note that the damage seems to be concentrated on the front end, and there is no visible damage to the windshield or rear of the car from this perspective.  

4. **License Plate Visibility**: Mention that the license plate is intact and can be used for identification purposes.  

5. **Environment**: Report that the accident occurred near a roadside with a guardrail, possibly in a rural or semi-rural area, which might help in establishing the accident location and context.  

6. **Other Observations**: If there were any other circumstances or details not visible in the image that may have contributed to the accident, such as weather conditions, road conditions, or any other relevant information, be sure to include those as well.  

Remember to be factual and descriptive, avoiding speculation about the cause of the accident, as the insurance company will conduct its own investigation.

Nesta sessão de bate-papo, você está instruindo o assistente para ajudar a entender os vídeos inseridos. O assistente extrai vários quadros do vídeo e usa-os para responder às suas perguntas.

No painel Aprimoramentos, no lado esquerdo da janela de bate-papo, ative a opção Visão. Na janela exibida, selecione seu recurso de Visão de Computador do Azure.
Na caixa de texto Mensagem do sistema na guia Mensagem do sistema, forneça este prompt para orientar o assistente: "You're an AI assistant that helps people find information." Você pode adaptar o prompt à sua imagem ou cenário.
Selecione Aplicar alterações para salvar as alterações.
No painel da sessão de chat, selecione o botão de anexo e, em seguida, Carregar vídeo. Escolha o seu vídeo.
Insira um prompt de texto como e, em seguida, "Provide details about this video"selecione o ícone de seta para a direita para enviar.
O ícone de seta para a direita é substituído por um botão Parar. Se você selecioná-lo, o assistente para de processar sua solicitação. Para este início rápido, deixe o assistente terminar sua resposta.
O assistente deve responder com uma descrição do vídeo.
Sinta-se à vontade para fazer quaisquer perguntas de acompanhamento relacionadas com a análise do seu vídeo.

Limitações

Abaixo estão as limitações conhecidas dos aprimoramentos do prompt de vídeo.

Baixa resolução: Os quadros são analisados usando GPT-4 Turbo com a configuração de "baixa resolução" do Vision, o que pode afetar a precisão do reconhecimento de pequenos objetos e texto no vídeo.
Limites de arquivos de vídeo: Os tipos de arquivo MP4 e MOV são suportados. No Azure AI Studio Playground, os vídeos devem ter menos de 3 minutos de duração. Quando você usa a API, não há essa limitação.
Limites de prompt: os prompts de vídeo contêm apenas um vídeo e nenhuma imagem. No Playground, você pode limpar a sessão para tentar com outro vídeo ou imagens.
Seleção limitada de quadros: Atualmente, o sistema seleciona 20 quadros de todo o vídeo, que podem não capturar todos os momentos críticos ou detalhes. A seleção de quadros pode ser distribuída uniformemente pelo vídeo ou focada por uma consulta específica de recuperação de vídeo, dependendo do prompt.
Suporte a idiomas: Atualmente, o sistema suporta principalmente o inglês para fundamentação com transcrições. As transcrições não fornecem informações precisas sobre as letras das músicas.

Ver e exportar código

A qualquer momento da sessão de chat, você pode ativar a opção Mostrar JSON bruto na parte superior da janela de bate-papo para ver a conversa formatada como JSON. Veja como é no início da sessão de bate-papo de início rápido:

[
	{
		"role": "system",
		"content": [
			"You are an AI assistant that helps people find information."
		]
	},
]

Clean up resources (Limpar recursos)

Para evitar incorrer em custos desnecessários do Azure, você deve excluir os recursos criados neste início rápido se eles não forem mais necessários. Para gerenciar recursos, você pode usar o portal do Azure.

Próximos passos

Criar um projeto
Saiba mais sobre o Azure AI Vision.
Saiba mais sobre os modelos OpenAI do Azure.

Partilhar via