Guia de início rápido: use imagens em seus bate-papos de IA

Artigo
07/24/2024

Comece a usar o GPT-4 Turbo com imagens com o Serviço OpenAI do Azure.

Atualização do modelo GPT-4 Turbo

A última versão GA do GPT-4 Turbo é:

gpt-4Versão: turbo-2024-04-09

Este é o substituto para os seguintes modelos de pré-visualização:

gpt-4Versão: 1106-Preview
gpt-4Versão: 0125-Preview
gpt-4Versão: vision-preview

Diferenças entre OpenAI e Azure OpenAI GPT-4 Turbo GA Models

A versão OpenAI do mais recente 0409 modelo turbo suporta o modo JSON e a função chamando para todas as solicitações de inferência.
A versão mais recente turbo-2024-04-09 do Azure OpenAI atualmente não oferece suporte ao uso do modo JSON e da chamada de função ao fazer solicitações de inferência com entrada de imagem (visão). As solicitações de entrada baseadas em texto (solicitações sem image_url e imagens embutidas) suportam o modo JSON e a chamada de função.

Diferenças do gpt-4 vision-preview

A integração de aprimoramentos de Visão específicos da IA do Azure com o GPT-4 Turbo com Visão não é suportada para gpt-4 a Versão: turbo-2024-04-09. Isso inclui Reconhecimento Ótico de Caracteres (OCR), aterramento de objetos, prompts de vídeo e processamento aprimorado de seus dados com imagens.

Disponibilidade gerenciada provisionada GPT-4 Turbo

gpt-4Versão: turbo-2024-04-09 está disponível para implantações padrão e provisionadas. Atualmente, a versão provisionada deste modelo não suporta solicitações de inferência de imagem/visão. As implantações provisionadas desse modelo só aceitam entrada de texto. As implantações de modelo padrão aceitam solicitações de inferência de texto e imagem/visão.

Disponibilidade da região

Para obter informações sobre a disponibilidade regional do modelo, consulte a matriz do modelo para implantações padrão e provisionadas.

Implantando o GPT-4 Turbo com o Vision GA

Para implantar o modelo GA a partir da interface do usuário do Studio, selecione GPT-4 e escolha a turbo-2024-04-09 versão no menu suspenso. A cota padrão para o gpt-4-turbo-2024-04-09 modelo será a mesma cota atual para GPT-4-Turbo. Consulte os limites das quotas regionais.

Comece a explorar os recursos do GPT-4 Turbo com Visão com uma abordagem sem código por meio do Azure OpenAI Studio.

Pré-requisitos

Uma subscrição do Azure. Crie um gratuitamente.
Um recurso do Serviço OpenAI do Azure com um modelo GPT-4 Turbo com Visão implantado. Consulte a disponibilidade dos modelos GPT-4 e GPT-4 Turbo Preview para obter as regiões disponíveis. Para obter mais informações sobre a criação de recursos, consulte o guia de implantação de recursos.
Para aprimoramento de Visão (opcional): um recurso de Visão de Computador do Azure na mesma região que seu recurso OpenAI do Azure, na camada paga (S1).

Nota

Atualmente, não há suporte para desativar a filtragem de conteúdo para o modelo GPT-4 Turbo with Vision.

Ir para o Azure OpenAI Studio

Navegue até Azure OpenAI Studio e entre com as credenciais associadas ao seu recurso do Azure OpenAI. Durante ou após o fluxo de trabalho de entrada, selecione o diretório apropriado, a assinatura do Azure e o recurso do Azure OpenAI.

Em Gerenciamento, selecione Implantações e Criar uma implantação GPT-4 Turbo com Visão selecionando o nome do modelo: "gpt-4" e a versão do modelo "vision-preview". Para obter mais informações sobre a implementação de modelos, veja o guia de implementação de recursos.

Na seção Playground, selecione Chat.

Parque Infantil

Nesta página, você pode iterar e experimentar rapidamente os recursos do modelo.

Para obter ajuda geral com a configuração do assistente, sessões de chat, configurações e painéis, consulte o Guia de início rápido do bate-papo.

Iniciar uma sessão de chat para analisar imagens ou vídeos

Nesta sessão de bate-papo, você está instruindo o assistente para ajudar a entender as imagens que você inserir.

Para começar, selecione sua implantação GPT-4 Turbo com Visão na lista suspensa.
No painel de configuração do Assistente, forneça uma Mensagem do Sistema para orientar o assistente. A mensagem padrão do sistema é: "Você é um assistente de IA que ajuda as pessoas a encontrar informações". Pode adaptar a Mensagem do Sistema à imagem ou cenário que está a carregar.

Nota

Recomenda-se atualizar a mensagem do sistema para ser específica para a tarefa, a fim de evitar respostas inúteis do modelo.
Salve as alterações e, quando solicitado a confirmar a atualização da mensagem do sistema, selecione Continuar.
No painel Sessão de chat, insira um prompt de texto como "Descrever esta imagem" e carregue uma imagem com o botão de anexo. Você pode usar um prompt de texto diferente para seu caso de uso. Em seguida, selecione Enviar.
Observe a saída fornecida. Considere fazer perguntas de acompanhamento relacionadas com a análise da sua imagem para saber mais.

Clean up resources (Limpar recursos)

Se quiser limpar e remover um recurso do Azure OpenAI, você pode excluir o recurso ou grupo de recursos. A exclusão do grupo de recursos também exclui quaisquer outros recursos associados a ele.

Use este artigo para começar a usar as APIs REST do Azure OpenAI para implantar e usar o modelo GPT-4 Turbo with Vision.

Pré-requisitos

Uma subscrição do Azure. Crie um gratuitamente.
Python 3.8 ou versão posterior.
As seguintes bibliotecas Python: requests, json.
Um recurso do Serviço OpenAI do Azure com um modelo GPT-4 Turbo com Visão implantado. Consulte a disponibilidade dos modelos GPT-4 e GPT-4 Turbo Preview para obter as regiões disponíveis. Para obter mais informações sobre a criação de recursos, consulte o guia de implantação de recursos.
Para aprimoramento de Visão (opcional): um recurso de Visão de Computador do Azure na mesma região que seu recurso OpenAI do Azure, na camada paga (S1).

Nota

Atualmente, não há suporte para desativar a filtragem de conteúdo para o modelo GPT-4 Turbo with Vision.

Recuperar chave e ponto de extremidade

Para chamar com êxito as APIs do Azure OpenAI, você precisa das seguintes informações sobre seu recurso do Azure OpenAI:

Variável	Nome	Valor
Ponto final	`api_base`	O valor do ponto de extremidade está localizado em Chaves e Ponto de Extremidade para seu recurso no portal do Azure. Em alternativa, pode encontrar o valor em Azure OpenAI Studio>Ambiente de Demonstração>Vista de Código. Um exemplo de ponto de extremidade é: `https://docs-test-001.openai.azure.com/`.
Chave	`api_key`	O valor da chave também está localizado em Chaves e Ponto de Extremidade para seu recurso no portal do Azure. O Azure gera duas chaves para o seu recurso. Você pode usar qualquer um dos valores.

Vá para o seu recurso no portal do Azure. No painel de navegação, selecione Chaves e Ponto Final em Gerenciamento de Recursos. Copie o valor Endpoint e um valor de chave de acesso. Você pode usar o valor KEY 1 ou KEY 2 . Ter duas chaves permite que você gire e regenere chaves com segurança sem causar uma interrupção do serviço.

Criar uma aplicação Python nova

Crie um novo arquivo Python chamado quickstart.py. Abra o novo arquivo em seu editor ou IDE preferido.

Substitua o conteúdo do quickstart.py pelo código a seguir.

# Packages required:
import requests 
import json 

api_base = '<your_azure_openai_endpoint>' 
deployment_name = '<your_deployment_name>'
API_KEY = '<your_azure_openai_key>'

base_url = f"{api_base}openai/deployments/{deployment_name}" 
headers = {   
    "Content-Type": "application/json",   
    "api-key": API_KEY 
} 

# Prepare endpoint, headers, and request body 
endpoint = f"{base_url}/chat/completions?api-version=2023-12-01-preview" 
data = { 
    "messages": [ 
        { "role": "system", "content": "You are a helpful assistant." }, 
        { "role": "user", "content": [  
            { 
                "type": "text", 
                "text": "Describe this picture:" 
            },
            { 
                "type": "image_url",
                "image_url": {
                    "url": "<image URL>"
                }
            }
        ] } 
    ], 
    "max_tokens": 2000 
}   

# Make the API call   
response = requests.post(endpoint, headers=headers, data=json.dumps(data))   

print(f"Status Code: {response.status_code}")   
print(response.text)

Efetue as seguintes alterações:
1. Insira o URL e a chave do ponto final nos campos apropriados.
2. Insira o nome da implantação do GPT-4 Turbo with Vision no campo apropriado.
3. Altere o "image" valor do campo para o URL da sua imagem.
  
  Gorjeta
  
  Você também pode usar uma base 64 dados de imagem codificados em vez de uma URL. Para obter mais informações, consulte o guia de instruções do GPT-4 Turbo with Vision.
Execute o aplicativo com o python comando:
```
python quickstart.py
```

O GPT-4 Turbo com Visão fornece acesso exclusivo aos aprimoramentos personalizados dos Serviços de IA do Azure. Quando combinado com o Azure AI Vision, melhora a sua experiência de chat fornecendo ao modelo de chat informações mais detalhadas sobre o texto visível na imagem e a localização dos objetos.

A integração de reconhecimento ótico de caracteres (OCR) permite que o modelo produza respostas de maior qualidade para texto denso, imagens transformadas e documentos financeiros com muitos números. Abrange igualmente um leque mais vasto de línguas.

A integração de aterramento de objetos traz uma nova camada para a análise de dados e interação do usuário, já que o recurso pode distinguir visualmente e destacar elementos importantes nas imagens que processa.

Atenção

Os aprimoramentos de IA do Azure para GPT-4 Turbo com Visão serão cobrados separadamente das funcionalidades principais. Cada aprimoramento específico da IA do Azure para GPT-4 Turbo com Visão tem suas próprias cobranças distintas. Para obter detalhes, consulte as informações de preços especiais.

Importante

As melhorias de visão não são suportadas pelo modelo GPT-4 Turbo GA. Eles só estão disponíveis com os modelos de visualização.

Substitua o conteúdo do quickstart.py pelo código a seguir.

# Packages required:
import requests 
import json 

api_base = '<your_azure_openai_endpoint>' 
deployment_name = '<your_deployment_name>'
API_KEY = '<your_azure_openai_key>'

base_url = f"{api_base}openai/deployments/{deployment_name}" 
headers = {   
    "Content-Type": "application/json",   
    "api-key": API_KEY 
} 

# Prepare endpoint, headers, and request body 
endpoint = f"{base_url}/extensions/chat/completions?api-version=2023-12-01-preview" 
data = {
    "model": "gpt-4-vision-preview",
    "enhancements": {
        "ocr": {
          "enabled": True
        },
        "grounding": {
          "enabled": True
        }
    },
    "dataSources": [
    {
        "type": "AzureComputerVision",
        "parameters": {
            "endpoint": "<your_computer_vision_endpoint>",
            "key": "<your_computer_vision_key>"
        }
    }],
    "messages": [ 
        { "role": "system", "content": "You are a helpful assistant." }, 
        { "role": "user", 
        "content": [  
            { 
                "type": "text", 
                "text": "Describe this picture:" 
            },
            { 
                "type": "image_url", 
                "image_url": {
                    "url" : "<image URL>"
                }
            }
        ]} 
    ], 
    "max_tokens": 2000 
}   

# Make the API call   
response = requests.post(endpoint, headers=headers, data=json.dumps(data))   

print(f"Status Code: {response.status_code}")   
print(response.text)

Efetue as seguintes alterações:
1. Insira o nome da implantação do GPT-4 Turbo with Vision no campo apropriado.
2. Insira o URL e a chave do ponto de extremidade do Computer Vision nos campos apropriados.
3. Altere o "image" valor do campo para o URL da sua imagem.
  
  Gorjeta
  
  Você também pode usar uma base 64 dados de imagem codificados em vez de uma URL. Para obter mais informações, consulte o guia de instruções do GPT-4 Turbo with Vision.
Execute o aplicativo com o python comando:
```
python quickstart.py
```

Clean up resources (Limpar recursos)

Se quiser limpar e remover um recurso do Azure OpenAI, você pode excluir o recurso ou grupo de recursos. A exclusão do grupo de recursos também exclui quaisquer outros recursos associados a ele.

Use este artigo para começar a usar o SDK do Azure OpenAI Python para implantar e usar o modelo GPT-4 Turbo with Vision.

Pacote de código-fonte | da biblioteca (PyPi) |

Pré-requisitos

Uma subscrição do Azure. Crie um gratuitamente.
Python 3.8 ou versão posterior.
As seguintes bibliotecas Python: os
Um recurso do Serviço OpenAI do Azure com um modelo GPT-4 Turbo com Visão implantado. Consulte a disponibilidade dos modelos GPT-4 e GPT-4 Turbo Preview para obter as regiões disponíveis. Para obter mais informações sobre a criação de recursos, consulte o guia de implantação de recursos.
Para aprimoramento de Visão (opcional): um recurso de Visão de Computador do Azure na mesma região que seu recurso OpenAI do Azure, na camada paga (S1).

Configurar

Instale a biblioteca de cliente OpenAI Python com:

pip install openai

Nota

Esta biblioteca é mantida pela OpenAI. Consulte o histórico de versões para acompanhar as atualizações mais recentes da biblioteca.

Recuperar chave e ponto de extremidade

Para fazer uma chamada com êxito no Azure OpenAI, você precisa de um ponto de extremidade e uma chave.

Nome da variável	Valor
`ENDPOINT`	Este valor pode ser encontrado na secção Chaves e Ponto Final ao examinar o recurso no portal do Azure. Como alternativa, você pode encontrar o valor na Exibição de Código do Azure OpenAI Studio>Playground.> Um exemplo de ponto de extremidade é: `https://docs-test-001.openai.azure.com/`.
`API-KEY`	Este valor pode ser encontrado na secção Chaves e Ponto Final ao examinar o recurso no portal do Azure. Pode utilizar `KEY1` ou `KEY2`.

Vá para o seu recurso no portal do Azure. A seção Chaves & Ponto Final pode ser encontrada na seção Gerenciamento de Recursos. Copie seu endpoint e sua chave de acesso, pois você precisará de ambos para autenticar suas chamadas de API. Pode utilizar KEY1 ou KEY2. Ter sempre duas chaves permite-lhe rodar e regenerar chaves de forma segura sem causar uma interrupção do serviço.

Variáveis de ambiente

Crie e atribua variáveis de ambiente persistentes para sua chave e endpoint.

setx AZURE_OPENAI_API_KEY "REPLACE_WITH_YOUR_KEY_VALUE_HERE" 
setx AZURE_OPENAI_ENDPOINT "REPLACE_WITH_YOUR_ENDPOINT_HERE"

[System.Environment]::SetEnvironmentVariable('AZURE_OPENAI_API_KEY', 'REPLACE_WITH_YOUR_KEY_VALUE_HERE', 'User')
[System.Environment]::SetEnvironmentVariable('AZURE_OPENAI_ENDPOINT', 'REPLACE_WITH_YOUR_ENDPOINT_HERE', 'User')

export AZURE_OPENAI_API_KEY="REPLACE_WITH_YOUR_KEY_VALUE_HERE"
export AZURE_OPENAI_ENDPOINT="REPLACE_WITH_YOUR_ENDPOINT_HERE"

Criar uma aplicação Python nova

Crie um novo arquivo Python chamado quickstart.py. Abra o novo arquivo em seu editor ou IDE preferido.

Substitua o conteúdo do quickstart.py pelo código a seguir.

from openai import AzureOpenAI

api_base = os.getenv("AZURE_OPENAI_ENDPOINT")
api_key= os.getenv("AZURE_OPENAI_API_KEY")
deployment_name = '<your_deployment_name>'
api_version = '2023-12-01-preview' # this might change in the future

client = AzureOpenAI(
    api_key=api_key,  
    api_version=api_version,
    base_url=f"{api_base}/openai/deployments/{deployment_name}"
)

response = client.chat.completions.create(
    model=deployment_name,
    messages=[
        { "role": "system", "content": "You are a helpful assistant." },
        { "role": "user", "content": [  
            { 
                "type": "text", 
                "text": "Describe this picture:" 
            },
            { 
                "type": "image_url",
                "image_url": {
                    "url": "<image URL>"
                }
            }
        ] } 
    ],
    max_tokens=2000 
)

print(response)

Efetue as seguintes alterações:
1. Digite o nome da sua implantação GPT-4 Turbo com Visão no campo apropriado.
2. Altere o "url" valor do campo para o URL da sua imagem.
  
  Gorjeta
  
  Você também pode usar uma base 64 dados de imagem codificados em vez de uma URL. Para obter mais informações, consulte o guia de instruções do GPT-4 Turbo with Vision.
Execute o aplicativo com o python comando:
```
python quickstart.py
```

Atenção

Importante

As melhorias de visão não são suportadas pelo modelo GPT-4 Turbo GA. Eles só estão disponíveis com os modelos de visualização.

Substitua o conteúdo do quickstart.py pelo código a seguir.

from openai import AzureOpenAI

api_base = os.getenv("AZURE_OPENAI_ENDPOINT")
api_key= os.getenv("AZURE_OPENAI_API_KEY")
deployment_name = '<your_deployment_name>'
api_version = '2023-12-01-preview' # this might change in the future

client = AzureOpenAI(
    api_key=api_key,  
    api_version=api_version,
    base_url=f"{api_base}/openai/deployments/{deployment_name}/extensions",
)

response = client.chat.completions.create(
    model=deployment_name,
    messages=[
        { "role": "system", "content": "You are a helpful assistant." },
        { "role": "user", "content": [  
            { 
                "type": "text", 
                "text": "Describe this picture:" 
            },
            { 
                "type": "image_url",
                "image_url": {
                    "url": "<image URL>"
                }
            }
        ] } 
    ],
    extra_body={
        "dataSources": [
            {
                "type": "AzureComputerVision",
                "parameters": {
                    "endpoint": "<your_computer_vision_endpoint>",
                    "key": "<your_computer_vision_key>"
                }
            }],
        "enhancements": {
            "ocr": {
                "enabled": True
            },
            "grounding": {
                "enabled": True
            }
        }
    },
    max_tokens=2000
)

print(response)

Efetue as seguintes alterações:
1. Insira o nome da implantação do GPT-4 Turbo with Vision no campo apropriado.
2. Insira o URL e a chave do ponto de extremidade do Computer Vision nos campos apropriados.
3. Altere o "url" valor do campo para o URL da sua imagem.
  
  Gorjeta
  
  Você também pode usar uma base 64 dados de imagem codificados em vez de uma URL. Para obter mais informações, consulte o guia de instruções do GPT-4 Turbo with Vision.
Execute o aplicativo com o python comando:
```
python quickstart.py
```

Clean up resources (Limpar recursos)

Se quiser limpar e remover um recurso do Azure OpenAI, você pode excluir o recurso ou grupo de recursos. A exclusão do grupo de recursos também exclui quaisquer outros recursos associados a ele.

Próximos passos

Saiba mais sobre essas APIs no guia de instruções do GPT-4 Turbo with Vision
Perguntas frequentes sobre o GPT-4 Turbo com Visão
Referência do GPT-4 Turbo com API Vision

Partilhar via

Guia de início rápido: use imagens em seus bate-papos de IA

Atualização do modelo GPT-4 Turbo

Diferenças entre OpenAI e Azure OpenAI GPT-4 Turbo GA Models

Diferenças do gpt-4 vision-preview

Disponibilidade gerenciada provisionada GPT-4 Turbo

Disponibilidade da região

Implantando o GPT-4 Turbo com o Vision GA

Pré-requisitos

Ir para o Azure OpenAI Studio

Parque Infantil

Iniciar uma sessão de chat para analisar imagens ou vídeos

Clean up resources (Limpar recursos)

Pré-requisitos

Recuperar chave e ponto de extremidade

Criar uma aplicação Python nova

Clean up resources (Limpar recursos)

Pré-requisitos

Configurar

Recuperar chave e ponto de extremidade

Variáveis de ambiente

Criar uma aplicação Python nova

Clean up resources (Limpar recursos)

Próximos passos

Comentários

Comentários

Recursos adicionais