快速入門：在 AI 聊天中使用影像

發行項
07/26/2024

開始使用 Azure OpenAI 服務的 GPT-4 Turbo 解讀影像。

GPT-4 Turbo 模型升級

GPT-4 Turbo 的最新 GA 版本為:

gpt-4 版本：turbo-2024-04-09

這是下列預覽模型的取代：

gpt-4 版本：1106-Preview
gpt-4 版本：0125-Preview
gpt-4 版本：vision-preview

OpenAI 與 Azure OpenAI GPT-4 Turbo GA 模型之間的差異

OpenAI 的最新 0409 turbo 模型版本支援所有推斷要求的 JSON 模式和函式呼叫。
Azure OpenAI 的最新 turbo-2024-04-09 版本目前不支援以影像 (視覺) 輸入進行推斷要求時使用 JSON 模式和函式呼叫。以文字為基礎的輸入要求 (沒有 image_url 和內嵌影像的要求) 支援 JSON 模式和函式呼叫。

GPT-4 視覺預覽的差異

Azure AI 特定的視覺增強功能與含有視覺功能的 GPT-4 Turbo 整合，不支援 gpt-4 版本： turbo-2024-04-09。這包括光學字元辨識 (OCR)、物件基礎、影片提示，以及使用影像改善資料的處理。

GPT-4 Turbo 佈建的受控可用性

gpt-4 版本：turbo-2024-04-09 可用於標準和佈建的部署。目前此模型的佈建版本不支援影像/視覺推斷要求。此模型的佈建部署只接受文字輸入。標準模型部署同時接受文字和影像/視覺推斷要求。

區域可用性

如需模型區域可用性的資訊，請參閱適用於標準的模型矩陣，以及佈建的部署。

部署包含視覺功能的 GPT-4 Turbo GA

若要從 Studio UI 部署 GA 模型，請選取 [GPT-4]，然後從下拉式功能表中選擇 turbo-2024-04-09 版本。 gpt-4-turbo-2024-04-09 模型的預設配額會與 GPT-4-Turbo 目前的配額相同。請參閱區域配額限制。

透過 Azure OpenAI Studio 以無程式碼方法開始探索含有視覺功能的 GPT-4 Turbo。

必要條件

Azure 訂用帳戶。免費建立一個。
已部署含有視覺功能的 GPT-4 Turbo 模型的 Azure OpenAI 服務資源。如需了解可用區域，請參閱 GPT-4 和 GPT-4 Turbo 預覽版模型可用性。如需資源建立的詳細資訊，請參閱資源部署指南。
針對視覺增強功能 (選擇性)：與 Azure OpenAI 資源位於相同區域的 Azure 電腦視覺資源 (付費 (S1) 層)。

注意

含有視覺功能的 GPT-4 Turbo 目前不支援關閉內容篩選。

移至 Azure OpenAI Studio

瀏覽至 [Azure OpenAI Studio] 並使用與您 Azure OpenAI 資源相關聯的認證來登入。在登入工作流程期間 (或之後)，選取適當的目錄、Azure 訂用帳戶和 Azure OpenAI 資源。

在 [管理] 下，透過選取模型名稱："gpt-4" 和模型版本 "vision-preview"，以選取 [部署] 和 [建立] 含有視覺功能的 GPT-4 Turbo 部署。如需模型部署的詳細資訊，請參閱資源部署指南。

在 [遊樂場] 區段下，選取 [聊天]。

遊樂場

您可以透過此頁面，快速逐一查看並實驗模型的功能。

如需助理設定、聊天工作階段、設定和面板的一般協助，請參閱聊天快速入門。

開始聊天工作階段以分析影像或影片

在此聊天工作階段中，您會指示助理協助了解輸入的影像。

若要開始，請從下拉式清單中選取含有視覺功能的 GPT-4 Turbo 部署。
在 [助理設定] 窗格中，提供系統訊息來引導助理。預設系統訊息：「您是 AI 助理，可協助人員尋找資訊。」您可以根據您要上傳的影像或案例自訂系統訊息。

注意

建議將系統訊息更為工作專屬內容，藉此避免模型的不實用回應。
儲存變更，並在系統提示確認更新系統訊息時，選取 [繼續]。
在 [聊天工作階段] 窗格中，輸入文字提示 (例如「描述此影像」) 並使用附件按鈕上傳影像。您可以針對使用案例使用不同的文字提示。然後選取傳送。
觀察提供的輸出。請考慮詢問與影像分析相關的後續問題以深入了解。

清除資源

如果您想要清除和移除 Azure OpenAI 資源，則可以刪除資源或資源群組。刪除資源群組也會刪除與其相關聯的任何其他資源。

您可以閱讀本文，開始使用 Azure OpenAI REST API 來部署及使用含有視覺功能的 GPT-4 Turbo 模型。

必要條件

Azure 訂用帳戶。免費建立一個。
Python 3.8 或更新版本。
下列 Python 程式庫：requests、json。
已部署含有視覺功能的 GPT-4 Turbo 模型的 Azure OpenAI 服務資源。如需了解可用區域，請參閱 GPT-4 和 GPT-4 Turbo 預覽版模型可用性。如需資源建立的詳細資訊，請參閱資源部署指南。
針對視覺增強功能 (選擇性)：與 Azure OpenAI 資源位於相同區域的 Azure 電腦視覺資源 (付費 (S1) 層)。

注意

含有視覺功能的 GPT-4 Turbo 目前不支援關閉內容篩選。

擷取金鑰和端點

若要成功呼叫 Azure OpenAI API，您需要有關 Azure OpenAI 資源的下列資訊：

變數	名稱	值
端點	`api_base`	端點值位於 Azure 入口網站中資源的 [金鑰] 和 [端點]。或者，您可以在 [Azure OpenAI Studio]>[遊樂場]>[程式碼檢視] 中找到該值。範例端點為：`https://docs-test-001.openai.azure.com/`。
索引鍵	`api_key`	金鑰值同樣也位於 Azure 入口網站中資源的 [金鑰] 和 [端點]。 Azure 會為您的資源產生兩個金鑰。您可以使用任何一者。

移至您在 Azure 入口網站中的資源。在瀏覽窗格中，選取 [資源管理] 下的 [金鑰和端點]。複製端點值和存取金鑰值。您可以使用 KEY 1 或 KEY 2 值。持有兩個金鑰可讓您安全地輪替和重新產生金鑰，而不會造成服務中斷。

建立新的 Python 應用程式

建立命名為 quickstart.py 的新 Python 檔案。在您慣用的編輯器或整合式開發環境 (IDE) 中，開啟新檔案。

將 quickstart.py 的內容取代為下列程式碼。

# Packages required:
import requests 
import json 

api_base = '<your_azure_openai_endpoint>' 
deployment_name = '<your_deployment_name>'
API_KEY = '<your_azure_openai_key>'

base_url = f"{api_base}openai/deployments/{deployment_name}" 
headers = {   
    "Content-Type": "application/json",   
    "api-key": API_KEY 
} 

# Prepare endpoint, headers, and request body 
endpoint = f"{base_url}/chat/completions?api-version=2023-12-01-preview" 
data = { 
    "messages": [ 
        { "role": "system", "content": "You are a helpful assistant." }, 
        { "role": "user", "content": [  
            { 
                "type": "text", 
                "text": "Describe this picture:" 
            },
            { 
                "type": "image_url",
                "image_url": {
                    "url": "<image URL>"
                }
            }
        ] } 
    ], 
    "max_tokens": 2000 
}   

# Make the API call   
response = requests.post(endpoint, headers=headers, data=json.dumps(data))   

print(f"Status Code: {response.status_code}")   
print(response.text)

進行下列變更：
1. 在適當的欄位中輸入您的端點 URL 和金鑰。
2. 在適當的欄位中，輸入含有視覺功能的 GPT-4 Turbo 部署名稱。
3. 將 "image" 欄位的值變更為影像的 URL。
  
  提示
  
  您也可以使用 Base 64 編碼影像資料，而不是 URL。如需詳細資訊，請參閱含有視覺功能的 GPT-4 Turbo 操作指南。
使用 python 命令執行應用程式：
```
python quickstart.py
```

包含視覺功能的 GPT-4 Turbo 提供對 Azure AI 服務量身打造之增強功能的專屬存取權。與 Azure AI 視覺結合時，它會提供聊天模型有關影像中可見文字和物件位置的更詳細資訊，以增強您的聊天體驗。

光學字元辨識 (OCR) 整合讓模型可以為密集文字、轉換的影像和大量數字的財務文件產生更高品質的回應。它也涵蓋更廣泛的語言。

物件基礎整合為資料分析和使用者互動帶來了新的層面，因為此功能可以在視覺上區分和醒目提示它所處理影像中的重要元素。

警告

適用於包含視覺功能之 GPT-4 Turbo 的 Azure AI 增強功能將會與核心功能分開計費。每個適用於包含視覺功能之 GPT-4 Turbo 的特定 Azure AI 增強功能都有不同的費用。如需詳細資訊，請參閱特殊價格資訊。

重要

GPT-4 Turbo GA 模型不支援視覺增強功能。僅適用於預覽模型。

將 quickstart.py 的內容取代為下列程式碼。

# Packages required:
import requests 
import json 

api_base = '<your_azure_openai_endpoint>' 
deployment_name = '<your_deployment_name>'
API_KEY = '<your_azure_openai_key>'

base_url = f"{api_base}openai/deployments/{deployment_name}" 
headers = {   
    "Content-Type": "application/json",   
    "api-key": API_KEY 
} 

# Prepare endpoint, headers, and request body 
endpoint = f"{base_url}/extensions/chat/completions?api-version=2023-12-01-preview" 
data = {
    "model": "gpt-4-vision-preview",
    "enhancements": {
        "ocr": {
          "enabled": True
        },
        "grounding": {
          "enabled": True
        }
    },
    "dataSources": [
    {
        "type": "AzureComputerVision",
        "parameters": {
            "endpoint": "<your_computer_vision_endpoint>",
            "key": "<your_computer_vision_key>"
        }
    }],
    "messages": [ 
        { "role": "system", "content": "You are a helpful assistant." }, 
        { "role": "user", 
        "content": [  
            { 
                "type": "text", 
                "text": "Describe this picture:" 
            },
            { 
                "type": "image_url", 
                "image_url": {
                    "url" : "<image URL>"
                }
            }
        ]} 
    ], 
    "max_tokens": 2000 
}   

# Make the API call   
response = requests.post(endpoint, headers=headers, data=json.dumps(data))   

print(f"Status Code: {response.status_code}")   
print(response.text)

進行下列變更：
1. 在適當的欄位中，輸入含有視覺功能的 GPT-4 Turbo 部署名稱。
2. 在適當的欄位中輸入您的電腦視覺端點 URL 和金鑰。
3. 將 "image" 欄位的值變更為影像的 URL。
  
  提示
  
  您也可以使用 Base 64 編碼影像資料，而不是 URL。如需詳細資訊，請參閱含有視覺功能的 GPT-4 Turbo 操作指南。
使用 python 命令執行應用程式：
```
python quickstart.py
```

清除資源

如果您想要清除和移除 Azure OpenAI 資源，則可以刪除資源或資源群組。刪除資源群組也會刪除與其相關聯的任何其他資源。

您可以閱讀本文，開始使用 Azure OpenAI Python SDK 來部署及使用含有視覺功能的 GPT-4 Turbo 模型。

程式庫原始程式碼 | 套件 (NuGet) |

必要條件

Azure 訂用帳戶。免費建立一個。
Python 3.8 或更新版本。
下列 Python 程式庫：os
已部署含有視覺功能的 GPT-4 Turbo 模型的 Azure OpenAI 服務資源。如需了解可用區域，請參閱 GPT-4 和 GPT-4 Turbo 預覽版模型可用性。如需資源建立的詳細資訊，請參閱資源部署指南。
針對視覺增強功能 (選擇性)：與 Azure OpenAI 資源位於相同區域的 Azure 電腦視覺資源 (付費 (S1) 層)。

設定

使用下列項目安裝 OpenAI Python 用戶端程式庫：

pip install openai

注意

程式庫是由 OpenAI 進行維護。參照版本歷程記錄來追蹤程式庫的最新更新。

擷取金鑰和端點

若要成功對 Azure OpenAI 進行呼叫，您需要端點和金鑰。

變數名稱	值
`ENDPOINT`	從 Azure 入口網站查看您的資源時，可以在 [金鑰與端點] 區段中找到此值。或者，您可以在 [Azure OpenAI Studio]>[遊樂場]>[程式碼檢視] 中找到該值。範例端點為：`https://docs-test-001.openai.azure.com/`。
`API-KEY`	從 Azure 入口網站查看您的資源時，可以在 [金鑰與端點] 區段中找到此值。您可以使用 `KEY1` 或 `KEY2`。

移至您在 Azure 入口網站中的資源。您可以在 [資源管理] 區段中找到 [金鑰和端點] 區段。複製您的端點和存取金鑰，因為您需要這兩者才能驗證 API 呼叫。您可以使用 KEY1 或 KEY2。隨時持有兩個金鑰可讓您安全地輪替和重新產生金鑰，而不會造成服務中斷。

環境變數

為您的金鑰和端點建立及指派永續性環境變數。

setx AZURE_OPENAI_API_KEY "REPLACE_WITH_YOUR_KEY_VALUE_HERE" 
setx AZURE_OPENAI_ENDPOINT "REPLACE_WITH_YOUR_ENDPOINT_HERE"

[System.Environment]::SetEnvironmentVariable('AZURE_OPENAI_API_KEY', 'REPLACE_WITH_YOUR_KEY_VALUE_HERE', 'User')
[System.Environment]::SetEnvironmentVariable('AZURE_OPENAI_ENDPOINT', 'REPLACE_WITH_YOUR_ENDPOINT_HERE', 'User')

export AZURE_OPENAI_API_KEY="REPLACE_WITH_YOUR_KEY_VALUE_HERE"
export AZURE_OPENAI_ENDPOINT="REPLACE_WITH_YOUR_ENDPOINT_HERE"

建立新的 Python 應用程式

建立命名為 quickstart.py 的新 Python 檔案。在您慣用的編輯器或整合式開發環境 (IDE) 中，開啟新檔案。

將 quickstart.py 的內容取代為下列程式碼。

from openai import AzureOpenAI

api_base = os.getenv("AZURE_OPENAI_ENDPOINT")
api_key= os.getenv("AZURE_OPENAI_API_KEY")
deployment_name = '<your_deployment_name>'
api_version = '2023-12-01-preview' # this might change in the future

client = AzureOpenAI(
    api_key=api_key,  
    api_version=api_version,
    base_url=f"{api_base}/openai/deployments/{deployment_name}"
)

response = client.chat.completions.create(
    model=deployment_name,
    messages=[
        { "role": "system", "content": "You are a helpful assistant." },
        { "role": "user", "content": [  
            { 
                "type": "text", 
                "text": "Describe this picture:" 
            },
            { 
                "type": "image_url",
                "image_url": {
                    "url": "<image URL>"
                }
            }
        ] } 
    ],
    max_tokens=2000 
)

print(response)

進行下列變更：
1. 在適當的欄位中，輸入含有視覺功能的 GPT-4 Turbo 部署名稱。
2. 將 "url" 欄位的值變更為影像的 URL。
  
  提示
  
  您也可以使用 Base 64 編碼影像資料，而不是 URL。如需詳細資訊，請參閱含有視覺功能的 GPT-4 Turbo 操作指南。
使用 python 命令執行應用程式：
```
python quickstart.py
```

光學字元辨識 (OCR) 整合讓模型可以為密集文字、轉換的影像和大量數字的財務文件產生更高品質的回應。它也涵蓋更廣泛的語言。

物件基礎整合為資料分析和使用者互動帶來了新的層面，因為此功能可以在視覺上區分和醒目提示它所處理影像中的重要元素。

警告

重要

GPT-4 Turbo GA 模型不支援視覺增強功能。僅適用於預覽模型。

將 quickstart.py 的內容取代為下列程式碼。

from openai import AzureOpenAI

api_base = os.getenv("AZURE_OPENAI_ENDPOINT")
api_key= os.getenv("AZURE_OPENAI_API_KEY")
deployment_name = '<your_deployment_name>'
api_version = '2023-12-01-preview' # this might change in the future

client = AzureOpenAI(
    api_key=api_key,  
    api_version=api_version,
    base_url=f"{api_base}/openai/deployments/{deployment_name}/extensions",
)

response = client.chat.completions.create(
    model=deployment_name,
    messages=[
        { "role": "system", "content": "You are a helpful assistant." },
        { "role": "user", "content": [  
            { 
                "type": "text", 
                "text": "Describe this picture:" 
            },
            { 
                "type": "image_url",
                "image_url": {
                    "url": "<image URL>"
                }
            }
        ] } 
    ],
    extra_body={
        "dataSources": [
            {
                "type": "AzureComputerVision",
                "parameters": {
                    "endpoint": "<your_computer_vision_endpoint>",
                    "key": "<your_computer_vision_key>"
                }
            }],
        "enhancements": {
            "ocr": {
                "enabled": True
            },
            "grounding": {
                "enabled": True
            }
        }
    },
    max_tokens=2000
)

print(response)

進行下列變更：
1. 在適當的欄位中，輸入含有視覺功能的 GPT-4 Turbo 部署名稱。
2. 在適當的欄位中輸入您的電腦視覺端點 URL 和金鑰。
3. 將 "url" 欄位的值變更為影像的 URL。
  
  提示
  
  您也可以使用 Base 64 編碼影像資料，而不是 URL。如需詳細資訊，請參閱含有視覺功能的 GPT-4 Turbo 操作指南。
使用 python 命令執行應用程式：
```
python quickstart.py
```

清除資源

如果您想要清除和移除 Azure OpenAI 資源，則可以刪除資源或資源群組。刪除資源群組也會刪除與其相關聯的任何其他資源。

下一步

如需深入了解這些 API，請參閱含有視覺功能的 GPT-4 Turbo 操作指南
包含視覺功能的 GPT-4 Turbo 常見問題集
包含視覺功能的 GPT-4 Turbo API 參照

共用方式為

快速入門：在 AI 聊天中使用影像

GPT-4 Turbo 模型升級

OpenAI 與 Azure OpenAI GPT-4 Turbo GA 模型之間的差異

GPT-4 視覺預覽的差異

GPT-4 Turbo 佈建的受控可用性

區域可用性

部署包含視覺功能的 GPT-4 Turbo GA

必要條件

移至 Azure OpenAI Studio

遊樂場

開始聊天工作階段以分析影像或影片

清除資源

必要條件

擷取金鑰和端點

建立新的 Python 應用程式

清除資源

必要條件

設定

擷取金鑰和端點

環境變數

建立新的 Python 應用程式

清除資源

下一步

意見反應

意見反應

其他資源