共用方式為


具有視覺概念的 GPT-4 Turbo

GPT-4 Turbo with Vision 是 OpenAI 開發的大型多模式模型(LMM),可分析影像並提供文字回應,以回答有關影像的問題。 它同時包含自然語言處理和視覺理解。 本指南提供 GPT-4 Turbo 搭配視覺功能與限制的詳細數據。

若要試用 GPT-4 Turbo 搭配視覺,請參閱 快速入門

與視覺交談

GPT-4 Turbo with Vision 模型會回答您上傳之影像或影片中存在的一般問題。

增強功能

增強功能可讓您納入其他 Azure AI 服務(例如 Azure AI 視覺),以將新功能新增至聊天與視覺體驗。

對象基礎:Azure AI 視覺可藉由識別並尋找輸入影像中的突出物件,來補充 GPT-4 Turbo 與 Vision 的文字回應。 這可讓聊天模型提供有關影像內容的更精確且詳細的回應。

重要

若要使用視覺增強功能,您需要 電腦視覺 資源。 它必須位於付費 (S1) 層,且位於與具有視覺資源的 GPT-4 Turbo 相同的 Azure 區域中。

Screenshot of an image with object grounding applied. Objects have bounding boxes with labels.

Screenshot of a chat response to an image prompt about an outfit. The response is an itemized list of clothing items seen in the image.

光學字元辨識(OCR):Azure AI 視覺藉由提供高品質的 OCR 結果做為聊天模型的補充資訊,來補充 GPT-4 Turbo 與視覺。 它可讓模型針對具有密集文字、已轉換影像和大量數位財務檔的影像產生更高的質量回應,並增加模型可在文字中辨識的各種語言。

重要

若要使用視覺增強功能,您需要 電腦視覺 資源。 它必須位於付費 (S1) 層,且位於與具有視覺資源的 GPT-4 Turbo 相同的 Azure 區域中。

Photo of several receipts.

Screenshot of the JSON response of an OCR call.

影片提示:影片提示增強功能可讓您使用視訊剪輯作為 AI 聊天的輸入,讓模型產生影片內容的摘要和解答。 它會使用 Azure AI 視覺影片擷取來取樣影片中的一組畫面,並在影片中建立語音記錄。

注意

若要使用影片提示增強功能,除了 Azure OpenAI 資源之外,您還需要付費 (S1) 層中的 Azure AI 視覺資源和 Azure 影片索引器資源。

特殊定價資訊

重要

價格詳細數據未來可能會變更。

GPT-4 Turbo with Vision 會像其他 Azure OpenAI 聊天模型一樣產生費用。 您會針對提示和完成支付每個令牌費率,詳述於 [定價] 頁面上。 基本費用和其他功能如下所述:

具有視覺功能的 GPT-4 Turbo 基本定價為:

  • 輸入:每 1000 個令牌 $0.01
  • 輸出:每 1000 個令牌 $0.03

如需文字和影像如何轉譯為令牌的資訊,請參閱概觀的令牌一節。

如果您開啟增強功能,則其他使用方式適用於搭配使用 GPT-4 Turbo 與視覺搭配 Azure AI 視覺功能。

模型 價格
+ OCR 的增強附加元件功能 每 1000 筆交易 $1.5 美元
+ 物件偵測的增強附加元件功能 每 1000 筆交易 $1.5 美元
+ 「新增影像」影像內嵌的增強附加元件功能 每 1000 筆交易 $1.5 美元
+ 「影片擷取」整合 的增強附加元件功能 1 擷取:每分鐘視訊 $0.05
交易:視訊擷取索引每 1000 個查詢 $0.25

1 處理影片牽涉到使用額外的令牌來識別要分析的主要畫面格。 這些額外令牌的數目大致相當於文字輸入中的令牌總和,加上 700 個令牌。

影像價格計算範例

重要

下列內容僅供範例使用,未來價格可能會變更。

針對一般使用案例,請同時取得具有可見物件和文字和 100 標記提示輸入的影像。 當服務處理提示時,會產生100個輸出令牌。 在影像中,可以偵測到文字和物件。 此交易的價格如下:

項目 詳細資料 總成本
具有視覺輸入令牌的 GPT-4 Turbo 100 個文字標記 $0.001
OCR 的增強附加元件功能 $1.50 / 1000 筆交易 $0.0015
物件地面的增強附加元件功能 $1.50 / 1000 筆交易 $0.0015
輸出令牌 100 個權杖(假設) $0.003
總成本 $0.007

影片價格計算範例

重要

下列內容僅供範例使用,未來價格可能會變更。

針對一般使用案例,請以100令牌提示輸入進行3分鐘的視訊。 影片的文字記錄長度為100個令牌,當服務處理提示時,會產生100個令牌的輸出。 此交易的定價為:

項目 詳細資料 總成本
具有視覺輸入令牌的 GPT-4 Turbo 100 個文字標記 $0.001
識別框架的額外成本 100 個輸入令牌 + 700 個令牌 + 1 個視訊擷取交易 $0.00825
影像輸入和文字記錄輸入 20 個影像 (每個 85 個令牌) + 100 個文字記錄令牌 $0.018
輸出令牌 100 個權杖(假設) $0.003
總成本 $0.03025

此外,此 3 分鐘的影片產生影片擷取索引的成本為 $0.15。 您可以使用視覺 API 呼叫,在任意數目的視訊擷取和 GPT-4 Turbo 之間重複使用此索引。

限制

本節說明 GPT-4 Turbo with Vision 的限制。

映像支援

  • 每個聊天會話的影像增強功能限制:單一聊天通話內無法將增強功能套用至多個影像。
  • 輸入影像大小上限:輸入影像的大小上限限制為 20 MB。
  • 增強 API 中的物件地面:當增強 API 用於物件地面,而模型偵測到物件的重複專案時,它會為所有重複項目產生一個周框方塊和標籤,而不是針對每個重複項目產生一個周框方塊和標籤。
  • 低解析度精確度:使用「低解析度」設定來分析影像時,它允許更快的回應,並針對特定使用案例使用較少的輸入令牌。 不過,這可能會影響影像中物件和文字辨識的精確度。
  • 影像聊天限制:當您在 Azure OpenAI Studio 或 API 中上傳影像時,每個聊天通話的限制為 10 個影像。

影片支援

  • 低解析度:使用 GPT-4 Turbo 分析視訊畫面與視覺的「低解析度」設定,這可能會影響視訊中小型物件和文字辨識的精確度。
  • 視訊檔案限制:支援MP4和MOV檔案類型。 在 Azure OpenAI Studio 中,影片長度必須少於 3 分鐘。 當您使用 API 時,沒有任何這類限制。
  • 提示限制:視訊提示只包含一個視訊,且沒有影像。 在 Azure OpenAI Studio 中,您可以清除工作階段以嘗試其他影片或影像。
  • 有限的畫面選取:服務會從整個視訊中選取 20 個畫面,而無法擷取所有重要時刻或詳細數據。 視提示而定,畫面選取範圍大約可以平均分散到視訊或由特定視訊擷取查詢聚焦。
  • 語言支援:服務主要支援英文,以使用文字記錄進行地面處理。 文字記錄不提供歌曲中歌詞的準確資訊。

下一步