包含視覺功能的 GPT-4 Turbo 概念
包含視覺功能的 GPT-4 Turbo 是由 OpenAI 開發的大型多模態模型 (LMM),可分析影像並針對影像問題提供文字回應。 它同時包含自然語言處理和視覺理解。 本指南提供包含視覺功能的 GPT-4 Turbo 功能與限制的詳細資料。
若要試用包含視覺功能的 GPT-4 Turbo,請參閱快速入門。
包含視覺功能的聊天
包含視覺功能的 GPT-4 Turbo 模型可回答您所上傳影像或影片中呈現的一般問題。
優惠價格資訊
重要
價格詳細資訊未來可能會變更。
包含視覺功能的 GPT-4 Turbo 會像其他 Azure OpenAI 聊天模型一樣產生費用。 您要為提示和完成依每個權杖費率付費,詳細資料位於定價頁面上。 基本費用和其他功能如下所述:
包含視覺功能的 GPT-4 Turbo 基本價格為:
- 輸入:每 1000 個權杖美金 $0.01 元
- 輸出:每 1000 個權杖美金 $0.03 元
如需文字和影像如何轉譯為權杖的詳細資訊,請參閱概觀的權杖區段。
範例影像價格計算
重要
下列內容僅作為範例使用,未來價格可能會變更。
針對一般使用案例,請同時以可見物件和文字及 100 個權杖提示輸入拍攝影像。 當服務處理提示時,會產生 100 個輸出權杖。 在影像中,可以偵測到文字和物件。 此交易的價格如下:
項目 | 詳細資料 | 成本 |
---|---|---|
文字提示輸入 | 100 個文字權杖 | $0.001 |
範例影像輸入 (請參閱影像權杖) | 170 + 85 個影像權杖 | $0.00255 |
OCR 的增強附加元件功能 | $1.50 / 1000 筆交易 | $0.0015 |
物件基礎的增強附加元件功能 | $1.50 / 1000 筆交易 | $0.0015 |
輸出權杖 | 100 個權杖 (假設) | $0.003 |
總數 | $0.00955 |
範例影片價格計算
重要
下列內容僅作為範例使用,未來價格可能會變更。
針對一般使用案例,請以 100 個權杖提示輸入拍攝 3 分鐘的影片。 影片的文字記錄長度為 100 個權杖,當服務處理提示時,會產生 100 個權杖的輸出。 此交易的價格如下:
項目 | 詳細資料 | 成本 |
---|---|---|
包含視覺功能的 GPT-4 Turbo 輸入權杖 | 100 個文字權杖 | $0.001 |
識別畫面的額外成本 | 100 個輸入權杖 + 700 個權杖 + 1 個影片擷取交易 | $0.00825 |
影像輸入和文字記錄輸入 | 20 個影像 (每個影像 85 個權杖) + 100 個文字記錄權杖 | $0.018 |
輸出權杖 | 100 個權杖 (假設) | $0.003 |
總數 | $0.03025 |
此外,為此 3 分鐘的影片產生影片擷取索引的成本為美金 $0.15 元。 此索引可在任意數量的影片擷取和包含視覺功能的 GPT-4 Turbo API 通話間重複使用。
輸入限制
本節說明包含視覺功能的 GPT-4 Turbo 的限制。
影像支援
- 輸入影像大小上限:輸入影像的大小上限限製為 20 MB。
- 低解析度精確度:使用「低解析度」設定分析影像時,可加快回應速度,並針對特定使用案例使用較少的輸入權杖。 不過,這可能會影響影像中物件和文字辨識的精確度。
- 影像聊天限制:當您在 Azure AI Studio 或 API 中上傳影像時,每個聊天通話的限制為 10 個影像。
影片支援
- 低解析度:影片畫面分析是使用包含視覺功能的 GPT-4 Turbo 的「低解析度」設定,這可能會影響影片中小型物件和文字辨識的精確度。
- 影片檔案限制:支援 MP4 和 MOV 檔案類型。 在 Azure AI Studio 中,影片長度必須少於 3 分鐘。 使用 API 時,沒有這類限制。
- 提示限制:影片提示只包含一段影片,沒有任何圖片。 在 Azure AI Studio 中,您可以清除工作階段以嘗試其他影片或影像。
- 有限的畫面選取:服務會從整部影片中選取 20 個畫面,因而可能無法擷取所有重要時刻或詳細資訊。 畫面選取範圍可以大致平均分散到整部影片或依特定影片擷取查詢集中在特定畫面,視提示而定。
- 語言支援:服務主要支援英文作為文字記錄基礎。 文字記錄無法提供有關歌曲歌詞的準確資訊。
下一步
- 遵循快速入門,開始使用包含視覺功能的 GPT-4 Turbo。
- 若要更深入探討 API,以及在聊天中使用影片提示,請遵循操作指南。
- 請參閱完成和內嵌 API 參照