包含視覺功能的 GPT-4 Turbo 概念

包含視覺功能的 GPT-4 Turbo 是由 OpenAI 開發的大型多模態模型 (LMM)，可分析影像並針對影像問題提供文字回應。它同時包含自然語言處理和視覺理解。本指南提供包含視覺功能的 GPT-4 Turbo 功能與限制的詳細資料。

若要試用包含視覺功能的 GPT-4 Turbo，請參閱快速入門。

包含視覺功能的聊天

包含視覺功能的 GPT-4 Turbo 模型可回答您所上傳影像或影片中呈現的一般問題。

重要

價格詳細資訊未來可能會變更。

包含視覺功能的 GPT-4 Turbo 會像其他 Azure OpenAI 聊天模型一樣產生費用。您要為提示和完成依每個權杖費率付費，詳細資料位於定價頁面上。基本費用和其他功能如下所述：

包含視覺功能的 GPT-4 Turbo 基本價格為：

如需文字和影像如何轉譯為權杖的詳細資訊，請參閱概觀的權杖區段。

重要

下列內容僅作為範例使用，未來價格可能會變更。

針對一般使用案例，請同時以可見物件和文字及 100 個權杖提示輸入拍攝影像。當服務處理提示時，會產生 100 個輸出權杖。在影像中，可以偵測到文字和物件。此交易的價格如下：

重要

下列內容僅作為範例使用，未來價格可能會變更。

針對一般使用案例，請以 100 個權杖提示輸入拍攝 3 分鐘的影片。影片的文字記錄長度為 100 個權杖，當服務處理提示時，會產生 100 個權杖的輸出。此交易的價格如下：

此外，為此 3 分鐘的影片產生影片擷取索引的成本為美金 $0.15 元。此索引可在任意數量的影片擷取和包含視覺功能的 GPT-4 Turbo API 通話間重複使用。

本節說明包含視覺功能的 GPT-4 Turbo 的限制。

低解析度：影片畫面分析是使用包含視覺功能的 GPT-4 Turbo 的「低解析度」設定，這可能會影響影片中小型物件和文字辨識的精確度。
影片檔案限制：支援 MP4 和 MOV 檔案類型。在 Azure AI Studio 中，影片長度必須少於 3 分鐘。使用 API 時，沒有這類限制。
提示限制：影片提示只包含一段影片，沒有任何圖片。在 Azure AI Studio 中，您可以清除工作階段以嘗試其他影片或影像。
有限的畫面選取：服務會從整部影片中選取 20 個畫面，因而可能無法擷取所有重要時刻或詳細資訊。畫面選取範圍可以大致平均分散到整部影片或依特定影片擷取查詢集中在特定畫面，視提示而定。
語言支援：服務主要支援英文作為文字記錄基礎。文字記錄無法提供有關歌曲歌詞的準確資訊。