共用方式為


什麼是影像分析?

Foundry Tools 中的 Azure Vision 影像分析服務能從您的影像中擷取多種視覺特徵。 例如,其可判斷影像是否包含成人內容、尋找特定的品牌或物件,或尋找人臉。

最新版本的影像分析 4.0 現已全面上市,具有同步 OCR 和人員偵測等新功能。 以後使用這個版本。

您可以透過用戶端連結庫 SDK 或使用直接呼叫 REST API 來使用影像分析。 請遵循 快速入門 以開始使用。

或者,您可以使用 Vision Studio 在瀏覽器中快速輕鬆地試用影像分析的功能。

此文件包含下列類型的文章:

  • 快速入門是逐步指示,可讓您呼叫服務並在短時間內取得結果。
  • 作說明指南包含以更具體或自定義方式使用服務的指示。
  • 概念性文章提供服務的功能和功能的深入說明。

如需更為結構化的方法,請遵循影像分析的定型課程模組。

影像分析版本

Important

選取最符合您需求的影像分析 API 版本。

Version 可用的功能 Recommendation
4.0 版 讀取文字、字幕、密集字幕、標籤、物件偵測、人員、智慧裁切 更好的模型;如果支援您的使用案例,請使用 4.0 版。
3.2 版 標籤、物件、描述、品牌、臉部、影像類型、色彩配置、地標、名人、成人內容、智慧裁剪 更廣泛的功能;如果您的使用案例尚未在 4.0 版中受到支援,請使用 3.2 版

如果影像分析 4.0 API 支援您的使用案例,則建議您使用。 如果您的使用案例尚未受到 4.0 支援,請使用 3.2 版。

如果您想要進行圖像描述且您的視覺資源位於支援的 Azure 區域之外,您也必須使用 3.2 版。 影像分析 4.0 中的圖像描述功能僅支援特定 Azure 區域。 3.2 版本的圖片標題功能在所有 Azure Vision 區域皆可用。 請參閱 區域可用性

分析影像

您可以分析圖像以深入了解其視覺特徵和特徵。 分析影像 API 提供此表格中的所有功能。 若要開始使用,請遵循 快速入門

Name Description 概念頁面
模型自訂 (僅限 v4.0 預覽版) (已淘汰) 建立和訓練用於影像分類或物件偵測的自訂模型。 攜帶您自己的影像、使用自訂標籤進行標記,而影像分析會定型針對使用案例自訂的模型。 模型自訂
從影像讀取文字 (僅限 v4.0) 影像分析 4.0 預覽版提供從影像擷取可閱讀文字的功能。 相較於非同步電腦視覺 3.2 Read API,新版本在整合的效能增強同步 API 中,提供熟悉的 Read OCR 引擎,可以在單一 API 呼叫中輕鬆取得 OCR 以及其他見解。 圖像的光學字符識別
偵測影像中的人員 (僅限 v4.0) 影像分析的 4.0 版提供偵測出現在影像中人員的功能。 API 會傳回每個偵測到的人的周框方塊座標,以及信賴度分數。 人員偵測
產生影像標題 以一般人看得懂的標題,使用完整的句子產生整個影像的描述。 電腦視覺的演算法會根據在影像中識別出來的物件產生標題。

4.0 版影像標題模型是更進階的實作,可搭配更廣泛的輸入影像使用。 這僅適用於特定地理區域。 請參閱 區域可用性

4.0 版也可讓您使用密集標題,這會產生影像中所找到個別物件的詳細標題。 API 會以像素為單位傳回影像中所找到每個物件的週框方塊,並加上標題。 您可以使用這項功能來產生影像個別部分的描述。

右邊有簡單描述的牛的照片。
產生影像標題 (v3.2)
(v4.0)
偵測物件 物件偵測與標記功能類似,但 API 會傳回每個所套用標記的週框方塊座標。 例如,如果影像包含狗、貓和人,則「偵測」作業會列出這些物件及其在影像中的座標。 您可以使用此功能來處理影像中物件間的進一步關聯性。 當影像中有多個相同標記的執行個體時,此功能也會讓您知道。

辦公室的相片,在筆記型電腦周圍畫出一個矩形。
偵測物件 (v3.2)
(v4.0)
標記視覺效果功能 從一組數千個可辨識的物件、生物、景象和動作,識別及標記影像中的視覺特徵。 若標記不明確或不屬於常識,API 回應會提供提示來釐清標記的內容。 標記並未限定於主體 (例如前景中的人物),而是包含周遭環境 (室內或室外)、家具、工具、植物、動物、配件和小工具等。

滑板運動員的照片,上面有列在右邊的標記。
標記視覺特徵 (v3.2)
(v4.0)
取得關注區域 / 智慧型裁切 分析影像的內容,以傳回符合指定外觀比例之 感興趣區域的 座標。 電腦視覺會傳回該區域的周框方塊座標,讓呼叫端的應用程式可以視需要修改原始影像。

4.0 版智慧裁剪模型是更進階的實作,可搭配更廣泛的輸入影像使用。 這僅適用於特定地理區域。 請參閱 區域可用性
產生縮圖 (v3.2)
(v4.0 預覽版)
偵測品牌 (僅限 v3.2) 從擁有數千個全球商標的資料庫中,識別影像或視訊內的商業品牌。 例如,您可以使用這項功能探索哪些品牌在社交媒體最受歡迎或在媒體產品位置中最常見。 偵測品牌
將影像分類 (僅限 v3.2) 使用 類別分類 法搭配父/子繼承階層來識別和分類整個影像。 類別可單獨使用,或與我們新的標記模型搭配使用。

目前,英文是唯一支援影像標記和分類的語言。
分類影像
偵測臉部 (僅限 v3.2) 偵測影像中的臉部,並提供與每個偵測到的臉部有關的資訊。 Azure Vision 會回傳每個偵測到的臉的座標、矩形、性別和年齡。

您也可以針對這些用途使用專用 臉部 API 。 這可以提供更詳細的分析,例如臉部識別和姿勢偵測。
偵測臉部
偵測影像類型 (僅限 v3.2) 偵測影像的關於特性,例如影像是否為線條繪圖,或影像為美工圖案的可能性。 偵測影像類型
偵測網域特定內容 (僅限 v3.2) 使用領域模型可偵測及識別影像中的特定領域內容,例如名人和地標。 例如,若圖片中有人物,Azure Vision 可利用名人領域模型判斷影像中被偵測到的人是否為知名名人。 偵測網域特定內容
偵測色彩設定 (僅限 v3.2) 分析影像中的用色方式。 Azure Vision 能判斷影像是黑白還是彩色,彩色影像則能辨識主色與強調色。 偵測色彩配置
調節影像中的內容 (僅限 v3.2) 使用 Azure Vision 偵測圖片中的成人內容,並回傳不同分類的信心分數。 為內容加上旗標的閾值可用滑動標尺來設定,以配合您的喜好設定。 偵測成人內容

產品辨識 (僅限 v4.0 預覽版) (已淘汰)

Important

這項功能現在已淘汰。 2025 年 3 月 31 日,Azure AI 影像分析 4.0 自定義影像分類、自定義物件偵測和產品辨識預覽 API 已淘汰。 對這些服務的 API 呼叫將會失敗。

轉換至正式推出的 Azure AI 自訂視覺。 自訂視覺提供與這些淘汰功能類似的功能。

產品辨識 API 可讓您分析零售商店中貨架相片。 您可以偵測產品是否存在,並取得其週框方塊座標。 與模型自訂搭配使用,訓練模型以識別您的特定產品。 您也可以比較產品辨識結果與商店的貨架圖文件。

產品辨識

多模式內嵌 (僅限 v4.0)

多模式內嵌 API 可讓您向量化影像和文字查詢。 它們將影像轉換為多維向量空間中的座標。 然後,您可以將傳入的文字查詢轉換為向量,並根據語意接近度將影像與文字進行比對。 此功能可讓您使用文字搜尋一組影像,而不需要使用影像標籤或其他中繼資料。 語意接近程度通常會在搜尋中產生更好的結果。

API 2024-02-01 包含支援 102 種語言文字搜尋的多語言模型。 原始的僅限英文的模型仍然可用,但您無法將其與相同搜尋索引中的新模型結合使用。 如果您使用僅限英文的模型將文字和影像向量化,則這些向量與多語言文字和影像向量不相容。

這些 API 僅適用於特定地理區域。 請參閱 區域可用性

多模式內嵌

背景移除 (僅限 v4.0 預覽版)

Important

這項功能現在已淘汰。 在 2025 年 3 月 31 日,Azure AI 影像分析 4.0 Segment API 和背景移除服務已淘汰。 對這些服務的 API 呼叫將會失敗。

開放原始碼 佛羅倫薩 2 模型的 分割功能可能符合您的需求。 它會傳回一個標記前景和背景之間差異的 Alpha 對應,但它不會編輯原始影像來移除背景。 安裝 Florence 2 模型並試用其區域到分割功能。

如需完整功能的背景移除,請考慮第三方公用程式,例如 BiRefNet

服務限制

輸入需求

影像分析僅適用於符合下列需求的影像:

  • 影像必須為 JPEG、PNG、GIF、BMP、WEBP、ICO、TIFF 或 MPO 格式
  • 影像的檔案大小必須小於 20 MB
  • 影像的維度必須大於 50 x 50 像素,且小於 16,000 x 16,000 像素

Tip

多模態內嵌的輸入需求不同,列在 多模態內嵌中。

語言支援

提供不同語言的不同影像分析功能。 請參閱 語言支持 頁面。

區域可用性

要使用 Image Analysis API,您必須在支援的區域建立 Azure Vision in Foundry Tools 資源。 下列區域提供影像分析功能:

Region 分析影像
(不包含 4.0 Captions)
分析影像
(包含 4.0 Captions)
產品辨識 多模式內嵌
美國東部
美國西部
美國西部 2
法國中部
北歐
西歐
瑞典中部
瑞士北部
Australia East
東南亞
東亞
南韓中部
日本東部

資料隱私權和安全性

與所有 Foundry 工具一樣,使用 Azure Vision 服務的開發者應了解 Microsoft 對客戶資料的政策。 欲了解更多,請參閱 Microsoft Trust Center 的 Foundry 工具頁面

後續步驟

遵循慣用開發語言和 API 版本的快速入門指南來開始使用影像分析: