電腦視覺任務和技術
備註
有關更多詳細信息,請參閱 文本和圖像 選項卡!
「電腦視覺」一詞是指人工智慧軟體處理視覺輸入的一系列任務和技術;通常來自圖像、視頻或實時攝像頭流。 計算機視覺是人工智能的一個成熟領域,多年來用於從視覺輸入中提取信息的技術已經發生了顯著的發展。
影像分類
最古老的電腦視覺解決方案之一是一種稱為 影像分類的技術,其中使用經過大量影像訓練的模型來根據影像內容預測文字標籤。
例如,假設一家雜貨店想要實施自動識別產品的智慧結帳系統。 例如,顧客可以在結帳時將水果或蔬菜放在秤上,連接到攝像頭的人工智能應用程序可以自動識別農產品類型(蘋果、橙子、香蕉等),並根據其重量收取適當的費用。 為了使此解決方案發揮作用,需要使用大量圖像來訓練模型,每個圖像都標有正確的名稱。 結果是一個可以使用圖像的視覺特徵來預測其主要主題的模型。
物件偵測
假設雜貨店想要一個更複雜的系統,其中結帳者可以掃描結帳時的多個商品並識別每個商品。 解決此類問題的常見方法稱為「物件偵測」。 物體檢測模型檢查圖像中的多個區域以查找單個物體及其位置。 模型產生的預測包括檢測到哪些對象,以及它們出現的圖像的特定區域 - 由矩形邊界框的坐標表示。
語意分割
另一種更複雜的檢測圖像中對象的方法稱為“語義分割”。 在這種方法中,模型被訓練為查找對象,並根據圖像中的各個像素所屬的對象對它們進行分類。 此過程的結果是對圖像中物體位置的預測更加精確。
上下文圖像分析
最新的 多模態 電腦視覺模型經過訓練,可以尋找影像中物件與描述它們的文字之間的上下文關係。 結果是能夠從語義上解釋圖像以確定它描繪了哪些物體和活動;並產生適當的描述或建議相關標籤。
一個人在吃蘋果。