了解電腦視覺

已完成

電腦視覺是負責視覺處理的 AI 領域。 讓我們來探索電腦視覺帶來的一些可能性。

Seeing AI 應用程式是展現電腦視覺強大能力的絕佳範例。 Seeing AI 應用程式是專為視障和弱視社群所設計,其利用 AI 功能來開啟視覺世界並描述附近的人物和文字。

請觀看下列影片以深入了解 Seeing AI。

若要深入了解,請參閱 Seeing AI 網頁 (英文)。

電腦視覺模型和功能

大部分的電腦視覺解決方案都是以機器學習模型為基礎,其可套用至相機、影片或影像的視覺輸入。 下表描述常見的電腦視覺工作。

Task 描述
影像分類 An image of a taxi with the label
影像分類需要定型機器學習服務模型,以根據影像的內容來分類影像。 例如,在交通監視解決方案中,您可使用影像分類模型,根據其所包含的車輛類型 (例如計程車、公車、腳踏車等) 來分類影像。
物件偵測 An image of a street with buses, cars, and cyclists identified and highlighted with a bounding box.
定型物件偵測機器學習模型以分類影像中的個別物件,並使用週框方塊來識別其位置。 例如,交通監視解決方案可能會使用物件偵測來識別不同車輛類別的位置。
語意分割 An image of a street with the pixels belonging to buses, cars, and cyclists identified.
語意分割是一種進階機器學習技術,其中影像的個別像素會根據其所屬的物件進行分類。 例如,交通監視解決方案可能會使用「遮罩」層來將交通影像重疊,以使用特定色彩來醒目提示不同的車輛。
影像分析 An image of a person with a dog on a street and the caption
您可建立結合機器學習模型與進階影像分析技術的解決方案,從影像擷取資訊,包括可協助分類影像的「標籤」,或甚至是摘要影像中所示場景的描述性標題。
臉部偵測、分析和辨識 An image of multiple people on a city street with their faces highlighted.
臉部偵測是一種特殊形式的物件偵測,可找出影像中的人臉。 這可與分類和臉部幾何分析技術結合,根據其臉部特徵來辨識個人。
光學字元辨識 (OCR) An image of a building with the sign
光學字元辨識是用來偵測和讀取影像中文字的技術。 您可使用 OCR 來讀取相片中的文字 (例如道路標誌或店面),或從掃描的文件 (例如信件、發票或表單) 擷取資訊。

Microsoft Azure 中的電腦視覺服務

您可以使用 Microsoft 的 Azure AI 視覺來開發電腦視覺解決方案。 服務功能可用於 Azure Vision Studio 和其他程式設計語言中的使用和測試。 Azure AI 視覺的一些功能包括:

  • 影像分析:分析影像和影片,以及擷取描述、標記、物件和文字的功能。
  • 臉部:可讓您建置臉部偵測和臉部辨識解決方案的功能。
  • 光學字元辨識 (OCR):從影像擷取印刷或手寫文字的功能,可讓您存取掃描文字的數位版本。