簡介

已完成

假設您有包含文字的影像。 這些影像可能包括路標、JPEG 或 PNG 等影像檔案格式的掃描文件,或會議期間使用的白板圖片。 文字有可能是印刷或打字的,甚或包含手寫。

電腦系統處理手寫和印刷文字的能力,屬於「電腦視覺」與「自然語言處理」交集的人工智慧 (AI) 領域。 首先需要以視覺功能「讀取」文字,再來則需要自然語言處理功能以解讀文字的意義。

處理影像中的文字基礎在於「光學字元辨識」(OCR),以此方法可定型模型來將個別圖形辨識為字母、數字、標點符號或其他文字元素。 執行這類功能的工作早期多見於郵政服務,以支援根據郵遞區號自動分類郵件。 此後,讀取文字的最新技術不斷進步,其現在可建置模型,偵測影像中的文字是印刷或手寫,並逐行或逐字讀取。

在本課程模組中,我們的重點是使用 OCR 技術來偵測影像中文字,將其轉換成文字型的資料格式以用於儲存、列印或作為輸入來供進一步處理或分析。

使用 OCR

辨識影像中印刷和手寫文字的能力在許多情況下都很有幫助,例如記筆記、數位化醫療記錄或歷程記錄文件、掃描支票以進行銀行存款等等。