OCR - 光學字元辨識
OCR 或光學字元辨識也稱為文字辨識或文字擷取。 機器學習型 OCR 技術可讓您從海報、街道符號和產品標籤這類影像以及從文章、報表、表單和發票這類文件中擷取印刷或手寫文字。 文字通常會擷取為字組、文字行和段落或文字區塊,以存取所掃描文字的數位版本。 這可消除或大幅減少手動輸入資料的需求。
OCR 引擎
Microsoft 的「讀取」OCR 引擎是由支援全球語言的多個進階機器學習型模型所組成。 其能夠擷取印刷和手寫文字,包括混合語言和書寫樣式。 「讀取」可作為雲端服務和內部部署容器,以取得部署彈性。 也可以作為具有效能增強功能的單一、非文件、僅限影像案例的同步 API,而效能增強功能可讓您更輕鬆地實作 OCR 輔助使用者體驗。
警告
不建議使用 Azure AI 視覺 v3.2 中的 OCR API 和 v2.1 中的 RecognizeText API 的舊版作業。
OCR (讀取) 版本
重要
選取最符合您需求的讀取版本。
輸入 | 範例 | 讀取版本 | 優點 |
---|---|---|---|
影像:一般、野生影像 | 標籤、街道符號和海報 | 適用於影像的 OCR (4.0 版) | 已針對具有效能增強功能同步 API 的一般非文件影像進行最佳化,而效能增強功能同步 API 可讓您更輕鬆地在使用者體驗案例中內嵌 OCR。 |
文件:數位及掃描文件,包括影像 | 書籍、文章和報表 | 文件智慧讀取模型 | 使用非同步 API 針對大量文字的數位及掃描文件進行最佳化,以協助將大規模的智慧型文件處理自動化。 |
關於 Azure AI 視覺 v3.2 GA 讀取
尋找最新的 Azure AI 視覺 v3.2 GA 讀取? 所有未來的讀取 OCR 增強功能都屬於先前所列的兩項服務。 Azure AI 視覺 v3.2 沒有進一步的更新。 如需詳細資訊,請參閱呼叫 Azure AI 視覺 3.2 GA 讀取 API 和快速入門:Azure AI 視覺 v3.2 GA 讀取。
OCR 與智慧型文件處理 (IDP) 的關聯性為何?
智慧型文件處理 (IDP) 會使用 OCR 作為其基礎技術,以利用文件智慧服務這類進階機器學習型 AI 服務來額外擷取結構、關聯性、索引鍵值、實體和其他以文件為主的深入解析。 文件智慧服務包括文件最佳化「讀取」版本作為其 OCR 引擎,同時委派給其他模型以進行更高階的深入解析。 如果您要擷取所掃描和數位文件中的文字,則請使用文件智慧服務讀取 OCR。
如何使用 OCR
使用 Vision Studio 來試用 OCR。 然後遵循最符合您需求的其中一個讀取版本連結。
OCR 支援的語言
Azure AI 視覺中目前可用的兩個「讀取」版本都支援數種語言的印刷和手寫文字。 適用於印刷文字的 OCR 包括支援英文、法文、德文、義大利文、葡萄牙文、西班牙文、中文、日文、韓文、俄文、阿拉伯文、印度文和使用拉丁文、斯拉夫文、阿拉伯文和梵文字母文字的其他國際語言。 用於手寫文字的 OCR 包含支援英文、簡體中文、法文、德文、義大利文、日文、韓文、葡萄牙文和西班牙文。
請參閱 OCR 支援語言的完整清單。
OCR 常用功能
Azure AI 視覺和文件智慧服務中提供讀取 OCR 模型與通用基準功能,同時針對個別案例進行最佳化。 下列清單摘要說明通用功能:
- 使用所支援語言的印刷和手寫文字擷取
- 具有位置和信賴分數的頁面、文字行和字組
- 支援混合語言、混合模式 (印刷和手寫)
- 可以部署為內部部署的 Distroless Docker 容器
使用 OCR 雲端 API 或透過內部部署方式部署
雲端 API 是大部分客戶慣用的選項,因為這種方法可讓他們輕鬆地整合並立即快速提高生產力。 當您專注於滿足客戶的需求時,Azure 和 Azure AI 視覺服務可處理縮放、效能、資料安全性和合規性需求。
針對內部部署,讀取 Docker 容器可讓您在自己的本機環境中部署 Azure AI 視覺 v3.2 正式推出 OCR 功能。 容器非常適合用於特定的安全性和資料控管需求。
輸入需求
讀取 API 會採用影像和文件作為其輸入。 影像和文件必須符合下列需求:
- 支援的檔案格式為 JPEG、PNG、BMP、PDF 和 TIFF。
- 若為 PDF 和 TIFF 檔案,最多處理 2,000 頁 (對於免費層,只會處理前兩頁)。
- 影像的檔案大小必須小於 500 MB(免費層為 4 MB),其尺寸至少為 50 x 50 圖元,最多 10,000 x 10,000 像素。 PDF 檔案沒有大小限制。
- 要擷取之文字的最小高度是 1024 x 768 影像的 12 圖元,其對應至 150 DPI 的約 8 點字型文字。
注意
您不需要裁剪文字行的影像。 將整個影像傳送至讀取 API,並辨識所有文字。
OCR 資料隱私權和安全性
和所有 Azure AI 服務一樣,使用 Azure AI 視覺服務的開發人員應該要了解 Microsoft 對於客戶資料的政策。 請參閱 Microsoft 信任中心上的 Azure AI 服務頁面以深入了解。
下一步
- 適用於一般 (非文件) 影像的 OCR:請嘗試 Azure AI 視覺 4.0 預覽影像分析 REST API 快速入門。
- 適用於 PDF、Office 和 HTML 文件和文件影像的 OCR:從文件智慧服務讀取開始。
- 尋找舊版 GA 嗎? 請參閱Azure AI 視覺 3.2 GA SDK 或 REST API 快速入門。