在多語言文件上執行 OCR

光學字元辨識 (OCR) 可讓您從影像或畫面中尋找和擷取文字。

雖然大多數案例要求您使用特定語言來處理文字,但是在部分案例中,來源是多語系。

若要對這些來源執行 OCR,請在相應的 OCR 動作中使用 Tesseract 引擎,並在引擎設定中啟用使用其他語言選項。

[使用 OCR 擷取文字] 動作中的 [使用其他語言] 選項的螢幕擷取畫面。

啟用使用其他語言選項後,該動作會顯示兩個附加設定:語言縮寫語言資料路徑欄位。

語言縮寫欄位會向引擎指示在 OCR 期間要尋找的語言。 語言資料路徑欄位包含用於訓練 OCR 引擎的語言資料檔案 (.traineddata)。

[使用 OCR 擷取文字] 動作中 [語言縮寫] 與 [語言資料路徑欄位] 的螢幕擷取畫面。

下載所需語言的資料檔案後,將它們移至通用資料夾,使其在同一路徑下可以使用。

接著,在語言資料路徑欄位中選取 [建立的資料夾],並在語言縮寫欄位填入相應的語言代碼。 若要分隔語言代碼,請使用加號字元 (+)。

注意

您可以在語言資料檔案的來源中找到所有可用的語言代碼。 在下列範例中,使用的代碼代表特拉古文、印度文和英文。

[使用 OCR 擷取文字] 動作中填入 [語言縮寫] 與 [語言資料路徑欄位] 的螢幕擷取畫面。