在多語言文件上執行 OCR

光學字元辨識 (OCR) 可讓您從影像或畫面中尋找和擷取文字。

雖然大多數案例要求您使用特定語言來處理文字，但是在部分案例中，來源是多語系。

若要對這些來源執行 OCR，請在相應的 OCR 動作中使用 Tesseract 引擎，並在引擎設定中啟用使用其他語言選項。

[使用 OCR 擷取文字] 動作中的 [使用其他語言] 選項的螢幕擷取畫面。

啟用使用其他語言選項後，該動作會顯示兩個附加設定：語言縮寫和語言資料路徑欄位。

語言縮寫欄位會向引擎指示在 OCR 期間要尋找的語言。 語言資料路徑欄位包含用於訓練 OCR 引擎的語言資料檔案 (.traineddata)。

[使用 OCR 擷取文字] 動作中 [語言縮寫] 與 [語言資料路徑欄位] 的螢幕擷取畫面。

下載所需語言的資料檔案後，將它們移至通用資料夾，使其在同一路徑下可以使用。

接著，在語言資料路徑欄位中選取 [建立的資料夾]，並在語言縮寫欄位填入相應的語言代碼。若要分隔語言代碼，請使用加號字元 (+)。

注意

您可以在語言資料檔案的來源中找到所有可用的語言代碼。在下列範例中，使用的代碼代表特拉古文、印度文和英文。

[使用 OCR 擷取文字] 動作中填入 [語言縮寫] 與 [語言資料路徑欄位] 的螢幕擷取畫面。

意見反應