Effectuer l’OCR sur des documents multilingues

2023-03-16

La reconnaissance optique de caractères (OCR) vous permet de localiser et d’extraire du texte à partir d’images ou de l’écran.

Bien que la plupart des scénarios exigent que vous manipuliez du texte dans une langue spécifique, il existe des cas où les sources sont multilingues.

Pour effectuer l’OCR sur ces sources, utilisez un moteur Tesseract dans l’action OCR respective et activez l’option Utiliser une autre langue dans les paramètres du moteur.

Capture d’écran de l’option Utiliser d’autres langues dans l’action Extraire le texte avec OCR.

Quand l’option Utiliser une autre langue est activée, l’action affiche deux paramètres supplémentaires : le champ Abréviation de la langue et le champ Chemin d’accès aux données de la langue.

Le champ Abréviation de la langue indique au moteur quelle langue rechercher lors de l’OCR. Le champ Chemin d’accès aux données de la langue contient les fichiers de données de langue (.traineddata) utilisés pour entraîner le moteur OCR.

Capture d’écran des champs Abréviation de langue et Chemin d’accès aux données de langue dans l’action Extraire le texte avec OCR.

Après avoir téléchargé les fichiers de données pour les langues nécessaires, déplacez-les vers un dossier commun pour les rendre disponibles sous le même chemin.

Ensuite, sélectionnez le dossier créé dans le champ Chemin d’accès aux données de la langue et renseignez les codes de langue correspondants dans le champ Abréviation de la langue. Pour séparer les codes de langue, utilisez le caractère plus (+).

Note

Vous pouvez trouver tous les codes de langue disponibles dans la source des fichiers de données de langue. Dans l’exemple suivant, les codes utilisés représentent le telugu, l’hindi et l’anglais.

Capture d’écran des champs Abréviation de langue et Chemin d’accès aux données de langue remplis dans l’action Extraire le texte avec OCR.

Partager via

Effectuer l’OCR sur des documents multilingues

Commentaires

Ressources supplémentaires