OCR – reconnaissance optique de caractères

2024-10-18

Avertissement

Ce service, y compris l’API OCR héritée d’Azure AI Vision dans v3.2 et l’API RecognizeText dans la version 2.1, n’est pas recommandé pour une utilisation.

Éditions OCR (Read)

Important

Sélectionnez l’édition Read qui répond le mieux à vos besoins.

Entrée	Exemples	Édition Read	Avantage
Images : Images génériques générales	étiquettes, panneaux de rue et affiches	OCR pour les images (version 4.0)	Optimisé pour les images générales qui ne sont pas des documents avec une API synchrone optimisée pour les performances qui facilite l’incorporation de l’OCR dans vos scénarios d’expérience utilisateur.
Documents : Documents numériques et numérisés, y compris les images	livres, articles et rapports	Modèle de lecture d’Intelligence documentaire	Optimisé pour les documents numérisés et numériques riches en texte avec une API asynchrone afin d’automatiser le traitement intelligent des documents à grande échelle.

À propos d’Azure AI Vision v3.2 GA Read

Vous recherchez l’API Azure AI Vision v3.2 GA Read la plus récente ? Toutes les futures améliorations de l’OCR en lecture font partie des deux services répertoriés précédemment. Il n’y a pas aucune autre mise à jour apportée à Azure AI Vision v3.2. Pour plus d’informations, consultez Appeler l’API Lecture en disponibilité générale Azure AI Vision 3.2 et Démarrage rapide : lecture en disponibilité générale Azure AI Vision v3.2.

OCR ou Reconnaissance optique de caractères est également appelé reconnaissance de texte ou extraction de texte. Les techniques OCR basées sur le Machine Learning vous permettent d’extraire du texte imprimé ou manuscrit à partir d’images, comme des affiches, des plaques de rue ou des étiquettes de produits, ainsi qu’à partir de documents comme des articles, des rapports, des formulaires et des factures. Le texte est généralement extrait sous forme de mots, de lignes de texte et de paragraphes ou de blocs de texte, ce qui permet d’accéder à la version numérique du texte numérisé. Cela élimine ou réduit considérablement la nécessité d’une saisie manuelle des données.

Moteur OCR

Le moteur OCR Lecture de Microsoft est composé de plusieurs modèles avancés basés sur le Machine Learning prenant en charge les langues globales. Celui-ci peut extraire du texte imprimé et manuscrit, y compris des langues et styles d’écriture mixtes. Read est disponible en tant que service cloud et conteneur local pour la flexibilité du déploiement. Elle est également disponible en tant qu’API synchrone pour les scénarios d’images uniques, sans document, avec des améliorations de performance qui facilitent l’implémentation d’expériences utilisateur assistées par OCR.

Le traitement intelligent des documents (IDP) utilise OCR comme technologie de base pour extraire en plus une structure, des relations, des valeurs clés, des entités et d’autres insights centrés sur les documents avec un service d’IA basé sur Machine Learning avancé comme Intelligence documentaire. Intelligence documentaire inclut une version optimisée pour les documents de Read en tant que moteur OCR tout en déléguant à d’autres modèles pour obtenir des insights de niveau supérieur. Si vous extrayez du texte à partir de documents numérisés et numériques, utilisez OCR Read Intelligence documentaire.

Comment utiliser OCR ?

Essayez la reconnaissance optique de caractères à l’aide de Vision Studio. Suivez ensuite l’un des liens vers l’édition Lecture qui répondent le mieux à vos besoins.

Essayez Vision Studio

Capture d’écran : démo de reconnaissance OCR Read dans Vision Studio.

Langues prises en charge par OCR

Les deux versions Read disponibles aujourd’hui dans Azure AI Vision prennent en charge plusieurs langues pour le texte imprimé et manuscrit. Pour le texte imprimé, la reconnaissance OCR comprend la prise en charge de l’anglais, du français, de l’allemand, de l’italien, du portugais, de l’espagnol, du chinois, du japonais, du coréen, du russe, de l’arabe, de l’hindi et d’autres langues internationales qui utilisent des scripts latins, cyrilliques, arabes et dévanâgarîs. Pour le texte manuscrit, la reconnaissance OCR comprend la prise en charge de l’anglais, du français, de l’allemand, de l’italien, du japonais, du coréen, du portugais, de l’espagnol et du chinois simplifié.

Consultez la liste complète des langues prises en charge par OCR.

Fonctionnalités courantes d’OCR

Le modèle OCR Read est disponible dans Azure AI Vision et Intelligence documentaire avec des fonctionnalités de base courantes tout en optimisant les scénarios respectifs. La liste suivante résume les fonctions courantes :

Extraction de texte imprimé et manuscrit dans les langues prises en charge
Pages, lignes de texte et mots avec scores d’emplacement et de confiance
Prise en charge des langues mixtes et du mode mixte (impression et écriture manuscrite)
Disponible en tant que conteneur Docker Distroless pour un déploiement local

Utiliser les API cloud OCR ou déployer localement

Les API cloud sont l’option préférée pour la plupart des clients en raison de leur facilité d’intégration et de leur productivité rapide prête à l’emploi. Azure et le service Azure AI Vision gèrent l’évolutivité, les performances, la sécurité des données et les besoins en matière de conformité tout en répondant aux besoins de vos clients.

Pour un déploiement local, le conteneur Docker Read vous permet de déployer les capacités OCR généralement disponibles dans Azure AI Vision v3.2 dans votre propre environnement local. Les conteneurs conviennent particulièrement bien à certaines exigences de sécurité et de gouvernance des données.

Critères des entrées

L’API Lecture accepte comme entrée des images et des documents. Les images et les documents doivent répondre aux exigences suivantes :

Formats de fichiers pris en charge : JPEG, PNG, BMP, PDF et TIFF.
Pour les fichiers PDF et TIFF, jusqu’à 2 000 pages (seules les deux premières pages pour le niveau gratuit) sont traitées.
La taille de fichier des images doit être inférieure à 500 Mo (4 Mo pour le niveau gratuit), et les dimensions comprises entre 50 × 50 pixels et 10 000 × 10 000 pixels. Les fichiers PDF n’ont pas de limite de taille.
La hauteur minimale du texte à extraire est de 12 pixels pour une image de 1024 x 768, qui correspond environ à un texte de police de 8 points à 150 PPP.

Remarque

Vous n’avez pas besoin de rogner une image pour obtenir les lignes de texte. Envoyez l’image entière à l’API Read et elle reconnaît tous les textes.

Données, confidentialité et sécurité OCR

Comme avec tous les Azure AI services, les développeurs utilisant le service Azure AI Vision doivent connaître les politiques de Microsoft relatives aux données client. Si vous souhaitez obtenir plus d’informations, consultez la page Azure AI services dans le Centre de gestion de la confidentialité Microsoft.

Étapes suivantes

OCR pour images (et non documents) générales : essayez le Démarrage rapide API REST d’analyse des images en préversion Azure AI Vision 4.0.
OCR pour documents PDF, Office et HTML et leurs images : commencez avec Intelligence documentaire Read.
Vous recherchez la version à disponibilité générale précédente ? Reportez-vous aux Démarrages rapides API REST ou du Kit de développement logiciel (SDK) Azure AI Vision 3.2 GA.