Présentation de la Reconnaissance optique de caractères

La reconnaissance optique de caractères (OCR) vous permet d’extraire du texte imprimé ou manuscrit à partir d’images, comme des photos de plaques de rue ou de produits, ainsi qu’à partir de documents (factures, rapports financiers, articles, etc.). Les technologies OCR de Microsoft prennent en charge l’extraction de texte imprimé en plusieurs langues.

Pour commencer à utiliser l’API REST ou un kit SDK client, suivez un démarrage rapide. Essayez les fonctionnalités OCR rapidement et facilement dans votre navigateur à l’aide de Vision Studio.

Versions de démonstration OCR

Cette documentation contient les types d’articles suivants :

  • Les guides de démarrage rapide sont des instructions pas à pas qui vous permettent d’effectuer des appels au service et d’obtenir des résultats en peu de temps.
  • Les guides patiques contiennent des instructions sur l’utilisation du service de manière plus spécifique ou personnalisée.

Pour une approche plus structurée, suivez un module Learn pour OCR.

API Lire

L’API Read du service Vision par ordinateur est la dernière technologie OCR d’Azure (découvrir les nouveautés). Elle extrait le texte imprimé (en plusieurs langues), le texte manuscrit (en plusieurs langues), les chiffres et les symboles monétaires à partir d’images et de documents PDF multipages. Elle est optimisée pour extraire le texte d’images à forte composante textuelle et de documents PDF multipages en langue mixte. Elle prend en charge l’extraction de texte imprimé et manuscrit dans la même image ou le même document.

Comment l’OCR extraie du texte d’images et de documents.

Critères des entrées

L’appel Lire utilise des images et des documents comme entrée. Les conditions requises sont les suivantes :

  • Formats de fichiers pris en charge : JPEG, PNG, BMP, PDF et TIFF.
  • Pour les fichiers PDF et TIFF, jusqu’à 2 000 pages (seules les deux premières pages pour le niveau gratuit) sont traitées.
  • La taille de fichier d’image doit être inférieure à 500 Mo (4 Mo pour le niveau gratuit), et les dimensions comprises entre 50 × 50 pixels et 10 000 × 10 000 pixels. Les fichiers PDF n’ont pas de limite de taille.
  • La hauteur minimale du texte à extraire est de 12 pixels pour une image 1024 x 768. Cela correspond à environ une police 8 points à 150 PPP.

Langues prises en charge

Le modèle de la dernière API Read en disponibilité générale prend en charge 164 langues pour le texte imprimé et 9 langues pour le texte manuscrit.

Pour le texte imprimé, la reconnaissance OCR comprend la prise en charge de l’anglais, du français, de l’allemand, de l’italien, du portugais, de l’espagnol, du chinois, du japonais, du coréen, du russe, de l’arabe, de l’hindi et d’autres langues internationales qui utilisent des scripts latins, cyrilliques, arabes et dévanâgarîs.

Pour le texte manuscrit, la reconnaissance OCR comprend la prise en charge de l’anglais, du français, de l’allemand, de l’italien, du portugais, de l’espagnol et du chinois simplifié.

Consultez Comment spécifier la version du modèle pour utiliser les langages et fonctionnalités en préversion. Consultez la liste complète des langues prises en charge par OCR.

Fonctionnalités clés

L’API Read comprend les fonctionnalités suivantes.

  • Extraction de texte imprimé en 164 langues
  • Extraction de texte manuscrit en neuf langues
  • Lignes de texte et mots avec scores de localisation et de confiance
  • Aucune identification de langue requise
  • Prise en charge des langues mixtes et du mode mixte (impression et écriture manuscrite)
  • Sélection de pages et de plages de pages à partir de grands documents multipages
  • Option d’ordre de lecture naturel pour la sortie des lignes de texte (Latin uniquement)
  • Classification de l’écriture manuscrite pour les lignes de texte (Latin uniquement)
  • Disponible en tant que conteneur Docker Distroless pour un déploiement local

Découvrez comment utiliser les fonctionnalités OCR.

Utiliser l’API cloud ou déployer localement

Les API cloud Read 3.x sont l’option préférée pour la plupart des clients en raison de la facilité d’intégration et de la productivité rapide prête à l’emploi. Azure et le service de Vision par ordinateur gèrent l’évolutivité, les performances, la sécurité des données et les besoins en matière de conformité tout en répondant aux besoins de vos clients.

Pour un déploiement local, le conteneur Docker Read (préversion) vous permet de déployer les nouvelles capacités OCR dans votre propre environnement local. Les conteneurs conviennent particulièrement bien à certaines exigences de sécurité et de gouvernance des données.

Avertissement

Les opérations de Vision par ordinateur RecognizeText et ocr ne sont plus maintenues et sont en passe d'être dépréciées au profit de la nouvelle API Read couverte par cet article. Les clients existants devraient effectuer la transition vers les opérations de lecture.

Sécurité et confidentialité des données

Comme avec tous les services Cognitive Services, les développeurs utilisant le service Vision par ordinateur doivent connaître les politiques de Microsoft relatives aux données client. Pour en savoir plus, consultez la page Cognitive Services dans le Centre de gestion de la confidentialité Microsoft.

Étapes suivantes