Vue d’ensemble de la reconnaissance optique de caractères dans Microsoft Syntex

Article
03/05/2024

Remarque

Jusqu’en juin 2025, vous pouvez essayer gratuitement la reconnaissance optique de caractères et d’autres services Syntex sélectionnés si la facturation du paiement à l’utilisation est configurée. Pour plus d’informations et pour connaître les limitations, consultez Essayer Microsoft Syntex et explorer ses services.

Le service de reconnaissance optique de caractères (OCR) dans Microsoft Syntex vous permet d’extraire du texte imprimé ou manuscrit à partir d’images et de documents. Les affiches, les dessins et les étiquettes de produits sont des exemples d’images. Les articles, les rapports, les formulaires et les factures sont des exemples de documents.

Le texte est généralement extrait sous forme de mots, de lignes de texte, de paragraphes ou de blocs de texte, ce qui permet d’accéder à la version numérique du texte numérisé. Les informations extraites sont indexées dans la recherche et peuvent être mises à disposition pour les fonctionnalités de conformité telles que la protection contre la perte de données (DLP).

Par exemple, vous activez le service OCR, puis ajoutez des fichiers image à votre bibliothèque de documents. Microsoft Syntex analyse automatiquement les fichiers image, extrait le texte approprié et rend le texte des images disponible pour la recherche et l’indexation. Cette fonctionnalité vous permet de trouver rapidement et précisément les mots clés et les expressions que vous recherchez.

Configuration requise et limitations

Types de fichiers pris en charge

Point de terminaison	Types de fichiers pris en charge
SharePoint et OneDrive	.bmp, .png, .jpeg, .jpg, .jfif, .arw, .cr2, .cr2, .crw, .erf, .gif, .mef, .mrw, .nef, .nrw, .orf, .pef, .raw, .rw2, .rw1, .sr2, .tif, .tiff, .heic, .heif, .ari, .bay, .cap, .cr3, .dcs, .dcr, .drf, .eip, .fff, .iiq, .k25, .kdc, .mef, .mos, .ptx, .pxn, .raf, .rwl, .sr2, .srf, .srw, .x3f, .dng, .tiff et .pdf (image uniquement)
Appareils Teams, Exchange et Windows	.bmp, .png, .jpeg, .jpg, .tiff et .pdf (image uniquement)

Remarque

Lorsque vous appliquez la reconnaissance optique de caractères à un fichier image, le texte est stocké dans la colonne Métadonnées du texte extrait . Lorsque vous appliquez la reconnaissance optique de caractères à un fichier PDF ou TIFF, le texte extrait est indexé dans la recherche, mais n’est pas disponible dans la colonne de métadonnées.

Langues prises en charge

Le service OCR prend en charge plus de 150 langues.

Emplacements et solutions pris en charge

Le service OCR prend en charge plusieurs solutions, comme indiqué dans le tableau suivant. Pour plus d’informations sur les solutions de conformité, consultez Emplacements et solutions pris en charge dans Microsoft Purview.

Emplacement	Solution prise en charge
Exchange	Le texte est disponible pour la recherche par l’utilisateur final et les solutions pilotées par la recherche. Le texte est disponible pour les solutions de conformité.
Sites SharePoint	Le texte est disponible pour la recherche par l’utilisateur final et les solutions pilotées par la recherche. Le texte est disponible pour les solutions de conformité.
Les comptes OneDrive	Le texte est disponible pour la recherche par l’utilisateur final et les solutions pilotées par la recherche. Le texte est disponible pour les solutions de conformité.
Conversation teams et message de canal	Le texte est disponible pour les solutions de conformité.
Appareils	Le texte est disponible pour les solutions de conformité.

Limitations de fichier

Les images doivent être inférieures à 50 Mo.
Les images doivent être d’au moins 50 x 50 pixels et ne pas dépasser 16 000 x 16 000 pixels.
Les images chargées après l’activation de la reconnaissance optique de caractères sont les seules images qui sont analysées.
Les images incorporées dans les documents Office ne sont pas prises en charge.

Partager via