Partager via


Vue d’ensemble de la reconnaissance optique de caractères dans SharePoint

Remarque

Jusqu’en décembre 2025, vous pouvez essayer gratuitement une quantité limitée de services de reconnaissance optique de caractères et d’autres services de contenu sélectionnés si la facturation du paiement à l’utilisation est configurée. Pour plus d’informations et pour connaître les limitations, consultez Tester les services de paiement à l’utilisation.

Le service de reconnaissance optique de caractères (OCR) dans SharePoint vous permet d’extraire du texte imprimé ou manuscrit à partir d’images et de documents. Les affiches, les dessins et les étiquettes de produits sont des exemples d’images. Les articles, les rapports, les formulaires et les factures sont des exemples de documents.

Le texte est généralement extrait sous forme de mots, de lignes de texte, de paragraphes ou de blocs de texte, ce qui permet d’accéder à la version numérique du texte numérisé. Les informations extraites sont indexées dans la recherche et peuvent être mises à disposition pour les fonctionnalités de conformité telles que la protection contre la perte de données (DLP).

Par exemple, vous activez le service OCR, puis ajoutez des fichiers image à votre bibliothèque de documents. La fonctionnalité analyse automatiquement les fichiers image, extrait le texte approprié et rend le texte des images disponible pour la recherche et l’indexation. Cette fonctionnalité vous permet de trouver rapidement et précisément les mots clés et les expressions que vous recherchez.

Configuration requise et limitations

Types de fichiers pris en charge

Point de terminaison Types de fichiers pris en charge
SharePoint et OneDrive .bmp, .png, .jpeg, .jpg, .jfif, .arw, .cr2, .crw, .erf, .gif, .mef, .mrw, .nef, .nrw, .orf, .pef, .raw, .rw2, .rw1, .sr2, .tif, .tiff, .heic, .heif, .ari, .bay, .cap, .cr3, .dcs, .dcr, .drf, .eip, .fff, .iiq, .k25, .kdc, .mef, .mos, .ptx, .pxn, .raf, .rwl, .sr2, .srf, .srw, .x3f, .dng, .tiff, and .pdf (scanned and hybrid) Les images incorporées dans docx, pptx, xlsx sont extraites et analysées
Exchange .jpeg, .jpg, .png, .bmp, .tiff, and PDFs (scanned and hybrid) . Images incorporées dans docx, pptx, xlsx, rar, tar, zip, 7z
Point de terminaison Teams, Windows et macOS .jpeg, .jpg, .png, .bmp, .tiff, and PDF (image only)

En plus du PDF basé sur l’image, l’OCR SharePoint prend en charge le PDF hybride (texte plus image PDF). Les fichiers PDF hybrides nouvellement chargés seront traités par le service OCR.

Remarque

Lorsque vous appliquez la reconnaissance optique de caractères à un fichier image, le texte est stocké dans la colonne Métadonnées du texte extrait . Lorsque vous appliquez la reconnaissance optique de caractères à un fichier PDF ou TIFF, le texte extrait est indexé dans la recherche, mais n’est pas disponible dans la colonne de métadonnées.

Prise en charge des fichiers Office dans SharePoint

SharePoint prend désormais en charge la reconnaissance optique de caractères pour les fichiers Office Microsoft 365, y compris les documents Word, PowerPoint et Excel. Toutes les images ajoutées à ces fichiers seront automatiquement analysées à l’aide de l’OCR, et le texte extrait sera indexé à des fins de recherche et intégré aux solutions de conformité. En outre, SharePoint a implémenté des processus de déduplication pour case activée d’images uniques afin d’éviter les frais dupliqués sur les mêmes images.

Langues prises en charge

Le service OCR prend en charge plus de 150 langues.

Emplacements et solutions pris en charge

Le service OCR prend en charge plusieurs solutions, comme indiqué dans le tableau suivant. Pour plus d’informations sur les solutions de conformité, consultez Emplacements et solutions pris en charge dans Microsoft Purview.

Lieu Solution prise en charge
Exchange Le texte est disponible pour la recherche par l’utilisateur final et les solutions pilotées par la recherche.
Le texte est disponible pour les solutions de conformité.
Sites SharePoint Le texte est disponible pour la recherche par l’utilisateur final et les solutions pilotées par la recherche.
Le texte est disponible pour les solutions de conformité.
Comptes OneDrive Le texte est disponible pour la recherche par l’utilisateur final et les solutions pilotées par la recherche.
Le texte est disponible pour les solutions de conformité.
Conversation teams et message de canal Le texte est disponible pour les solutions de conformité.
Appareils Le texte est disponible pour les solutions de conformité.

Limitations de fichier

  • Les images doivent être inférieures à 50 Mo.

  • Les images doivent être d’au moins 50 x 50 pixels et ne pas dépasser 16 000 x 16 000 pixels.

  • Les images chargées après l’activation de la reconnaissance optique de caractères sont les seules images qui sont analysées.