En savoir plus sur la reconnaissance optique de caractères dans Microsoft Purview

Article
02/14/2024

L’analyse de reconnaissance optique de caractères (OCR) permet à Microsoft Purview d’analyser le contenu des images à la recherche d’informations sensibles. Fonctionnalité facultative, l’analyse OCR est d’abord activée au niveau du locataire. Une fois l’option activée, vous sélectionnez les emplacements où vous souhaitez analyser les images. L’analyse des images est disponible pour les appareils Exchange, SharePoint, OneDrive, Teams et Windows. Une fois les paramètres OCR configurés, vos stratégies existantes pour la protection contre la perte de données (DLP), la gestion des enregistrements et la gestion des risques internes (IRM) sont appliquées aux images et au contenu textuel. Par exemple, supposons que vous avez configuré le contenu de la condition DLP contenant des informations sensibles et inclus un classifieur de données tel que le type d’informations sensibles « Carte de crédit » (SIT). Dans ce cas, Microsoft Purview recherche les nombres de carte de crédit dans le texte et les images à tous les emplacements choisis.

Aperçu rapide du flux de travail

Phase	De quoi ai-je besoin ?
Phase 1 : Créer un abonnement Azure si nécessaire	Si votre organization n’a pas encore d’abonnement Azure avec paiement à l’utilisation pour votre locataire, votre administrateur général doit commencer par créer un compte Azure.
Phase 2 : Configurez la facturation du paiement à l’utilisation pour activer l’OCR.	Votre administrateur général ou SharePoint doit suivre les instructions fournies dans Configurer Microsoft Syntex facturation dans Azure pour ajouter un abonnement pour la reconnaissance optique de caractères.
Phase 3 : Configurer les paramètres d’analyse OCR	L’administrateur de conformité de votre organization configure les paramètres OCR pour votre locataire.

Phase 1 : Conditions préalables

Pour utiliser l’analyse OCR, l’administrateur général de votre organization doit vérifier qu’un abonnement Azure avec paiement à l’utilisation est en place. Si ce n’est pas le cas, ils doivent le configurer, en suivant les instructions fournies dans Créer vos abonnements Azure initiaux

Phase 2 : Configurer la facturation

Lorsque vous activez la reconnaissance optique de caractères, tous les types d’informations sensibles et les classifieurs pouvant être entraînés peuvent détecter les caractères qui se trouvent dans les images.

Étant donné qu’il s’agit d’une fonctionnalité facultative, votre administrateur général doit configurer la facturation du paiement à l’utilisation pour activer la reconnaissance optique de caractères. Reportez-vous aux instructions fournies dans Configurer Microsoft Syntex facturation dans Azure pour ajouter un abonnement pour la reconnaissance optique de caractères.

Remarque

Une fois que les informations de facturation sont entrées dans Microsoft Syntex, votre administrateur de conformité peut configurer la reconnaissance optique de caractères dans Microsoft Purview, sans aucune configuration ou licence supplémentaire requise.

Vous trouverez des informations sur les tarifs ocr avec paiement à l’utilisation dans la page Configurer Microsoft Syntex facturation dans Azure.

Frais

Les frais liés à l’utilisation de la reconnaissance optique de caractères sont de 1,00 $ pour chaque tranche de 1 000 éléments analysés. Chaque image analysée compte comme une seule transaction. Cela signifie que les images autonomes (JPEG, JPG, PNG, BMP ou TIFF) comptent chacune comme une seule transaction. Cela signifie également que chaque page d’un fichier PDF est facturée séparément. Par exemple, s’il y a 10 pages dans un fichier PDF, une analyse OCR du fichier PDF compte pour 10 analyses distinctes.

Remarque

Pour réduire vos coûts OCR, les frais d’analyse de chaque image unique ne sont facturés qu’une seule fois.

Les petites images, telles que les logos et les signatures envoyés par e-mail via Microsoft Exchange, ne sont analysées et facturées qu’une seule fois par image unique pour tous les utilisateurs du locataire. Pour toutes les instances suivantes, les résultats de l’analyse précédente seront réutilisés.

De plus, chaque image analysée peut être utilisée dans un certain nombre de stratégies pour la protection contre la perte de données, la gestion des risques internes, l’étiquetage automatique et la gestion des enregistrements sans frais supplémentaires.

Importante

Pour plus d’informations sur les exigences d’Adobe pour l’utilisation des fonctionnalités de Protection contre la perte de données Microsoft Purview (DLP) avec des fichiers PDF, consultez cet article d’Adobe : Protection des données Microsoft Purview support dans Acrobat.

Pour afficher votre facture, suivez les instructions décrites dans Surveiller l’utilisation de votre Microsoft Syntex paiement à l’utilisation.

Estimer votre facture

Lorsque vous commencez à utiliser la reconnaissance optique de caractères, limitez l’utilisation à quelques personnes et aux charges de travail applicables. Après quelques instants, vous pouvez afficher votre facture dans Azure et afficher les statistiques d’utilisation & les frais pour chaque jour. À partir de là, vous pouvez extrapoler les coûts pour votre ensemble complet d’utilisateurs. En outre, vous pouvez utiliser l’étiquette « workload » dans Azure Cost Management pour voir la répartition de l’utilisation par charge de travail.

Phase 3 : Configurer vos paramètres OCR

Dans la portail de conformité Microsoft Purview, accédez à Paramètres.
Sélectionnez Reconnaissance optique de caractères (OCR) pour entrer vos paramètres de configuration OCR.
Sélectionnez les emplacements où vous souhaitez analyser les images.
Sélectionnez les groupes de distribution que vous souhaitez inclure ou exclure des analyses OCR.
Choisir Terminé

Les emplacements et solutions pris en charge sont répertoriés dans le tableau ci-dessous.

Autorisations

Le compte que vous utilisez pour créer et déployer des stratégies doit être membre de l’un de ces groupes de rôles

Administrateur de conformité
Administrateur de conformité des données
Administrateur général
Protection des informations
Administrateur Information Protection

Remarque

En général, les paramètres OCR prennent effet environ une heure après avoir été activés.
Pour plus d’informations sur la fonctionnalité OCR dans Conformité des communications Microsoft Purview, consultez Créer et gérer des stratégies de conformité des communications.

Emplacements et solutions pris en charge

Emplacement	Solutions prises en charge
Exchange	Prévention des pertes de données Protection des informations : stratégies d’étiquetage automatique Gestion des enregistrements : appliquer automatiquement des stratégies d’étiquette de rétention¹
Sites SharePoint	Prévention des pertes de données Gestion des risques internes² Gestion des enregistrements : appliquer automatiquement des stratégies d’étiquette de rétention¹
Les comptes OneDrive	Prévention des pertes de données Gestion des enregistrements : appliquer automatiquement des stratégies d’étiquette de rétention¹
conversation et messages de canal Teams	Prévention des pertes de données Gestion des risques internes²
Appareils	Prévention des pertes de données Gestion des risques internes²

¹ Prend en charge les mots clés et les types d’informations sensibles.
² Prend en compte les types d’informations sensibles et les classifieurs pouvant être entraînés présents dans les images pour le scoring des risques.

Quels sont les types de fichiers pris en charge ?

Cette fonctionnalité prend en charge l’analyse des images dans les types de fichiers suivants, avec les exigences indiquées :

Types de fichiers pris en charge	Configuration requise pour l’image
JPEG, JPG, PNG, BMP, TIFF et PDF (image uniquement)	Tailles de fichier : Les fichiers image ne doivent pas dépasser 20 Mo pour Exchange et Teams. Pour les points de terminaison SharePoint, OneDrive et Windows, la taille maximale du fichier image est de 50 Mo. Résolution d’image : La résolution d’image doit être d’au moins 50 x 50 pixels et ne doit pas dépasser 16 000 x 16 000 px.

Importante

Seules les images chargées après l’activation de la reconnaissance optique de caractères sont analysées.
Les e-mails entrants (messages provenant d’utilisateurs en dehors de l’organization) et sortants (e-mails envoyés par les utilisateurs à l’intérieur du organization) sont soumis à l’analyse OCR. Pour limiter les analyses OCR aux e-mails sortants uniquement, remplacez les paramètres OCR de l’étendue par défaut de Tous les groupes de distribution par les groupes de distribution spécifiques et spécifiez les groupes de distribution internes que vous souhaitez analyser. Pour plus d’informations sur la modification de cette configuration, consultez Phase 3 : Configurer vos paramètres OCR.
Les conseils de stratégie de protection contre la perte de données ne sont pas pris en charge pour les images dans Exchange.
Si vous excluez un chemin d’accès dans les paramètres de protection contre la perte de données de point de terminaison, l’OCR n’analyse pas les images dans ces dossiers.
Lorsque la reconnaissance optique de caractères est activée pour les appareils Windows, les appareils commencent à envoyer des messages au cloud à des fins d’analyse. La limite de bande passante par défaut est de 1 024 Mo de données par appareil et par jour. La reconnaissance optique de caractères arrête l’analyse des images une fois cette limite quotidienne atteinte. Si vous souhaitez continuer à analyser les images, vous pouvez augmenter la limite de bande passante.

Quelles sont les langues prises en charge ?

L’analyse OCR prend en charge plus de 150 langues.

Résumé

Pour utiliser la reconnaissance optique de caractères, vous devez configurer Microsoft Syntex facturation du paiement à l’utilisation. (Vous n’avez pas besoin de configurer Microsoft Syntex elle-même.)
La configuration de la reconnaissance optique de caractères se produit au niveau du locataire. Par conséquent, une fois la reconnaissance optique de caractères configurée, elle est disponible pour l’ensemble de la pile Microsoft Purview.
Vous n’avez pas besoin de créer des classifieurs de données distincts pour l’OCR. Une fois la reconnaissance optique de caractères configurée, les types d’informations sensibles existants, les données exactes correspondent aux types d’informations sensibles basés sur les données, les classifieurs pouvant être formés et les SIT d’empreinte digitale analysent les images ainsi que les documents et les e-mails.

En savoir plus sur la reconnaissance optique de caractères dans Microsoft Purview

Aperçu rapide du flux de travail

Phase 1 : Conditions préalables

Phase 2 : Configurer la facturation

Frais

Estimer votre facture

Phase 3 : Configurer vos paramètres OCR

Autorisations

Emplacements et solutions pris en charge

Quels sont les types de fichiers pris en charge ?

Quelles sont les langues prises en charge ?

Résumé

Voir aussi

Commentaires

Commentaires

Ressources supplémentaires