Reconnaissance optique de caractères (OCR)

Important

En raison de l’annonce de mise hors service d’Azure Media Services, Azure AI Video Indexer annonce les ajustements des fonctionnalités d’Azure AI Video Indexer. Consultez les modifications relatives à la mise hors service Azure Media Service (AMS) pour comprendre ce que cela signifie pour votre compte Azure AI Video Indexer. Consultez le guide de préparation de la mise hors service AMS : Mise à jour et migration vi.

La reconnaissance optique de caractères (OCR) est une fonctionnalité IA d’Azure AI Video Indexer qui extrait du texte d’images telles que des images, des signes de rue et des produits dans des fichiers multimédias pour créer des insights.

L’OCR extrait actuellement des insights du texte imprimé et manuscrit dans plus de 50 langues, y compris à partir d’une image avec du texte dans plusieurs langues. Pour plus d’informations, consultez les langues prises en charge par OCR.

Prérequis

Vue d’ensemble de la note de transparence

Principes généraux

Cet article traite de la reconnaissance optique de caractères (OCR) et des considérations clés relatives à l’utilisation de cette technologie de manière responsable. Il existe de nombreuses choses à prendre en compte lors du choix de l’utilisation et de l’implémentation d’une fonctionnalité optimisée par l’IA :

  • Cette fonctionnalité s’exécutera-t-elle correctement dans mon scénario ? Avant de déployer OCR dans votre scénario, testez son fonctionnement à l’aide de données réelles et assurez-vous qu’il peut fournir la précision dont vous avez besoin.
  • Sommes-nous équipés pour identifier les erreurs et y répondre ? Les produits et fonctionnalités optimisés par l’IA ne sont pas précis à 100 %, donc réfléchissez à la façon dont vous identifierez et répondez aux erreurs qui peuvent se produire.

Afficher l’insight

Lorsque vous travaillez sur le site web, les insights sont affichés sous l’onglet Chronologie . Ils peuvent également être générés dans une liste classées dans un fichier JSON qui inclut l’ID, le texte transcrit, la durée et le score de confiance.

Pour afficher les instances sur le site web, procédez comme suit :

  1. Accédez à Afficher et case activée OCR.
  2. Sélectionnez Chronologie pour afficher le texte extrait.

Recommandations pouvez également être généré dans une liste classées dans un fichier JSON qui inclut l’ID, la langue, le texte, ainsi que le score de confiance de chaque instance.

Pour afficher les insights dans un fichier JSON, procédez comme suit :

  1. Sélectionnez Télécharger -> Insight (JSON).

  2. Copiez l’élément ocr , sous insights, puis collez-le dans votre visionneuse JSON en ligne.

    "ocr": [
        {
          "id": 1,
          "text": "2017 Ruler",
          "confidence": 0.4365,
          "left": 901,
          "top": 3,
          "width": 80,
          "height": 23,
          "angle": 0,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:45.5",
              "adjustedEnd": "0:00:46",
              "start": "0:00:45.5",
              "end": "0:00:46"
            },
            {
              "adjustedStart": "0:00:55",
              "adjustedEnd": "0:00:55.5",
              "start": "0:00:55",
              "end": "0:00:55.5"
            }
          ]
        },
        {
          "id": 2,
          "text": "2017 Ruler postppu - PowerPoint",
          "confidence": 0.4712,
          "left": 899,
          "top": 4,
          "width": 262,
          "height": 48,
          "angle": 0,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:44.5",
              "adjustedEnd": "0:00:45",
              "start": "0:00:44.5",
              "end": "0:00:45"
            }
          ]
        },
    

Pour télécharger le fichier JSON via l’API, utilisez le portail des développeurs Azure AI Video Indexer.

Composants OCR

Pendant la procédure OCR, les images texte d’un fichier multimédia sont traitées comme suit :

Composant Définition
Fichier source L’utilisateur charge le fichier source pour l’indexation.
Modèle de lecture Les images sont détectées dans le fichier multimédia et le texte sont ensuite extraits et analysés par les services Azure AI.
Obtenir le modèle de résultats de lecture La sortie du texte extrait s’affiche dans un fichier JSON.
Valeur de confiance Le niveau de confiance estimé de chaque mot est calculé sous la forme d’une plage de 0 à 1. Le score de confiance représente la certitude dans la précision du résultat. Par exemple, une certitude de 82 % sera représentée sous la forme d’un score de 0,82.

Pour plus d’informations, consultez la technologie OCR.

Exemples de cas d’utilisation

  • Recherche approfondie de séquences multimédias pour des images avec des panneaux de signalisation, des noms de rue ou des plaques d’immatriculation de voiture, par exemple dans l’application de la loi.
  • Extraire du texte d’images dans des fichiers multimédias, puis le traduire en plusieurs langues dans des étiquettes pour l’accessibilité, par exemple dans les médias ou le divertissement.
  • Détection des noms de marque dans les images et leur étiquetage à des fins de traduction, par exemple dans la publicité et la personnalisation.
  • Extraction de texte dans des images qui sont ensuite étiquetées et classées automatiquement pour l’accessibilité et l’utilisation future, par exemple pour générer du contenu dans une agence de presse.
  • Extraction de texte dans des avertissements dans des instructions en ligne, puis traduction du texte en conformité avec les normes locales, par exemple, instructions d’apprentissage électronique pour l’utilisation de l’équipement.

Considérations et limitations lors du choix d’un cas d’usage

  • Video Indexer a une limite OCR de 50 000 mots par vidéo indexée. Une fois la limite atteinte, aucun résultat OCR supplémentaire n’est généré.
  • Examinez attentivement la précision des résultats pour promouvoir des détections plus précises, case activée la qualité de l’image, les images de faible qualité peuvent avoir un impact sur les insights détectés.
  • Examinez attentivement l’utilisation pour l’application de la loi que l’OCR peut potentiellement mal lus ou ne pas détecter des parties du texte. Pour garantir des décisions équitables et de haute qualité, associez l’automatisation basée sur ocr à la supervision humaine.
  • Lors de l’extraction de texte manuscrit, évitez d’utiliser les résultats OCR des signatures difficiles à lire pour les humains et les machines. Une meilleure façon d’utiliser OCR consiste à l’utiliser pour détecter la présence d’une signature pour une analyse plus approfondie.
  • N’utilisez pas ocr pour les décisions susceptibles d’avoir des répercussions négatives graves. Les modèles Machine Learning qui extraient du texte peuvent entraîner une sortie de texte non détectée ou incorrecte. Les décisions basées sur une sortie incorrecte pourraient avoir de graves répercussions négatives. De plus, il est conseillé d’inclure l’examen humain des décisions susceptibles d’avoir des répercussions graves sur les individus.

Lorsqu’il est utilisé de manière responsable et soigneuse, Azure AI Video Indexer est un outil précieux pour de nombreuses industries. Pour respecter la confidentialité et la sécurité des autres, et pour respecter les réglementations locales et globales, nous vous recommandons les éléments suivants :

  • Respectez toujours le droit d’une personne à la vie privée, et seulement ingérer des vidéos à des fins légitimes et justifiables.  
  • Ne pas divulguer de contenu inapproprié concernant les jeunes enfants ou les membres de la famille de célébrités ou d’autres contenus susceptibles de nuire ou de poser une menace pour la liberté personnelle d’un individu.  
  • S’engager à respecter et à promouvoir les droits de l’homme dans la conception et le déploiement de vos médias analysés.  
  • Lors de l’utilisation de documents tiers, tenez compte des droits d’auteur ou autorisations existants requis avant de distribuer du contenu dérivé de ceux-ci. 
  • Demandez toujours des conseils juridiques lors de l’utilisation de contenu provenant de sources inconnues. 
  • Obtenez toujours des conseils juridiques et professionnels appropriés pour vous assurer que vos vidéos téléchargées sont sécurisées et disposent de contrôles adéquats pour préserver l’intégrité de votre contenu et empêcher l’accès non autorisé.    
  • Fournissez un canal de commentaires qui permet aux utilisateurs et aux individus de signaler des problèmes avec le service.  
  • Tenez compte des lois ou réglementations applicables qui existent dans votre domaine en ce qui concerne le traitement, l’analyse et le partage de médias contenant des personnes. 
  • Gardez un humain dans la boucle. N’utilisez aucune solution pour remplacer la surveillance humaine et la prise de décision.  
  • Examinez et examinez entièrement le potentiel de n’importe quel modèle IA que vous utilisez pour comprendre ses fonctionnalités et ses limitations. 

En savoir plus sur l’OCR