光学字符识别 (OCR)

项目
03/23/2024

重要

由于Azure 媒体服务停用公告，Azure AI 视频索引器会宣布 Azure AI 视频索引器功能调整。请参阅与 Azure 媒体服务（AMS）停用相关的更改，了解 Azure AI 视频索引器帐户的含义。请参阅 AMS 停用准备：VI 更新和迁移指南。

光学字符识别（OCR）是一项 Azure AI 视频索引器 AI 功能，它从图片、街道标志和媒体文件中的产品等图像中提取文本，以创建见解。

OCR 当前从打印文本和手写文本中提取超过 50 种语言的见解，包括来自具有多种语言文本的图像。有关详细信息，请参阅 OCR 支持的语言。

先决条件

查看透明度说明概述

一般原则

本文讨论光学字符识别（OCR）以及负责任地使用这项技术的关键注意事项。在决定如何使用和实现 AI 支持的功能时，需要考虑许多事项：

此功能在我的方案中是否表现良好？在将 OCR 部署到方案中之前，请测试它如何使用实际数据执行，并确保它可以提供所需的准确性。
我们是否具备识别并应对错误的能力？ AI 提供支持的产品和功能不会准确 100%，因此请考虑如何识别和响应可能发生的任何错误。

查看见解

处理网站时，见解将显示在 “时间线 ”选项卡中。还可以在 JSON 文件中的分类列表中生成它们，其中包含 ID、转录文本、持续时间和置信度分数。

若要查看网站上的实例，请执行以下操作：

转到“查看”并检查 OCR。
选择时间线以显示提取的文本。

还可以在 JSON 文件中的分类列表中生成见解，其中包含 ID、语言、文本以及每个实例的置信度分数。

若要查看 JSON 文件中的见解，请执行以下操作：

选择“下载 -> 见解”（JSON）。

复制 ocr 元素，并将其 insights粘贴到联机 JSON 查看器中。

"ocr": [
    {
      "id": 1,
      "text": "2017 Ruler",
      "confidence": 0.4365,
      "left": 901,
      "top": 3,
      "width": 80,
      "height": 23,
      "angle": 0,
      "language": "en-US",
      "instances": [
        {
          "adjustedStart": "0:00:45.5",
          "adjustedEnd": "0:00:46",
          "start": "0:00:45.5",
          "end": "0:00:46"
        },
        {
          "adjustedStart": "0:00:55",
          "adjustedEnd": "0:00:55.5",
          "start": "0:00:55",
          "end": "0:00:55.5"
        }
      ]
    },
    {
      "id": 2,
      "text": "2017 Ruler postppu - PowerPoint",
      "confidence": 0.4712,
      "left": 899,
      "top": 4,
      "width": 262,
      "height": 48,
      "angle": 0,
      "language": "en-US",
      "instances": [
        {
          "adjustedStart": "0:00:44.5",
          "adjustedEnd": "0:00:45",
          "start": "0:00:44.5",
          "end": "0:00:45"
        }
      ]
    },

若要通过 API 下载 JSON 文件，请使用 Azure AI 视频索引器开发人员门户。

OCR 组件

在 OCR 过程中，处理媒体文件中的文本图像，如下所示：

组件	定义
源文件	用户上传源文件进行索引。
“读取”模型	图像在媒体文件中检测到，然后由 Azure AI 服务提取和分析文本。
获取读取结果模型	提取文本的输出显示在 JSON 文件中。
置信度值	每个单词的估计置信度计算为 0 到 1 的范围。置信度分数表示结果准确性的确定性。例如，82% 的确定性将表示为 0.82 分数。

有关详细信息，请参阅 OCR 技术。

示例用例：

例如，在执法部门中，深入搜索媒体镜头，寻找带有路标、街道名称或汽车车牌的图像。
从媒体文件中的图像中提取文本，然后在标签中将其翻译为多种语言，以便进行辅助功能，例如媒体或娱乐。
检测图像中的品牌名称并将其标记为翻译目的，例如广告和品牌。
提取图像中的文本，然后自动标记和分类，以便进行辅助功能和将来的用法，例如在通讯社生成内容。
在联机说明中提取警告中的文本，然后翻译文本以符合当地标准，例如，使用设备的电子学习说明。

选择用例时的注意事项和限制

视频索引器每个索引视频的 OCR 限制为 50,000 个单词。达到限制后，不会生成其他 OCR 结果。
仔细考虑结果的准确性，促进更准确的检测，检查图像的质量，低质量的图像可能会影响检测到的见解。
在对执法部门使用 OCR 时，请仔细考虑，OCR 可能会误读或不检测文本的某些部分。为了确保公平和高质量的决策，将基于 OCR 的自动化与人工监督相结合。
提取手写文本时，请避免使用人类和计算机难以读取的签名的 OCR 结果。使用 OCR 的更好方法是使用它来检测签名是否存在以进一步分析。
不要将 OCR 用于可能具有严重不利影响的决策。提取文本的机器学习模型可能会导致文本输出未检测到或不正确。基于错误输出的决策可能会产生严重的负面影响。此外，建议包括人工审查对可能对个人产生严重影响的决定。

谨慎使用时，Azure AI 视频索引器是许多行业的宝贵工具。为了尊重他人的隐私和安全，并遵守当地和全球法规，建议执行以下操作：

始终尊重个人的隐私权利，并且只出于合法和合理的目的引入视频。  
不要故意披露有关年幼儿童或名人家庭成员或其他内容可能有害或对个人个人自由构成威胁的不当内容。  
致力于在分析媒体的设计和部署中尊重和促进人权。  
使用第三方材料时，在分发派生自它们的内容之前，请注意所需的任何现有版权或权限。 
使用来自未知来源的内容时，请始终寻求法律建议。 
始终获得适当的法律和专业建议，以确保上传的视频受到保护，并拥有足够的控制，以保持内容的完整性，并防止未经授权的访问。    
提供反馈通道，使用户和个人能够报告服务问题。  
请注意有关处理、分析和共享包含人员的媒体的任何适用的法律或法规。 
使人处于循环中。不要将任何解决方案用作人工监督和决策的替代方法。  
全面检查和查看用于了解其功能和限制的任何 AI 模型的潜力。