命名实体提取

项目
03/23/2024

重要

由于Azure 媒体服务停用公告，Azure AI 视频索引器会宣布 Azure AI 视频索引器功能调整。请参阅与 Azure 媒体服务（AMS）停用相关的更改，了解 Azure AI 视频索引器帐户的含义。请参阅 AMS 停用准备：VI 更新和迁移指南。

命名实体提取是一项 Azure AI 视频索引器 AI 功能，它使用自然语言处理（NLP）提取媒体文件中音频和图像中出现的位置、人员和品牌方面的见解。命名实体提取自动用于听录和 OCR，其见解基于这些过程中提取的实体。生成的见解显示在 “见解 ”选项卡中，并筛选为位置、人员和品牌类别。单击命名实体，在媒体文件中显示其实例。它还显示实体的说明和可识别实体必应链接上的“查找”。

先决条件

查看透明度说明概述

一般原则

本文讨论命名实体以及负责任地使用此技术的关键注意事项。在决定如何使用和实现 AI 支持的功能时，需要考虑许多事项：

此功能在我的方案中是否表现良好？在将命名实体提取部署到方案中之前，请测试它如何使用实际数据执行，并确保它可以提供所需的准确性。
我们是否具备识别并应对错误的能力？ AI 提供支持的产品和功能不会准确 100%，因此请考虑如何识别和响应可能发生的任何错误。

查看见解

若要查看网站中的见解，请执行以下操作：

转到“查看”并检查命名实体。
转到 Insights 并滚动到命名实体。

若要在 JSON 文件中显示命名实体提取见解，请执行以下操作：

单击“下载”，然后单击“见解”（JSON）。
命名实体分为三个：
- 品牌
- 位置
- 人员

复制文本并将其粘贴到 JSON 查看器中。

namedPeople: [
{
referenceId: "Satya_Nadella",
referenceUrl: "https://en.wikipedia.org/wiki/Satya_Nadella",
confidence: 1,
description: "CEO of Microsoft Corporation",
seenDuration: 33.2,
id: 2,
name: "Satya Nadella",
appearances: [
{
startTime: "0:01:11.04",
endTime: "0:01:17.36",
startSeconds: 71,
endSeconds: 77.4
},
{
startTime: "0:01:31.83",
endTime: "0:01:37.1303666",
startSeconds: 91.8,
endSeconds: 97.1
},

若要通过 API 下载 JSON 文件，请使用 Azure AI 视频索引器开发人员门户。

命名实体提取组件

在命名实体提取过程中，将处理媒体文件，如下所示：

组件	定义
源文件	用户上传源文件进行索引。
文本提取	- 音频文件将发送到语音服务 API 以提取听录。 - 采样帧发送到 Azure AI 视觉 API 以提取 OCR。
分析	然后，见解将发送到文本分析 API 以提取实体。例如，Microsoft、巴黎或某人的名字，如 Paul 或 Sarah。
处理和合并	然后处理结果。在适用的情况下，会添加维基百科链接，并通过视频索引器内置且可自定义的品牌列表标识品牌。
置信度值每个命名实体的估计置信度计算为 0 到 1 的范围。置信度分数表示结果准确性的确定性。例如，82% 的确定性表示为 0.82 分数。

示例用例：

例如，在意大利的录像后，上下文广告为披萨连锁店放置广告。
深入搜索媒体存档，深入了解人员或位置，以便为新闻创建功能故事。
通过 OCR 处理创建视频的口头描述，以提高视觉障碍的可访问性，例如电影中的背景故事讲述者。
提取品牌 na 的见解

选择用例时的注意事项和限制

仔细考虑结果的准确性，促进更准确的检测，检查音频和图像的质量，低质量的音频和图像可能会影响检测到的见解。
命名实体仅检测音频和图像中的见解。可能不会检测到品牌名称中的徽标。
请仔细考虑，当用于执法命名实体时，可能并不总是检测音频的某些部分。为了确保公平和高质量的决策，将命名实体与人工监督相结合。
不要将命名实体用于可能具有严重不利影响的决策。提取文本的机器学习模型可能会导致文本输出未检测到或不正确。基于错误输出的决策可能会产生严重的负面影响。此外，建议包括人工审查对可能对个人产生严重影响的决定。

负责任且仔细地使用 Azure AI 视频索引器时，对于许多行业来说都是一个有价值的工具。为了尊重他人的隐私和安全，并遵守当地和全球法规，建议执行以下操作：

始终尊重个人的隐私权利，并且只出于合法和合理的目的引入视频。
不要故意披露有关年幼儿童或名人家庭成员或其他内容可能有害或对个人个人自由构成威胁的不当内容。
致力于在分析媒体的设计和部署中尊重和促进人权。
使用第三方材料时，在分发派生自它们的内容之前，请注意任何现有的版权或权限。
使用来自未知来源的内容时，请始终寻求法律建议。
始终获得适当的法律和专业建议，以确保上传的视频受到保护，并拥有足够的控制，以保持内容的完整性，并防止未经授权的访问。
提供反馈通道，使用户和个人能够报告服务问题。
请注意有关处理、分析和共享包含人员的媒体的任何适用的法律或法规。
使人处于循环中。不要将任何解决方案用作人工监督和决策的替代方法。
全面检查和查看用于了解其功能和限制的任何 AI 模型的潜力。