[本文是预发行文档,可能会有所更改。]
计算机操作是 Copilot Studio 中的工具,可让您的智能体与 Windows 计算机交互并自动化执行任务。 它通过选择按钮、选择菜单以及在屏幕上的字段中输入文本来与网站和桌面应用程序配合使用。 使用自然语言描述您希望计算机使用功能执行的操作,该工具将通过虚拟鼠标和键盘在您设置的计算机上完成任务。 借助计算机使用功能,即使没有直接连接系统的 API,智能体也能完成任务。 如果一个人可以使用应用程序或网站,计算机使用也可以。 该功能适用于自动化数据录入、发票处理和数据提取等任务。
重要提示
本文包含 Microsoft Copilot Studio 预览版文档,有可能会有变动。
预览功能不适合生产使用且功能可能受限。 这些功能在正式发布之前已经可用,以便您可以及早使用并提供反馈。
如果您在构建生产就绪型智能体,请参阅 Microsoft Copilot Studio 概述。
计算机使用由计算机使用智能体(CUA)驱动,这是一个结合视觉能力和高级推理来与图形用户界面(GUI)交互的人工智能模型。 因为它是由 AI 驱动的,所以它可以适应界面的变化。 例如,当按钮或屏幕发生更改时,该工具将继续工作,而不会中断您的流。 使用起来非常简单。 只需用自然语言描述您想要的东西。 您无需编写代码。
观看此视频,了解计算机使用工具如何让智能体与 Web 应用程序进行交互。
要求
此功能仅适用于区域设置为美国的环境。
确保您的智能体已启用生成式编排器以使用计算机使用功能。
将计算机使用添加到智能体
在 Copilot Studio 中的新智能体或现有智能体上,按照以下步骤作为工具添加计算机使用:
转到智能体中的工具部分,并选择添加工具。
在添加工具对话框中,选择新工具。
选择计算机使用。
请提供描述工具应在计算机上执行的任务说明。 系统提供若干操作模板供您参考。 了解如何编写最佳计算机操作指令,请查阅计算机操作指令最佳实践指南。
选择添加并配置。
在配置页面,配置以下四个字段:
- 名称:输入计算机使用工具的显示名称。 此名称可帮助您将其与添加到智能体的其他工具区分开来。
- 描述:输入该工具的功能简要说明及使用场景。 此文本可让您的智能体知道何时使用此工具。
-
模型:选择用于执行计算机使用工具的模型。 目前支持的模型包括 OpenAI的 Computer-Using 代理 和 Anthropic的Claude Sonnet 4.5。
备注
Anthropic的Claude Sonnet 4.5正在支持的地区推广,可能尚未在你的地区上线。 确保你的管理员 启用了外部模型。
- 操作步骤:列出工具应执行的步骤,包括 URL 和应用程序名称。 如需提示,请参阅计算机使用操作步骤的最佳实践。
查看配置页面上可能相关的以下其他字段和设置:
输入:使用“输入”字段定义每次运行计算机使用工具时动态变化的值。 例如,如果要在每次运行时填写具有不同值的窗体,请为该字段创建输入。 在执行时,计算机使用将您的指令与输入值相结合以完成任务。
机器:选择智能体用于运行计算机操作的目标机器。 有关根据需求选择合适机器类型的详细信息,请参阅配置计算机操作运行位置。
- 使用刷新更新机器列表。
- 选择管理机器以在 Power Automate 门户中打开机器管理页面。
- 选择查看机器详细信息以在 Power Automate 门户中打开机器详细信息页面。
连接:此工具使用的连接。 更新或创建新连接以更改使用的凭据。
使用凭据:指定计算机使用期间的身份验证方式:
- Maker 提供的凭据 (默认):该选项使用制造商凭证,适用于自主代理。
警告
如果你 共享 一个带有该设置的代理,任何使用它的人都可以使用原作者在配置好的机器上的访问权限。
- 最终用户身份验证:此选项使用与智能体交互的人的凭据。 每个用户都必须具有计算机的访问凭据。
人工监督:当计算机使用智能体检测到可能改变模型行为的潜在有害指令时,指定应通过电子邮件 (Outlook) 联系的对象。 每次智能体运行及其活动都与发起该操作的用户相关联。 如果你选择了非运行电脑代理的人审核者,他们很可能看不到活动,因为他们没有发起运行。 因此无法正确验证请求或采取相应措施。 同时请确保接收者具备处理此类请求的授权及必要背景信息。 响应时限定义了请求保持活跃的时长。 超时后请求将失效,若未收到响应,计算机使用运行将停止。 更多信息请参阅人工监督。
存储凭据:定义计算机使用功能登录网站和应用程序所需的凭据。 执行过程中若出现登录提示,计算机使用功能将安全地使用您在此部分为该网站或应用程序定义的凭据。 这些凭据的密码值要么存储在Power Platform内部存储(无需配置),要么存储在你提供的Azure密钥库中。 了解如何在使用 Azure 门户创建密钥库中创建 Azure 密钥库。
内部存储选项:通过这个选项,你可以在工具中配置凭证,无需预配置。 秘密被加密并存储在Power Platform内部。 对于每个证书,请提供以下详细信息:
- 类型:根据你打算使用该凭证的表面,在网站和桌面应用之间选择
- 用户名:用于登录目标网站或应用的用户名。
- 密码:用于登录目标网站或应用的密码值。
备注
密码字段支持所有网站和大多数 Windows 应用程序(WinForms、WPF、UWP、WinUI、Win32),涵盖了大多数客户场景。 某些应用类型(如 Electron、Java、Unity、游戏、命令行界面、Citrix 或其他虚拟化环境)可能不受支持。
- 登录域名 或 桌面应用名称:输入凭证的域名或应用名(例如 login.microsoft.com 或Excel)。 对于登录域名,务必核实该域名,因为它可能与主站URL不同。
Azure Key Vault 选项:使用此选项,您可以先在工具中输入订阅 ID、资源组名称和 Key Vault 名称来配置凭证。 所有这些信息均可在密钥库的概述页面中获取。
要在 Power Platform 中使用 Azure 密钥库密钥:
- 包含保险库的Azure订阅必须注册了 PowerPlatform资源提供者 。
- 创建环境变量的用户对 Azure Key Vault 资源拥有适当的权限。
如果你还没这样做,请按照 配置Azure Key Vault 中的步骤作,然后提供以下细节:
- 用户名:用于登录目标网站或应用的用户名。
- Azure 密钥名称:密钥库中存储网站或应用程序密码的密钥名称。
备注
密码字段支持所有网站和大多数 Windows 应用程序(WinForms、WPF、UWP、WinUI、Win32),涵盖了大多数客户场景。 某些应用类型(如 Electron、Java、Unity、游戏、命令行界面、Citrix 或其他虚拟化环境)可能不受支持。
- 登录域名 或 桌面应用名称:输入凭证的域名或应用名(例如 login.microsoft.com 或Excel)。 对于登录域名,务必核实该域名,因为它可能与主站URL不同。
访问控制:默认情况下,计算机使用权限可操作任何网站或应用程序。 若需限制访问,请启用访问控制以定义计算机使用权限应限于的具体 URL 和桌面应用程序。 可同时配置网站和应用程序:
-
网站:输入主网站地址(例如 example.com)。 该网站所有页面将自动包含在内。 子域名可使用通配符 (*)。
- 示例:
www.contoso.com、*.contoso.com、contoso.com
- 示例:
-
桌面应用程序:输入应用程序产品名称或进程名称。 查找方法:按下 Ctrl+Shift+Esc 打开任务管理器, 切换至进程选项卡查看。
- 示例:
Microsoft Edge、msedge、Notepad。
- 示例:
备注
访问控制仅阻止模型对不在允许列表中的网站或应用采取行动。 它不会阻止模型打开这些程序。 例如,如果允许列表中只有 microsoft.com 和Microsoft Edge,模型仍可使用Edge搜索栏打开必应。 然而,一旦打开必应,任何尝试交互都会失败,因为它不在允许列表中。
-
网站:输入主网站地址(例如 example.com)。 该网站所有页面将自动包含在内。 子域名可使用通配符 (*)。
选择保存。
测试计算机使用
计算机使用测试是内容创作流程中的关键环节。 在输入名称、描述和说明并保存工具后,选择测试以开始测试体验。
加载时间较短后,将显示测试体验:
- 左侧面板显示你的作说明和工具推理和作的逐步日志。
- 右侧面板显示在您设置用于计算机使用的机器上操作的预览。
任务完成后,您会看到测试已完成消息。 在测试进行中,您可以选择停止测试立即停止机器上的所有操作。
如果结果不符合您的预期,请转到配置页面并优化您的说明。 添加更多详细信息以提高准确性。 如需指导,请参阅编写有效操作说明的最佳实践。
发布支持计算机使用的智能体
先设置电脑使用,然后发布你的代理人。 智能体的运行方式取决于具体场景。 它可以是自主的,也可以是对话式的:
- 自治智能体自动运行并在后台执行任务。
- 对话式智能体允许用户通过 Microsoft Teams 等渠道进行交互。
计算机使用最适合自主智能体,无需用户交互即可在后台执行任务。
您也可在对话式体验中应用计算机使用功能,但需注意以下事项:
- 如果您选择用户认证作为认证设置,则与智能体进行对话的每位用户都需要为计算机使用所用的机器提供有效的凭据。
- 当该工具运行时,它会在聊天中共享计算机活动的推理消息和屏幕截图。
最佳做法
在当今数字环境中保持高效与安全,请遵循计算机使用最佳实践,尤其注重编写清晰指令和设备安全防护。
保护计算机的最佳实践
在设置计算机使用机器以允许 AI 使用自然语言执行任务时,请考虑以下安全建议:
| 安全建议 | 其他信息 |
|---|---|
| 为计算机使用分配专用机器 | 专门为涉及计算机使用的任务分配特定的独立计算机。 此方法可降低无关软件、恶意程序或未经授权访问导致的交叉污染风险。 它能更有效地控制配置、更新和监控。 |
| 限制用户账户的权限(该账户用于计算机操作) | 为计算机使用设置用户账户时遵循最小权限原则——仅授予运行所需工具的必要权限。 |
| 限制访问权限仅限于特定可信网站的允许列表 | 仅允许对预定义的经过审查和受信任的域列表进行 Web 访问。 例如,您可以使用 Microsoft Intune 配置针对用于计算机使用的设备的 Microsoft Edge 策略设置。 |
| 限制特定桌面应用程序的可用性 | 仅安装并允许执行对预期 AI 工作流至关重要的应用程序。 删除或禁用对不必要软件的访问。 例如,您可以配置应用程序控制来限制在设备上允许运行的应用程序。 |
计算机使用说明的最佳实践
您编写的说明决定了计算机的使用效果。 具体、详细的说明可帮助计算机准确地完成任务。 可以把它想象成向同事解释一项任务。 清晰的分步指导有助于确保成功。
编写有效说明的技巧:
具体说明网站和应用程序。 始终包含任何网站的完整 URL 以及该工具应使用的任何应用程序的确切名称。 举例: 打开 https://www.microsoft.com 并进入“公司新闻”。
明确说明相关操作。 如果你想完成某件事,就要明确表达——尤其是提交表格或发送邮件等动作。 示例: 填写表格后,选择 提交。不需要征求许可。
分解复杂的交互。 对于 UI 导航可能更复杂的区域,请详细解释每个步骤。 示例: 选择右上角的 “更多” 图标。会出现一个下拉菜单。打开后,选择列表中的最后一项。
对较长的任务使用分步格式。 长篇说明以列表形式呈现更易于遵循。
示例说明
探索这些示例说明以尝试计算机使用,或将其作为编写自有说明的参考。
| 场景 | 名称 | 描述 | 说明 |
|---|---|---|---|
| 发票处理 | 转移和提交发票详细信息 | 将发票数据从 PDF 传输并提交到另一个窗体。 | 1. 转到 https://computerusedemos.blob.core.windows.net/web/Contoso/invoice-manager.html,将日期筛选器设置为“过去 24 小时”,并打开发票 PDF。 2. 在新标签页中打开 https://computerusedemos.blob.core.windows.net/web/Contoso/index.html,并使用该 PDF 中的数据填写表单。 提交发票表格,无需确认。 |
| 数据录入 | 提交库存商品 | 将产品添加到库存系统。 | 1. 前往 https://computerusedemos.blob.core.windows.net/web/Adventure/index.html。 2. 为以下每个项目提交一个新条目: 后变速器,RD-4821,50,42.75,Tailspin Toys 踏板套装,PD-1738,80,19.99,Northwind Traders 制动杆,BL-2975,35,14.50,Trey Research 链环螺栓套装,CB-6640,100,5.25,VanArsdel, Ltd. 中轴,BB-9320,60,24.90,Tailwind Traders |
| 数据提取 | 查找投资组合经理和价值 | 获取投资组合的经理名称和价值。 | 1. 前往 https://computerusedemos.blob.core.windows.net/web/Portfolio/index.html。 2. 找到 Fourth Coffee 的行,并完全按照所示记录投资组合经理名称和当前投资组合价值。 3. 返回这两个值作为最终输出。 |
数据提取最佳实践
您可通过计算机操作从网站或应用程序提取数据,并将数据传递给智能体或智能体中的其他工具。 操作时只需在计算机操作指令中直接描述所需提取的信息。
若需将提取数据用于其他工具(例如通过邮件发送),请在智能体指令中明确该需求,并确保两个工具均已添加至智能体。
举例: 使用计算机提取财务投资组合仪表盘中的客户信息,并发送邮件发送提取数据。 在这种情况下,你的代理人必须同时包含电脑使用工具和电子邮件工具。
以文本形式提取值
可指示计算机使用功能提取特定值并以纯文本形式返回。 例如,以下提示为客户Fourth Coffee提取投资组合经理和投资组合价值:
1. Go to https://computerusedemos.blob.core.windows.net/web/Portfolio/index.html.
2. Find the row for Fourth Coffee and record the Portfolio Manager name and the current Portfolio Value exactly as shown.
3. Return those two values as the final output.
智能体仅返回两个请求值的文本内容。
以 JSON 格式提取值
也可要求计算机使用功能以 JSON 格式返回提取信息。 此格式适用于向其他工具传递结构化数据。 以下示例提取所有与 Contoso 相关的投资组合行,并以规范格式返回 JSON:
Navigate to https://computerusedemos.blob.core.windows.net/web/Portfolio/index.html, retrieve the portfolio details for all Contoso entities, and return the results as a valid JSON object.
Structure the output so that:
* Each top-level key is the client name
* Each value contains the client's portfolio ID, portfolio value, portfolio manager, and last updated date (format: YYYY-MM-DD)
* Return only the JSON, with no additional text.
此方法确保输出数据结构化。
许可
虽然计算机使用处于预览状态,但使用智能体操作功能计费,计费费率为五个 Copilot 积分。 更多信息请参阅 Microsoft Copilot Studio 计费率与管理。
每次计算机运行都依赖于执行一系列步骤的人工智能模型。 一个步骤可能包含一个或多个低层次作(例如点击、输入或导航)。 每一步消耗5个副驾驶积分。
例如,如果您设置电脑填写基于网页的工时表表格,运行可能会执行以下步骤:
打开浏览器,进入工时表门户。
选择创建新工时表。
填写开始时间、结束时间和项目代码字段。
选择提交按钮。
在这个例子中,计算机运行执行4个步骤,总共消耗20个副驾驶积分。
共享您的反馈
您有关于计算机使用的反馈吗? 请通过 computeruse-feedback@microsoft.com 联系我们。