通过


使用计算机自动化网页和桌面应用程序(预览)

[本文是预发行文档,可能会有所更改。]

计算机使用是 Copilot Studio 中的一种工具,使代理能够与Windows计算机上的任务进行交互和自动化。 它通过选择按钮、选择菜单以及在屏幕上的字段中输入文本来与网站和桌面应用程序配合使用。 使用自然语言描述您希望计算机使用功能执行的操作,该工具将通过虚拟鼠标和键盘在您设置的计算机上完成任务。 使用计算机,即使没有直接连接系统的 API,智能体也能完成任务。 如果一个人可以使用应用程序或网站,计算机使用也可以。 您可以使用计算机来执行诸如自动化数据录入、发票处理和数据提取等任务。

重要

本文包含Microsoft Copilot Studio预览文档,可能会更改。

预览功能不适合生产使用且功能可能受限。 这些功能在正式发布之前已经可用,以便您可以及早使用并提供反馈。

如果要生成生产就绪代理,请参阅 Microsoft Copilot Studio 概述

计算机使用由计算机使用智能体(CUA)驱动,这是一个结合视觉能力和高级推理来与图形用户界面(GUI)交互的人工智能模型。 因为它是由 AI 驱动的,所以它可以适应界面的变化。 例如,当按钮或屏幕发生更改时,该工具继续运行,不会中断您的工作流程。 使用起来非常简单。 只需用自然语言描述您想要的东西。 您无需编写代码。

观看此视频,了解计算机使用工具如何让智能体与 Web 应用程序进行交互。

要求

  • 此功能适用于区域设置为美国的环境。

  • 确保您的智能体已启用生成式编排器以使用计算机使用功能。

将计算机的使用功能添加到您的代理

在 Copilot Studio 中的新代理或现有代理上,按照以下步骤添加计算机用作工具:

  1. 转到代理的工具部分,然后选择添加工具。

  2. 在添加工具对话框中,选择新工具。

  3. 选择计算机使用。

  4. 请提供描述工具应在计算机上执行的任务说明。 系统提供若干操作模板供您参考。 了解如何编写最佳计算机操作指令,请查阅计算机操作指令最佳实践指南。

  5. 选择添加并配置。

    • 在配置页面,配置以下四个字段:

      • 名称:输入计算机使用工具的显示名称。 此名称可帮助您将其与添加到智能体的其他工具区分开来。
      • 描述:输入该工具的功能简要说明及使用场景。 此文本可让您的代理知道何时使用此工具。
      • 模型:选择用于执行计算机使用工具的模型。 目前支持的模型包括 OpenAI的计算机使用代理和Anthropic的Claude Sonnet 4.5。

        备注

        Anthropic的Claude Sonnet 4.5正在支持的地区推广,可能尚未在你的地区上线。 确保你的管理员 启用了外部模型。

      • 操作步骤:列出工具应执行的步骤,包括 URL 和应用程序名称。 如需提示,请参阅计算机使用操作步骤的最佳实践。
  6. 查看配置页面上可能相关的以下其他字段和设置:

    • 输入:使用“输入”来定义每次计算机使用时动态变化的值。 例如,如果您希望在每次运行时填写不同值的表单,请为该字段创建一个输入。 在执行时,计算机将您的指示与输入值相结合以完成任务。

    • 机器:选择代理程序用于运行计算机应用程序的目标机器。 有关根据需求选择合适机器类型的详细信息,请参阅配置计算机操作运行位置。

      • 使用“刷新”以更新机器列表。
      • 选择 管理计算机以在 Power Automate 门户中打开计算机管理页。
      • 选择 查看计算机详细信息以在 Power Automate 门户中打开计算机详细信息页。
    • 连接:此工具使用的连接。 更新或创建新连接以更改使用的凭据。

    • 使用凭据:指定计算机使用期间的身份验证方式:

      • Maker 提供的凭据 (默认):该选项使用制造商凭证,适用于自主代理。

      警告

      如果你 共享 一个带有该设置的代理,任何使用它的人都可以使用原作者在配置好的机器上的访问权限。

      • 最终用户凭据:此选项使用与代理交互的人的凭据。 每个用户都必须具有计算机的访问凭据。
    • 人类监督:请指定联系对象,以便通过电子邮件(Outlook)联系:如果计算机使用代理检测到可能危害模型行为的指令。 每次代理的运行和活动都与发起该操作的用户相关联。 如果您选择的审核者不是那个执行计算机使用代理的人,他们很可能无法看到活动,因为他们没有启动运行。 因此无法正确验证请求或采取相应措施。 同时请确保接收者具备处理此类请求的授权及必要背景信息。 响应时限定义了请求保持活跃的时长。 超时后请求将失效,若未收到响应,计算机使用运行将停止。 更多信息请参阅人工监督。

    • 存储凭据:定义计算机使用功能登录网站和应用程序所需的凭据。 执行过程中若出现登录提示,计算机使用功能将安全地使用您在此部分为该网站或应用程序定义的凭据。 这些凭据的密码值存储在 Power Platform 内部存储(无需配置)或你提供的Azure 密钥保管库中。 了解如何在 使用 Azure 门户创建密钥保管库

      • 内部存储选项:通过这个选项,你可以在工具中配置凭证,无需预配置。 秘密被加密并存储在Power Platform内部。 对于每个证书,请提供以下详细信息:

        • 类型:根据你打算使用该凭证的表面,在网站和桌面应用之间选择
        • 用户名:用于登录目标网站或应用的用户名。
        • 密码:用于登录目标网站或应用的密码值。

        备注

        所有网站和大多数Windows应用程序都支持密码字段(WinForms、WPF、UWP、WinUI、Win32),涵盖大多数客户方案。 某些应用类型(如 Electron、Java、Unity、游戏、命令行接口、Citrix 或其他虚拟化环境)可能不受支持。

        • 登录域名 或 桌面应用名称:输入凭证的域名或应用名(例如 login.microsoft.com 或Excel)。 对于登录域名,务必核实该域名,因为它可能与主站URL不同。
      • Azure 密钥保管库选项:使用此选项,可以先输入订阅 ID、资源组名称和密钥保管库名称,在工具中配置凭据。 此信息均可从密钥保管库的 Overview 页获取。

        • 若要在 Power Platform 中使用 Azure 密钥保管库 密钥,

          • 具有保管库的Azure订阅必须已注册 PowerPlatform 资源提供程序
          • 创建环境变量的用户必须对Azure 密钥保管库资源具有适当的权限。
        • 如果尚未执行,请按照 Configure Azure 密钥保管库 中的步骤,再提供以下详细信息:

          • 用户名:用于登录目标网站或应用的用户名。
          • Azure机密名称:存储网站或应用程序密码的密钥保管库中的机密名称。

          备注

          所有网站和大多数Windows应用程序都支持密码字段(WinForms、WPF、UWP、WinUI、Win32),涵盖大多数客户方案。 某些应用类型(如 Electron、Java、Unity、游戏、命令行接口、Citrix 或其他虚拟化环境)可能不受支持。

          • 登录域名 或 桌面应用名称:输入凭证的域名或应用名(例如 login.microsoft.com 或Excel)。 对于登录域名,务必核实该域名,因为它可能与主站URL不同。
    • 访问控制:默认情况下,计算机使用权限可操作任何网站或应用程序。 若需限制访问,请启用访问控制以定义计算机使用权限应限于的具体 URL 和桌面应用程序。 可同时配置网站和应用程序:

      • 网站:输入主网站地址(例如 example.com)。 该网站所有页面将自动包含在内。 子域名中可以使用通配符 (*)。
        • 示例:、、
      • 桌面应用程序:输入应用程序产品名称或进程名称。 查找方法:按下 Ctrl+Shift+Esc 打开任务管理器, 然后检查进程选项卡。
        • 示例:Microsoft EdgemsedgeNotepad

      备注

      访问控制仅阻止模型对不在允许列表中的网站或应用采取行动。 它不会阻止模型打开这些程序。 例如,如果仅 microsoft.com 和 Microsoft Edge 位于允许列表中,模型仍可以使用 Edge 浏览器的搜索栏打开必应搜索引擎。 然而,一旦打开必应,任何尝试交互都会失败,因为它不在允许列表中。

  7. 选择保存。

测试计算机的使用功能

计算机使用测试是内容创作流程中的关键环节。 在输入名称、描述和说明并保存工具后,选择测试以开始测试体验。

加载时间较短后,将显示测试体验:

  • 左侧面板显示你的说明和工具的推理及操作的逐步日志。
  • 右侧面板显示您为计算机使用而设置的机器上操作的预览。

任务完成后,您会看到测试已完成消息。 在测试进行中,您可以选择停止测试立即停止机器上的所有操作。

如果结果不符合您的预期,请转到配置页面并优化您的说明。 添加更多详细信息以提高准确性。 如需指导,请参阅编写有效操作说明的最佳实践。

发布代理以支持计算机使用

配置计算机使用环境,然后发布你的代理程序。 智能体的运行方式取决于具体场景。 它可以是自主的,也可以是对话式的:

  • 自治智能体自动运行并在后台执行任务。
  • 对话代理允许用户通过Microsoft Teams等通道进行交互。

计算机使用最适合自主智能体,无需用户交互即可在后台执行任务。

您也可在对话式体验中应用计算机使用功能,但需注意以下事项:

  • 如果您选择用户认证作为认证设置,与代理进行对话的每位用户都需要为其使用的计算机提供有效的凭据。
  • 当该工具运行时,它会在聊天中共享计算机活动的推理消息和屏幕截图。

最佳做法

在当今数字环境中保持高效与安全,请遵循计算机使用最佳实践,尤其注重编写清晰指令和设备安全防护。

保护计算机的最佳实践

在设置计算机使用机器以允许 AI 使用自然语言执行任务时,请考虑以下安全建议:

安全建议 其他信息
使用专用机器来进行计算机操作 专门为涉及计算机使用的任务分配特定的独立计算机。 此方法可降低无关软件、恶意程序或未经授权访问导致的交叉污染风险。 它能更有效地控制配置、更新和监控。
限制用户账户的权限(该账户用于计算机操作) 为计算机使用设置用户账户时遵循最小权限原则——仅授予运行所需工具的必要权限。
限制访问权限仅限于特定可信网站的允许列表 仅允许对预定义的经过审查和受信任的域列表进行 Web 访问。 例如,可以使用 Microsoft Intune 配置 Microsoft Edge 策略设置,以针对用于计算的机器。
限制特定桌面应用程序的可用性 仅安装并允许执行对预期 AI 工作流至关重要的应用程序。 删除或禁用对不必要软件的访问。 例如,您可以配置应用程序控制来限制在设备上允许运行的应用程序。

计算机使用说明的最佳实践

您编写的说明决定了计算机的使用效果。 具体、详细的说明可帮助计算机准确地完成任务。 可以把它想象成向同事解释一项任务。 清晰的分步指导有助于确保成功。

编写有效说明的技巧:

  • 具体说明网站和应用程序。 始终包含任何网站的完整 URL 以及该工具应使用的任何应用程序的确切名称。 举例: 打开 并进入“公司新闻”。

  • 明确说明相关操作。 如果你想完成某件事,就要明确表达——尤其是提交表格或发送邮件等动作。 示例: 填写表格后,选择 提交。不需要征求许可。

  • 分解复杂的交互。 对于 UI 导航可能更复杂的区域,请详细解释每个步骤。 示例: 选择右上角的 “更多” 图标。会出现一个下拉菜单。打开后,选择列表中的最后一项。

  • 对较长的任务使用分步格式。 长篇说明以列表形式呈现更易于遵循。

示例说明

探索这些示例说明以尝试计算机使用,或将其作为编写自有说明的参考。

场景 名称 描述 说明
发票处理 传输和提交发票详情 将发票数据从 PDF 传输并提交到另一个窗体。 1. 转到 ,将日期筛选器设置为“过去 24 小时”,并打开发票 PDF。
2. 在新标签页中打开 ,并使用该 PDF 中的数据填写表单。 提交发票表格,无需确认。
数据录入 提交库存商品 将产品添加到库存系统。 1. 前往 。
2. 为以下每个项目提交一个新条目:
后变速器,RD-4821,50,42.75,Tailspin Toys
踏板套装,PD-1738,80,19.99,Northwind Traders
制动杆,BL-2975,35,14.50,Trey Research
链环螺栓套装,CB-6640,100,5.25,VanArsdel, Ltd.
中轴,BB-9320,60,24.90,Tailwind Traders
数据提取 查找投资组合经理和其投资价值 获取投资组合经理的姓名以及投资组合的价值。 1. 前往 。
2. 找到 Fourth Coffee 的行,并完全按照所示记录投资组合经理名称和当前投资组合价值。
3. 返回这两个值作为最终输出。

数据提取最佳实践

您可以利用计算机来从网站或应用程序中提取数据,然后将这些数据传递给代理或代理中的其他工具。 操作时只需在计算机操作指令中直接描述所需提取的信息。

若需将提取数据用于其他工具(例如通过邮件发送),请在智能体指令中明确该需求,并确保两个工具均已添加至智能体。

举例: 使用计算机提取财务投资组合仪表盘中的客户信息,并发送邮件发送提取数据。 在这种情况下,你的代理人必须同时包含电脑使用工具和电子邮件工具。

以文本形式提取值

可以指示计算机提取特定值并以纯文本形式返回。 例如,以下提示为客户Fourth Coffee提取投资组合经理和投资组合价值:

1. Go to https://computerusedemos.blob.core.windows.net/web/Portfolio/index.html.
2. Find the row for Fourth Coffee and record the Portfolio Manager name and the current Portfolio Value exactly as shown.
3. Return those two values as the final output.

代理仅以文本形式返回所请求的两个值。

以 JSON 格式提取值

您还可以让计算机返回以 JSON 格式提取的信息。 此格式适用于向其他工具传递结构化数据。 以下示例提取所有与 Contoso 相关的投资组合行,并以规范格式返回 JSON:

Navigate to https://computerusedemos.blob.core.windows.net/web/Portfolio/index.html, retrieve the portfolio details for all Contoso entities, and return the results as a valid JSON object.

Structure the output so that:
*    Each top-level key is the client name
*    Each value contains the client's portfolio ID, portfolio value, portfolio manager, and last updated date (format: YYYY-MM-DD)
*    Return only the JSON, with no additional text.

此方法确保输出数据结构化。

许可

虽然计算机使用处于预览状态,但通过 Agent 操作功能以每次 5 Copilot 积分的费率进行计费。 有关详细信息,请参阅 Microsoft Copilot Studio 计费费率和管理

每次计算机运行都依赖于执行一系列步骤的人工智能模型。 一个步骤可能包含一个或多个低层次作(例如点击、输入或导航)。 每个步骤消耗 5 个 Copilot 积分

例如,如果您设置使用电脑来填写基于网页的工时表,运行可能会执行以下步骤:

  1. 打开浏览器,进入工时表门户。

  2. 选择创建新工时表。

  3. 填写开始时间、结束时间和项目代码字段。

  4. 选择提交按钮。

在此示例中,计算机使用运行执行4个步骤,总共消耗20个 Copilot积分。

共享您的反馈

您有关于计算机使用的反馈吗? 请通过 联系我们。

计算机使用工具的常见问题解答