面向数据科学和数据工程的 Copilot 概述(预览版)

重要

此功能目前为预览版

面向数据科学和数据工程的 Copilot 是可帮助分析和可视化数据的 AI 助手。 它适用于 Lakehouse 表和文件、Power BI 数据集和 pandas/spark/fabric 数据帧,可直接在笔记本中提供答案和代码片段。 使用 Copilot 的最有效方法是将数据添加为数据帧。 可以在聊天面板中提问,然后 AI 会提供可复制到笔记本中的响应或代码。 它可以理解数据的架构和元数据,并且如果将数据加载到数据帧中,则它还可以理解数据帧中的数据。 你可以要求 Copilot 提供数据见解、创建可视化代码或为数据转换提供代码,它还能识别文件名,便于参考。 Copilot 通过消除复杂的编码过程来简化数据分析。

注意

面向 Fabric 数据科学的数据科学与数据工程的 Copilot 简介

借助面向数据科学与数据工程的 Copilot,你可以与 AI 助手聊天,以帮助处理数据分析和可视化任务。 可以在笔记本中向 Copilot 询问有关 Lakehouse 表、Power BI 数据集或 Pandas/Spark 数据帧的问题。 Copilot 将使用自然语言或代码片段给出答案。 Copilot 还可以根据任务为你生成特定于数据的代码。 例如,面向数据科学与数据工程的 Copilot 可以生成使用适用于以下方面的代码:

  • 图表创建
  • 筛选数据
  • 应用转换
  • 机器学习模型

首先在笔记本功能区中选择 Copilot 图标。 此时会打开 Copilot 聊天面板,然后笔记本顶部会显示一个新单元格。 每次在 Fabric 笔记本中加载 Spark 会话时,都必须运行此单元格。 否则,Copilot 体验将无法正常运行。 我们正在评估其他机制,以在将来的版本中处理此必需的初始化。

显示 Copilot 功能区的屏幕截图。

使用以下代码运行笔记本顶部的单元格:

#Run this cell to install the required packages for Copilot
%pip install https://aka.ms/chat-magics-0.0.0-py3-none-any.whl
%load_ext chat_magics

成功执行单元格后,可以使用 Copilot。 每次笔记本中的会话关闭时,必须重新运行笔记本顶部的该单元格。

显示成功执行单元格的屏幕截图。

要最大程度地提高 Copilot 有效性,请将表或数据集作为数据帧加载到笔记本中。 通过此操作,AI 可以访问数据并理解其结构和内容。 然后,开始与 AI 聊天。 在笔记本工具栏中选择聊天图标,并在聊天面板中键入问题或请求。 例如,你可以询问:

  • “此数据集中客户的平均年龄是多少?”
  • “按区域显示销售条形图”

等等。 Copilot 将使用答案或代码进行响应,你可以将其复制并粘贴到笔记本中。 面向数据科学与数据工程的 Copilot 是一种便捷、交互式的数据浏览和分析方法。

在使用 Copilot 时,还可以调用笔记本单元格内的 magic 命令来直接在笔记本中获取输出。 例如,要获取响应的自然语言答案,可以使用“%%chat”命令提问,例如:

%%chat
What are some machine learning models that may fit this dataset?

显示代码生成的屏幕截图。

%%code
Can you generate code for a logistic regression that fits this data?

显示逻辑回归代码生成的屏幕截图。

面向数据科学与数据工程的 Copilot 还可以感知湖屋中表的架构和元数据。 Copilot 可以在附加湖屋中的数据上下文中提供相关信息。 例如,你可以询问:

  • “湖屋里有多少个表?”
  • “什么是表客户的列?”

如果将湖屋添加到笔记本,Copilot 会回复相关信息。 Copilot 还可以感知添加到附加于笔记本的任何湖屋的文件名称。 可以在聊天中按名称引用这些文件。 例如,如果湖屋中存在名为 sales.csv 的文件,则可以询问“根据 sales.csv 创建数据帧”。 Copilot 将生成代码并在聊天面板中显示它。 借助适用于笔记本的 Copilot,可以轻松访问和查询来自不同源的数据。 不需要使用确切的命令语法即可执行此操作。

提示

  • 在 Copilot 聊天面板中,可以使用位于聊天面板顶部的扫把“清除”对话。 Copilot 在会话期间会保留任何输入或输出的知识,但如果发现当前内容分散注意力,这会非常有用。
  • 使用聊天魔法库配置有关 Copilot 的设置,包括隐私设置。 默认共享模式旨在最大限度地增加上下文共享 Copilot 所能访问的内容,因此将提供的信息限制在 copilot 可以直接显著地影响其响应的相关性。
  • 当 Copilot 首次启动时,它会提供一组可以帮助你开始使用的有用提示。 它们可以帮助启动你与 Copilot 的对话。 要在以后参考提示,可以使用聊天面板底部的闪烁按钮。
  • 你可以“拖动”copilot 聊天的侧边栏以展开聊天面板,以更清晰地查看代码或提高屏幕上输出的可读性。

限制

数据科学体验中的 Copilot 功能目前仅限于笔记本。 这些功能包括 Copilot 聊天窗格、可在代码单元中使用的 IPython 魔术命令,以及在代码单元中键入时的自动代码建议。 Copilot 还可以使用语义链接集成来读取 Power BI 语义模型。

Copilot 有两个关键预期用途:

  • 一,可以要求 Copilot 检查和分析笔记本中的数据(例如,首先加载数据帧,然后向 Copilot 询问数据帧内的数据)。
  • 二,可以要求 Copilot 生成一系列有关数据分析过程的建议,例如可能相关的预测模型、执行不同类型数据分析的代码以及已完成笔记本的文档。

请记住,使用快速移动或最近发布的库生成的代码可能包含不准确或捏造的内容。