如何使用 Microsoft Fabric 笔记本

Microsoft Fabric 笔记本是用于开发 Apache Spark 作业和机器学习试验的主要代码项。 它是一个基于 Web 的交互式图面,数据科学家和数据工程师可使用它来编写受益于丰富可视化效果和 Markdown 文本的代码。 数据工程师编写用于数据引入、数据准备和数据转换的代码。 数据科学家还使用笔记本来构建机器学习解决方案,包括创建试验和模型、模型跟踪和部署。

使用 Fabric 笔记本可以:

  • 无需设置即可开始工作。
  • 通过直观的低代码体验轻松浏览和处理数据。
  • 利用内置企业安全功能确保数据安全。
  • 使用强大的 Spark 功能,分析采用原始格式(CSV、txt、JSON 等)、已处理的文件格式(parquet、Delta Lake 等)的数据。
  • 利用增强的创作功能和内置的数据可视化功能提高工作效率。

本文介绍如何在数据科学和数据工程体验中使用笔记本。

创建笔记本

可以新建笔记本或导入现有笔记本。

创建新的 Notebook

与其他标准 Fabric 项的创建流程一样,可以从 Fabric“数据工程”主页、工作区“新建”选项或“创建中心”轻松创建新的笔记本。

导入现有笔记本

可以从“数据工程或数据科学”主页将一个或多个现有笔记本从本地计算机导入 Fabric 工作区。 Fabric 笔记本可以识别标准 Jupyter Notebook .ipynb 文件和 .py、.scala、.sql 等源文件,并相应地创建新的笔记本项。

屏幕截图显示在“新建”菜单中找到笔记本选项的位置。

导出笔记本

可以将笔记本导出为其他标准格式。 Synapse 笔记本可以导出到:

  • 用于 Jupyter 笔记本的标准笔记本文件 (.ipynb)。
  • 可以直接从浏览器打开的 HTML 文件 (.html)。
  • Python 文件 (.py)。
  • Latex 文件 (.tex)。

显示导出笔记本的位置的屏幕截图。

保存笔记本

在 Fabric 中,默认情况下,打开并编辑笔记本后会自动保存,无需担心丢失代码更改。 还可以使用“保存副本”在当前工作区中克隆另一个副本,或克隆到另一个工作区。

显示在哪里保存副本的屏幕截图。

如果希望手动保存笔记本,还可以切换到“手动”保存选项以获得笔记本项的本地分支,并使用“保存”或 CTRL+S 来保存更改。

显示在哪里切换手动保存的屏幕截图。

还可以通过选择“编辑”->“保存选项”->“手动”切换到手动保存模式。 若要打开笔记本的本地分支并手动保存它,请选择“保存”或使用 Ctrl+S 快捷键。

连接湖屋和笔记本

Fabric 笔记本现在支持与湖屋的密切交互;你可以从 Lakehouse 资源管理器轻松添加新的或现有的湖屋。

可以在 Lakehouse 资源管理器中导航到不同的湖屋,并通过固定其中一个湖屋将其设置为默认湖屋。 然后,默认湖屋将装载到运行时工作目录,你可以使用本地路径读取或写入默认湖屋。

屏幕截图显示了固定默认湖屋的位置。

注意

在固定新的湖屋或重命名默认湖屋后,必须重启会话。

添加或移除湖屋

选择湖屋名称旁边的“X”图标会将其从笔记本选项卡中移除,但湖屋项仍存在于工作区中。

选择“添加湖屋”,通过添加现有湖屋或创建新湖屋来向笔记本添加更多湖屋。

浏览湖屋文件

视图的“”和“文件”部分下的子文件夹和文件显示在湖屋列表和笔记本内容之间的内容区域中。 选择“”和“文件”部分中的不同文件夹以刷新内容区域。

文件夹和文件操作

如果右键单击选择了一个文件(.csv、.parquet、.txt、.jpg、.png 等),则可以使用 Spark 或 Pandas API 加载数据。 将生成一个新的代码单元格并将其插入到焦点单元格的下方。

可以通过选择文件或文件夹轻松复制采用不同格式的路径,并在代码中使用相应的路径。

显示湖屋文件的上下文菜单的屏幕截图。

笔记本资源

笔记本资源资源管理器提供类似于 Unix 的文件系统,可帮助你管理文件夹和文件。 它提供了一个可写的文件系统空间,你可以在其中存储小型文件,例如代码模块、语义模型和图像。 可以在笔记本中使用代码轻松访问它们,就像使用本地文件系统一样。

笔记本资源的 GIF 动画。

此内置文件夹是每个笔记本实例的系统预定义文件夹。 它最多保留 500MB 存储用于存储当前笔记本的依赖项。 下面是笔记本资源的重要功能:

  • 可以通过 UI 使用常见操作,例如创建/删除、上传/下载、拖/放、重命名、复制和搜索。
  • 可以使用相对路径(例如 builtin/YourData.txt )进行快速浏览。 方法 mssparkutils.nbResPath 可帮助你撰写完整路径。
  • 可以通过“写入湖屋”选项轻松将已验证的数据移动到湖屋。 Fabric 为常见文件类型嵌入了丰富的代码片段,可帮助你快速入门。
  • 这些资源也可通过 mssparkutils.notebook.run()参考笔记本运行案例中使用。

注意

  • 目前,Fabric 支持通过 UI 上传特定的文件类型,包括 .py.whl.jar.txt.json.yml.xml.csv.html.png.jpg.xlsx 文件。 可以通过代码将不在列表中的文件类型写入内置文件夹,但对于不受支持的文件类型,Fabric 笔记本不支持生成代码片段。
  • 每个文件大小需要小于 50MB,内置文件夹总共最多允许 100 个文件/文件夹实例。
  • 使用 mssparkutils.notebook.run() 时,可以使用 mssparkutils.nbResPath 命令访问目标笔记本资源。 相对路径“builtin/”将始终指向根笔记本的内置文件夹。

在笔记本中协作

Fabric 笔记本是一个协作项,支持多个用户编辑同一个笔记本。

打开笔记本时,默认会进入共同编辑模式,每项笔记本编辑内容都会自动保存。 如果你的同事们同时打开一个笔记本,你将看到他们的配置文件、运行输出、光标指示器、选择指示器和编辑跟踪。 使用协作功能可以轻松完成结对编程、远程调试和指导方案。

显示一个代码单元格且另一个用户正在编辑的屏幕截图。

共享笔记本

共享笔记本是与团队成员协作的便捷方式。 默认情况下,授权的工作区角色可以查看或编辑/运行笔记本。 可以使用授予的指定权限共享笔记本。

  1. 在笔记本工具栏上选择“共享”。

    屏幕截图显示在哪里选择“共享”。

  2. 选择可以查看此笔记本的人员的相应类别。 可为接收者选择“共享”、“编辑”或“运行”权限。

    屏幕截图显示在哪里选择“权限”。

  3. 选择“应用”后,可以直接发送笔记本或将链接复制给其他人。 然后,接收者可以使用其权限级别授予的相应视图打开笔记本。

    屏幕截图显示创建和发送链接的位置。

  4. 若要进一步管理笔记本权限,请选择“工作区项列表”>“更多选项”,然后选择“管理权限”。 在该屏幕中,可以更新现有笔记本访问权限和操作权限。

    屏幕截图显示在工作区中管理权限的位置。

注释代码单元格

注释是用于协作方案的另一个有用功能。 目前,Fabric 支持添加单元格级注释。

  1. 选择笔记本工具栏或单元格注释指示器上的“注释”按钮,打开“注释”窗格。

    显示在哪里选择“注释”的屏幕截图。

  2. 在代码单元格中选择代码,选择“注释”窗格中的“新建”,添加注释,然后选择“发布注释”按钮进行保存。

    显示在何处选择“新建”的屏幕截图。

  3. 如果需要,可以通过选择注释旁边的“更多”选项找到“编辑注释”、“解析线程”和“删除线程”选项。

在注释中标记其他人

“标记”是指在注释线程中提及和通知用户,从而有效地增强在细节上的协作。

  1. 在单元格中选择一段代码并新建一个注释线程。

  2. 如果要提及某人讨论特定部分,请输入用户名并在建议列表中选择正确的用户名。

  3. 共享见解并发布它们。

  4. 将触发电子邮件通知,用户单击“打开注释”链接以快速找到此单元格。

  5. 此外,在标记没有访问权限的人时,为用户授权和配置权限,确保代码资产得到良好管理。

在注释中标记他人的动画 GIF。

注意

对于注释项,如果一小时内更新注释,则标记的用户将不再收到电子邮件通知。 但是,它将向新标记的用户发送电子邮件通知。

切换笔记本模式

Fabric 笔记本支持两种可以轻松切换的模式:“编辑”模式和“查看”模式。

显示在哪里切换模式的屏幕截图。

  • 编辑模式:可以编辑和运行单元格,并在笔记本上与其他人协作。
  • 查看模式:只能查看笔记本的单元格内容、输出和注释。 对笔记本进行更改的所有操作都将被禁用。