Microsoft Fabric中的数据工程工作区管理设置

适用于：✅ Fabric 数据工程和数据科学

在 Microsoft Fabric 中创建工作区时，会自动创建与该工作区关联的 starter 池。通过 Microsoft Fabric 的简化设置，您无需选择节点或计算规格，因为这些选项已在后台处理。此配置提供更快的（5-10 秒）Apache Spark 会话启动体验，让用户可以在许多常见方案中开始使用和运行 Apache Spark 作业，而无需担心设置计算。对于具有特定计算要求的高级应用场景，用户可以创建自定义 Apache Spark 池，并根据其性能需求调整节点大小。

要更改工作区中的 Apache Spark 设置，应具有该工作区的管理员角色。要了解详细信息，请参阅工作区中的角色。

要管理与工作区关联的池的 Spark 配置：

转到工作区中的“工作区设置”，然后选择“数据工程/科学”选项以展开菜单：
左侧菜单中会显示“Spark 计算”选项：

注意

如果将默认池从初学者池更改为自定义 Spark 池，则会话启动时间可能会更长（约 3 分钟）。

池

工作区的默认池

可以使用自动创建的初学者池，也可以为工作区创建自定义池。

初学者池：自动创建预水化实时池，以便获得更快的体验。这些群集为中等大小。初始池根据购买的 Fabric 容量 SKU 设置为默认配置。管理员可以根据 Spark 工作负荷缩放要求而自定义节点和执行程序的最大数量。若要了解详细信息，请参阅配置初学者池
自定义 Spark 池：可以根据 Spark 作业要求调整节点大小、自动缩放和动态分配执行程序。要创建自定义 Spark 池，容量管理员应在“容量管理员设置”的“Spark 计算”部分中启用“自定义工作区池”选项。

注意

默认情况下，自定义工作区池的容量级别控制处于启用状态。要了解详细信息，请参阅配置和管理 Fabric 能力的数据工程和数据科学设置。

管理员可以通过选择“新建池”选项来根据计算要求创建自定义 Spark 池。

Apache Spark for Microsoft Fabric支持单节点群集，因此用户可以选择最小节点配置 1，在这种情况下，驱动程序和执行程序在单个节点中运行。这些单节点集群在节点故障期间提供可还原的高可用性，并为计算要求较小的工作负载提供更好的作业可靠性。此外，还可以为自定义 Spark 池启用或禁用自动缩放。启用自动缩放后，池将获取用户指定的最大节点限制内的新节点，并在作业执行后停用这些节点，以获得更好的性能。

还可以选择选项，动态分配执行程序，自动在根据数据量指定的最大边界内调整执行程序的最佳数量，以获得更好的性能。