本文提供了有关 Microsoft Fabric 中的数据工厂的常见问题的解答。
Fabric 中的数据工厂
Fabric 中的“数据工厂”和“数据工程”选项卡之间的区别是什么?
数据工厂可帮助你使用云级数据移动和数据转换服务解决复杂的数据集成和 ETL 方案,而数据工程可帮助你创建湖屋、使用 Apache Spark 转换和准备数据。 Microsoft Fabric 术语中介绍了每个 Fabric 术语 / 体验之间的差异。
如何跟踪和监视用于管道的 Fabric 容量?
Microsoft Fabric 容量管理员可以使用 Microsoft Fabric 容量指标应用(也称为指标应用)来了解容量资源。 此应用使管理员能够查看数据管道、数据流及其启用了 Fabric 容量的工作区中的其他项使用的 CPU 使用率、处理时间和内存量。 深入了解过载原因、高峰需求时间、资源消耗和其他信息,并且更轻松地识别要求最苛刻或最受欢迎的项目。
建议使用哪种方法在 Fabric 数据工厂中分配角色?
你可以在各个工作区之间分隔不同的工作负载,并使用成员和查看者等角色来创建一个用于数据工程的工作区,为用于报告或人工智能训练的工作区准备数据。 然后,你可以使用查看者角色使用数据工程工作空间中的数据。
是否可以在 Fabric 数据工厂中连接到已启用专用终结点 (PE) 的现有资源?
目前,虚拟网络网关提供了一种注入方法,可无缝集成到虚拟网络中,从而为使用专用终结点建立与数据存储的安全连接提供了一种可靠的方法。 请务必注意,虚拟网络网关目前只能容纳 Fabric 数据流。 不过,我们即将推出的计划中包括扩大其功能以包含 Fabric 管道。
如何在 Fabric 数据工厂中连接到本地数据源?
借助本地数据网关,你现在可以通过 Microsoft Fabric 中的数据工厂使用数据流和数据管道(预览版)连接到本地数据源。 若要了解详细信息,请参阅如何在数据工厂中访问本地数据源。
发布更新和定价
在哪里可以找到 Fabric 中可用的每月更新?
Microsoft Fabric 博客中提供了 Fabric 每月更新。
什么是 Fabric 数据工厂定价/计费模型?
Microsoft Fabric 中的数据工厂定价提供了有关如何计算数据管道和 Dataflow Gen2 成本的全面指南。 它包含多个定价示例应用场景,可帮助你更好地了解定价模型。
在哪里可以找到有关计划为 Microsoft Fabric 中的数据工厂推出的功能的详细信息?
Microsoft Fabric 中的数据工厂计划推出的新增功能提供对未来几个月即将推出的功能及其估计发布时间线的见解。
数据管道
在 Fabric 数据管道中引入数据的速度有多快?
使用 Fabric 数据工厂,你可以开发能最大程度地提高环境数据移动吞吐量的管道。 这些管道充分利用以下资源:
- 源数据存储与目标数据存储之间的网络带宽
- 源或目标数据存储每秒输入/输出操作数 (IOPS) 和带宽 这种充分利用意味着你可通过测量以下资源可用的最小吞吐量来估计总体吞吐量:
- 源数据存储
- 目标数据存储
- 源与目标数据存储之间的网络带宽 同时,我们不断创新,以提高所能实现的最佳吞吐量。 目前,该服务可以在 5 分钟内将 1 TB TPC-DI 数据集(parquet 文件)移动到 Fabric Lakehouse 表和数据仓库中 – 在不到 1 分钟内移动 1B 的行;请注意,此性能只是通过运行上述测试数据集得出的参考数据。 实际吞吐量仍取决于前面列出的因素。 此外,你始终可以通过并行运行多个复制活动来增加吞吐量。 例如,使用 ForEach 循环。
CDC 功能是否会在 Fabric 数据工厂内提供?
我们目前的重点涉及在 Fabric 数据工厂中积极开发 CDC 功能。 这项即将推出的功能使你能够跨多个数据源移动数据,将不同的复制模式(包括批量/批处理复制模式、增量/连续复制模式 (CDC) 和实时复制模式组合到一个 5x5 体验中。
Dataflows Gen2
Fabric Dataflow Gen2 是否类似于 Azure 数据工厂中嵌入的 Power Query?
ADF 中的 Power Query 活动与 Dataflow Gen2 具有相似之处,但它具有额外的功能,可实现写入到特定数据目标等操作。这种比较事实上与 Dataflow Gen1(Power BI 数据流或 Power Apps 数据流)保持一致。 请在此处查看更多详细信息:Dataflow Gen1 与 Dataflow Gen2 之间的差异。
在 Fabric DataFlow Gen2 中,我偶尔会遇到一些功能,如 DataflowsStaginglakehouse/DataflowsStagingwarehouse。 有哪些功能?
在某些用户体验中,可能会遇到不用于交互的系统项目。 最好忽略这些项目,因为它们最终会在将来从“获取数据”体验中删除。
我的刷新失败,并显示错误消息“数据流刷新由于访问暂存项目的权限不足而失败”。 应采取何种操作?
当在工作区中创建第一个数据流的用户超过 90 天未登录到 Fabric 或已离开组织时,会出现此错误消息。 若要解决此问题,错误消息中提到的用户应登录到 Fabric。 如果用户已离开组织,请提交支持票证。
ADF/Synapse 管道支持和迁移路径
Azure 数据工厂 (ADF) 和 Synapse Pipelines 的未来将会怎样?
Azure 数据工厂 (ADF) 和 Azure Synapse 管道具有单独的平台即服务 (PaaS) 路线图。 这两种解决方案将继续与 Fabric 数据工厂共存,后者是一种软件即服务 (SaaS) 产品/服务。 ADF 和 Synapse 管道仍完全受支持,没有弃用计划。 需要强调的是,对于任何即将到来的项目,我们的建议是使用 Fabric 数据工厂启动它们。 此外,我们还有一些策略来帮助将 ADF 和 Synapse 管道转变为 Fabric 数据工厂,使他们能够利用新的结构功能。 可在此处了解相关详细信息。
既然 Fabric 数据工厂中存在功能差距,为何优先选择它而非 ADF / Synapse 管道呢?
我们努力弥合功能差距,并将 ADF/Azure Synapse 管道中提供的可靠数据管道业务流程和工作流功能合并到 Fabric 数据工厂中,在这个过程中,我们认识到 ADF/Synapse 管道中存在的某些功能可能对你的需求至关重要。 如果有必要,我们建议你继续使用 ADF/Synapse 管道,但建议你首先在 Fabric 中探索新的数据集成可能性。 你提供的有关哪些功能对你的成功至关重要的反馈非常宝贵。 为了便于执行此操作,我们正在努力引入新功能,以允许将现有数据工厂从 Azure 迁移到 Fabric 工作区。
Fabric 数据工厂中的新功能在 ADF/Synapse 中是否也可用?
我们没有将新功能从 Fabric 管道向 ADF/Synapse 管道向后移植。 我们针对 Fabric 数据工厂和 ADF/ Synapse 维护了两个不同的路线图。 我们会评估向后移植请求,以响应传入的反馈。
Fabric 数据管道是否与 Azure Synapse 管道相同?
Fabric 管道的主要功能类似于 Azure Synapse 管道,但通过使用 Fabric 管道,用户可以应用 Fabric 平台中的所有数据分析功能。 可从以下文章了解 Fabric 管道与 Azure Synapse 管道之间的显著差异和功能映射:Fabric 与 Azure 中的数据工厂之间的差异。
如何将现有管道从 Azure 数据工厂(或)Azure Synapse 工作区迁移到 Fabric 数据工厂?
为了方便客户从 Azure 数据工厂 (ADF) 过渡到 Microsoft Fabric,我们提供了一系列基本功能和支持机制。 首先,我们为 Fabric 中的 ADF 中使用的大多数活动提供全面支持,同时添加了针对通知定制的新活动(如 Teams 和 Outlook 功能)。 客户可以访问 Fabric 中数据工厂中可用活动的详细列表。 此外,我们在 Azure 数据工厂中引入了 Fabric 湖屋/仓库连接器,为 ADF 客户实现了与 Fabric 的 OneLake 环境的无缝数据集成。 我们还为 ADF 客户提供指南,有助于将现有映射数据流转换映射到新的 Dataflow Gen2 转换。 展望未来,我们将在路线图中包括将 ADF 资源装载到 Fabric 的功能,使客户能够在 Azure 上保留其现有 ADF 管道的功能,同时探索 Fabric 并规划全面的升级策略。 我们正在与客户和社区密切合作,以确定支持将数据管道从 ADF 迁移到 Fabric 的最有效方法。 作为这项工作的一部分,我们将提供升级体验,使你能够通过装载和升级 Fabric 中的当前数据管道来测试它们。