Microsoft Fabric 术语

了解 Microsoft Fabric 中使用的术语的定义,包括特定于 Synapse 数据仓库、Synapse 数据工程、Synapse 数据科学、实时智能、数据工厂和 Power BI 的术语。

一般术语

  • 容量:容量是在给定时间可用的一组专用资源。 容量定义资源执行活动或生成输出的能力。 不同项在特定时间消耗不同的容量。 Fabric 通过 Fabric SKU 和试用版提供容量。 有关详细信息,请参阅:什么是容量?

  • 体验:针对特定功能的能力集合。 Fabric 体验包括 Synapse 数据仓库、Synapse 数据工程、Synapse 数据科学、实时智能、数据工厂和 Power BI。

  • 项:一个项就是体验中的一组功能。 用户可以创建、编辑和删除它们。 每种项类型提供不同的功能。 例如,数据工程体验包括湖屋、笔记本和 Spark 作业定义项。

  • 租户:租户是组织的 Fabric 的单个实例,与 Microsoft Entra ID 保持一致。

  • 工作区:工作区是项的集合,它将单个环境中的不同功能汇集在一起以用于协作。 它充当容器,利用所执行工作的容量,并控制可以访问其中的项的人员。 例如,在工作区中,用户创建报表、笔记本、语义模型,等等。有关详细信息,请参阅工作区一文。

Synapse 数据工程

  • 湖屋:湖屋是文件、文件夹和表的集合,它们表示 Apache Spark 引擎和 SQL 引擎在处理大数据时使用的数据湖上的数据库。 使用开源 Delta 格式的表时,湖屋包含 ACID 事务的增强功能。 湖屋项托管在 Microsoft OneLake 中的唯一工作区文件夹中。 它包含各种格式的文件(结构化和非结构化),汇总在文件夹和子文件夹中。 有关详细信息,请参阅什么是湖屋?

  • 笔记本:Fabric 笔记本是一种具有丰富功能的多语言交互式编程工具。 这包括创作代码和 markdown、运行和监视 Spark 作业、查看和可视化结果,以及与团队协作。 它可帮助数据工程师和数据科学家探索和处理数据,并构建代码和低代码体验的机器学习试验。 可以轻松地将其转换为管道活动以运行业务流程。

  • Spark 应用程序:Apache Spark 应用程序是由用户使用 Spark 的某个 API 语言(Scala、Python、Spark SQL 或 Java)或 Microsoft 添加的语言(用 C# 或 F# 配合 .NET)编写的程序。 应用程序运行时,会将其划分为一个或多个并行运行的 Spark 作业,以便更快地处理数据。 有关详细信息,请参阅 Spark 应用程序监视

  • Apache Spark 作业:Spark 作业是 Spark 应用程序的一部分,它与应用程序中的其他作业并行运行。 一个作业包含多个任务。 有关详细信息,请参阅 Spark 作业监视

  • Apache Spark 作业定义:Spark 作业定义是由用户设置的一组参数,指示应如何运行 Spark 应用程序。 它允许将批处理作业或流式处理作业提交到 Spark 群集。 有关详细信息,请参阅什么是 Apache Spark 作业定义?

  • V-order:对 parquet 文件格式的写入优化,可实现快速读取并提供成本效益和更好的性能。 默认情况下,所有 Fabric 引擎都会写入经过 V-order 的 parquet 文件。

数据工厂

  • 连接器:数据工厂提供了一组丰富的连接器,可用于连接到不同类型的数据存储。 连接后,可以转换数据。 有关详细信息,请参阅连接器

  • 数据管道:在数据工厂中,数据管道用于协调数据移动和转换。 这些管道不同于 Fabric 中的部署管道。 有关详细信息,请参阅数据工厂概述中的管道

  • Dataflow Gen2:数据流提供了一个低代码接口,用于从数百个数据源引入数据并转换数据。 Fabric 中的数据流称为 Dataflow Gen2。 Dataflow Gen1 存在于 Power BI 中。 与 Azure 数据工厂或 Power BI 中的数据流相比,Dataflow Gen2 提供了额外的功能。 无法从 Gen1 升级到 Gen2。 有关详细信息,请参阅数据工厂概述中的数据流

  • 触发器:数据工厂中的一种自动化功能,可根据特定条件(如计划或数据可用性)启动管道。

Synapse 数据科学

  • 数据整理器:数据整理器是一种基于笔记本的工具,可为用户提供沉浸式体验,以进行探索性数据分析。 该功能会将类似网格的数据显示与动态摘要统计信息和一组常见的数据清理操作相结合,所有这些操作均通过几个选定的图标提供。 每个操作都会生成代码,这些代码可以作为可重用脚本保存回笔记本。

  • 试验:机器学习试验是整理和控制所有相关的机器学习运行的主要单元。 有关详细信息,请参阅 Microsoft Fabric 中的机器学习试验

  • 模型:机器学习模型是一个文件,在经过训练后可以识别特定类型的模式。 你可以基于一组数据训练模型,并为其提供一种算法,它会使用该算法对数据集进行推理并从中学习。 有关详细信息,请参阅机器学习模型

  • 运行:一次运行对应于模型代码的单次执行。 在 MLflow 中,跟踪基于试验和运行。

Synapse Data Warehouse

  • SQL 分析终结点:每个湖屋都有一个 SQL 分析终结点,允许用户通过 TDS 使用 TSQL 查询增量表数据。 有关详细信息,请参阅 SQL 分析终结点

  • Synapse Data Warehouse:Synapse Data Warehouse 是一项传统的数据仓库功能,它支持企业数据仓库中所需的全部事务性 T-SQL 功能。 有关详细信息,请参阅 Synapse Data Warehouse

实时智能

  • KQL 数据库:KQL 数据库以可以对其执行 KQL 查询的格式保存数据。 有关详细信息,请参阅查询 KQL 数据库

  • KQL 查询集:KQL 查询集是用于对数据资源管理器数据库中的数据运行查询、查看结果和操作查询结果的项。 查询集包括数据库和表、查询和结果。 通过 KQL 查询集可保存查询供将来使用,或者导出查询并与他人共享。 有关详细信息,请参阅在 KQL 查询集中查询数据

  • 事件流:Microsoft Fabric 事件流功能在 Fabric 平台中提供了一个中心化的位置,以无代码体验捕获、转换实时事件并将其路由到目标。 事件流由各种流式处理数据源、引入目标组成,当需要转换时,还会包含事件处理程序。 有关详细信息,请参阅 Microsoft Fabric 事件流

OneLake

  • 快捷方式:快捷方式是 OneLake 中嵌入的引用,它指向其他文件存储位置。 它们提供了一种连接到现有数据的方法,而无需直接复制数据。 有关详细信息,请参阅 OneLake 快捷方式