什么是语义链接?

语义链接是一项功能,可用于在 Microsoft Fabric 中的语义模型和 Synapse 数据科学之间建立连接。 仅在 Microsoft Fabric 中支持使用语义链接。

  • 对于 Spark 3.4 及以上版本,使用 Fabric 时,语义链接在默认运行时中可用,无需安装。

  • 对于 Spark 3.3 或更低版本,请运行以下命令,如需更新到最新版本的语义链接,也可运行此命令:

    %pip install -U semantic-link
    

语义链接的主要目的是:

  • 促进数据连接。
  • 启用语义信息的传播。
  • 与数据科学家使用的已建立的工具无缝集成,例如笔记本

语义链接有助于以标准化方式,保留有关数据语义的域知识,从而加快数据分析和减少错误。

语义链接数据流从包含数据和语义信息的语义模型开始。 语义链接弥合了 Power BI 与 Synapse 数据科学体验之间的差距。

显示从 Power BI 到 Synapse 数据科学中的笔记本及返回 Power BI 的数据流的示意图。

借助语义链接,可以在 Synapse 数据科学体验中使用 Power BI 中的语义模型来执行诸如使用机器学习技术进行深入统计分析和预测建模等任务。 通过使用 Apache Spark,可将数据科学工作的输出存储在 OneLake 中;通过使用 Direct Lake,可将存储的输出引入到 Power BI 中。

Power BI 连接

语义模型充当单个表格对象模型,为语义定义(例如 Power BI 度量值)提供可靠的来源。 语义链接连接到以下生态系统中的语义模型,因此数据科学家可以轻松地在最熟悉的系统中工作。

  • Python pandas 生态系统(通过 SemPy Python 库实现)。
  • Apache Spark 生态系统(通过 Spark 本机连接器实现)。 此实现支持各种语言,包括 PySpark、Spark SQL、R 和 Scala。

语义信息的应用程序

数据中的语义信息包括 Power BI 数据类别,例如地址和邮政编码、表之间的关系和分层信息。

这些数据类别包括语义链接传播到 Synapse 数据科学环境中的元数据,旨在实现新的体验并维护数据世系。

语义链接的一些示例应用程序包括:

  • 内置语义函数的智能建议。
  • 通过使用 add-measures,创新集成,通过 Power BI 度量值增强数据。
  • 用于数据质量验证的工具基于表内表与功能依赖关系之间的关系。

语义链接是一种功能强大的工具,使业务分析师能够在全面的数据科学环境中有效使用数据。

语义链接简化了数据科学家与业务分析师之间的无缝协作,无需重新实现嵌入 Power BI 度量的业务逻辑。 此方法可确保双方都能高效高效地工作,最大限度地发挥数据驱动见解的潜力。

FabricDataFrame 数据结构

FabricDataFrame 是语义链接用于将语义信息从语义模型传播到 Synapse 数据科学环境的主要数据结构。

示意图,其中显示从连接器到语义模型到 FabricDataFrame 再到语义函数的数据流。

FabricDataFrame 类:

  • 支持所有 pandas 操作。
  • pandas 数据帧分成子类并添加元数据,例如语义信息和世系。
  • 公开语义函数和 add-measure 方法,使你能够在数据科学工作中使用 Power BI 度量值。