使用语义链接检测、浏览和验证数据中的功能依赖关系

函数依赖关系是表中的列之间的关系，其中一列中的值确定另一列中的值。了解这些依赖项有助于发现数据中的模式和关系。这种理解可以帮助完成特征工程、数据清理和模型生成任务。函数依赖作为一种有效的不变性，帮助您查找并修复可能难以检测的数据质量问题。

在本文中，您将使用语义链接来实现以下目的：

查找 FabricDataFrame 列之间的依赖关系
可视化依赖项
确定数据质量问题
可视化数据质量问题
在数据集中的列之间强制实施函数约束

先决条件

获取 Microsoft Fabric 订阅。或者，注册免费的 Microsoft Fabric 试用版。
登录到 Microsoft Fabric。
使用主页左下侧的体验切换器切换到 Fabric。

转到 Microsoft Fabric 中的数据科学功能。
创建新的笔记本，将代码复制并粘贴到单元格中。
对于 Spark 3.4 及以上版本，使用 Fabric 时，语义链接在默认运行时中可用，无需安装它。如果使用的是 Spark 3.3 或更低版本，或者想要更新到最新版本的语义链接，则可以运行以下命令： python %pip install -U semantic-link
将 Lakehouse 添加到笔记本。

语义链接在默认 Fabric 运行时中可用。若要更新到最新版本的语义链接，请运行以下命令：

%pip install -U semantic-link

在数据中查找功能依赖项

SemPy find_dependencies 函数检测 FabricDataFrame 列之间的功能依赖关系。该函数使用条件熵阈值来发现近似的功能依赖关系，其中低条件熵表示列之间的强相关性。若要使 find_dependencies 函数更具选择性，请对条件萎缩设置较低的阈值。较低的阈值意味着仅检测到更强的依赖项。

此Python代码片段演示如何使用 find_dependencies：

from sempy.fabric import FabricDataFrame
from sempy.dependencies import plot_dependency_metadata
import pandas as pd


df = FabricDataFrame(pd.read_csv("your_data.csv"))

deps = df.find_dependencies()

find_dependencies 函数返回一个 FabricDataFrame，其中检测到列之间的依赖项。列表表示具有 1:1 映射的列。该函数还会通过删除可传递边缘，尝试删除潜在的依赖项。

指定 dropna=True 选项时，该函数将从评估中排除在任意一列中具有 NaN 值的行。此消除可能会导致非传输依赖项，如以下示例所示：

一个	B	C
1	1	1
1	1	1
1	NAN	9
2	NAN	2
2	2	2

在某些情况下，在指定 dropna=True 选项时，依赖项链可以形成周期，如以下示例所示：

一个	B	C
1	1	NAN
2	1	NAN
NAN	1	1
NAN	2	1
1	NAN	1
1	NAN	2

可视化数据中的依赖项

使用在 find_dependencies数据集中找到功能依赖项后，可以使用函数 plot_dependency_metadata 可视化依赖项。此函数从 find_dependencies 获取生成的 FabricDataFrame，并创建列和列组之间的依赖项的视觉展示。

此Python代码片段演示如何使用 plot_dependencies：

from sempy.fabric import FabricDataFrame
from sempy.dependencies import plot_dependency_metadata
from sempy.samples import download_synthea
import pandas as pd

download_synthea(which='small')

df = FabricDataFrame(pd.read_csv("synthea/csv/providers.csv"))

deps = df.find_dependencies()
plot_dependency_metadata(deps)

plot_dependency_metadata 函数生成一个可视化效果，显示列的 1:1 分组。属于单个组的各列将放入单个单元格中。如果函数找不到任何合适的候选项，它将返回一个空的 FabricDataFrame。

确定数据质量问题

数据质量问题可以采用多种形式，例如缺失值、不一致或不准确。为了确保基于数据构建的任何分析或模型的可靠性和有效性，必须识别和解决这些问题。检测数据质量问题的一种方法是检查数据集中列之间的功能依赖关系冲突。

该 list_dependency_violations 函数可帮助查找数据集列之间的功能依赖关系冲突。提供确定性列和依赖性列时，该函数会显示那些违反函数依赖关系的值，以及它们各自的出现次数。此信息可帮助你检查近似依赖项并确定数据质量问题。

以下代码片段演示如何使用 list_dependency_violations 函数：

from sempy.fabric import FabricDataFrame
from sempy.samples import download_synthea
import pandas as pd

download_synthea(which='small')

df = FabricDataFrame(pd.read_csv("synthea/csv/providers.csv"))

violations = df.list_dependency_violations(determinant_col="ZIP", dependent_col="CITY")

在此示例中，该函数假定 ZIP（决定因子）和 CITY（依赖项）列之间存在函数依赖项。如果数据集存在数据质量问题（例如，分配给多个城市的同一个邮政编码）则函数会输出有问题的数据：

ZIP	城市	计数
12345	波士顿	2
12345	西雅图	1

此输出指示两个不同的城市（波士顿和西雅图）具有相同的邮政编码值 (12345)。此结果建议数据集中的数据质量问题。

list_dependency_violations 函数提供了更多选项来处理缺失值、显示映射到冲突值的值、限制返回的冲突数，以及按计数或决定因子列对结果进行排序。

输出 list_dependency_violations 可帮助你识别数据集数据质量问题。但是，应仔细检查结果，并考虑数据的上下文，以确定解决已确定问题的最合适的作过程。该方法可能涉及进一步的数据清理、验证或探索，目的是确保分析或模型的可靠性和有效性。

可视化数据质量问题

数据质量问题可能会损害基于该数据构建的任何分析或模型的可靠性和有效性。识别和解决这些问题对于确保结果的准确性非常重要。若要检测数据质量问题，请检查数据集中列之间的功能依赖关系冲突。将这些冲突可视化可以更清楚地显示问题，帮助你更有效地解决这些问题。

plot_dependency_violations 函数可帮助可视化数据集中各列之间的函数依赖项冲突。给定确定列和依赖列后，此函数以图形格式显示违反的值，以便更轻松地了解数据质量问题的性质和范围。

以下代码片段演示如何使用 plot_dependency_violations 函数：

from sempy.fabric import FabricDataFrame
from sempy.samples import download_synthea
import pandas as pd

download_synthea(which='small')

df = FabricDataFrame(pd.read_csv("synthea/csv/providers.csv"))

df.plot_dependency_violations(determinant_col="ZIP", dependent_col="CITY")

在此示例中，该函数假定 ZIP（决定因子）和 CITY（依赖项）列之间已有函数依赖项。如果数据集存在数据质量问题（例如，分配给多个城市的相同邮政编码）则函数将生成违反值的图形。

plot_dependency_violations 函数提供了更多选项来处理缺失值、显示映射到冲突值的值、限制返回的冲突数，以及按计数或决定因子列对结果进行排序。

该 plot_dependency_violations 函数生成一个可视化效果，可帮助识别数据集数据质量问题。但是，应仔细检查结果，并考虑数据的上下文，以确定解决已确定问题的最合适的作过程。该方法可能涉及进一步的数据清理、验证或探索，目的是确保分析或模型的可靠性和有效性。

强制实施函数约束

数据质量对于确保基于数据集构建的任何分析或模型的可靠性和有效性至关重要。在数据集中的各列之间强制实施函数约束可以提高数据质量。功能约束可确保列之间的关系具有准确性和一致性，这可能导致更准确的分析或模型结果。

该 drop_dependency_violations 函数在数据集中的列之间强制实施功能约束。它删除违反给定约束的行。给定决定因子列和依赖项列后，如果行的值不遵循两列之间的函数约束，此函数将移除这些行。

以下代码片段演示如何使用 drop_dependency_violations 函数：

from sempy.fabric import FabricDataFrame
from sempy.samples import download_synthea
import pandas as pd

download_synthea(which='small')

df = FabricDataFrame(pd.read_csv("synthea/csv/providers.csv"))

cleaned_df = df.drop_dependency_violations(determinant_col="ZIP", dependent_col="CITY")

在此示例中，该函数在 ZIP（确定因素）和 CITY（依赖）列之间强制实施功能约束。对于确定性的每个值，该函数选取依赖列的最常见值，并删除具有其他值的所有行。例如，鉴于此数据集，删除具有 CITY=Seattle 的行，并且功能依赖项 ZIP -> CITY 保存在输出中：

ZIP	城市
12345	西雅图
12345	波士顿
12345	波士顿
98765	巴尔的摩
00000	旧金山

drop_dependency_violations 函数提供用于控制输出详细程度的 verbose 选项。通过设置 verbose=1，可以看到已删除的行数。 verbose=2 值显示已删除行的整行内容。

drop_dependency_violations 函数可以在数据集中的各列之间强制实施函数约束，这有助于提高数据质量，使分析或模型中的结果更准确。但是，请仔细考虑数据上下文以及你选择强制执行的功能约束，以确保不会意外地从数据集中删除有价值的信息。

反馈

此页面是否有帮助？

Last updated on 2026-03-11