透過語意連結偵測、探索並驗證資料中的函式依賴關係

函數依賴關係是資料表中欄位間的關係，其中一欄的值決定另一欄的值。了解這些相依關係能幫助你發掘資料中的模式與關係。這種理解有助於特徵工程、資料清理及模型建置任務。功能依賴性作為有效的不變量，幫助你發現並修正那些否則難以察覺的資料品質問題。

在本文中，您會使用語意連結來：

尋找 FabricDataFrame 資料行之間的相依性
視覺化相依性
識別資料品質問題
視覺化資料品質問題
在資料集中的資料行之間強制執行功能限制

必要條件

訂閱Microsoft Fabric。或者，註冊免費的Microsoft Fabric試用。
登入Microsoft Fabric。
使用首頁左下角的體驗切換器切換到 Fabric。

前往 Microsoft Fabric 中的資料科學體驗。
建立新的筆記本，將程式碼複製並貼到儲存格中。
若是 Spark 3.4 和更高版本，使用 Fabric 時，預設執行環境可使用 Semantic Link，且不需要安裝。如果使用的是 Spark 3.3 或以下版本，或者想要更新為最新版本的語意連結，可以執行命令： python %pip install -U semantic-link
將 Lakehouse 新增至筆記本。

語意連結可在預設的 Fabric 執行環境中使用。要更新到最新版本的語意連結，請執行以下指令：

%pip install -U semantic-link

尋找資料中的函數依賴關係

SemPy find_dependencies 函式偵測 FabricDataFrame 欄位間的功能依賴性。該函數利用條件熵的閾值來發現近似的函數依賴關係，條件熵低表示欄位間有強烈依賴性。為了讓 find_dependencies 函數更具選擇性，可以將條件熵的閾值設得較低。較低的閾值表示只會偵測到較強的依賴性。

這段Python程式碼片段示範如何使用 find_dependencies：

from sempy.fabric import FabricDataFrame
from sempy.dependencies import plot_dependency_metadata
import pandas as pd


df = FabricDataFrame(pd.read_csv("your_data.csv"))

deps = df.find_dependencies()

find_dependencies 函數傳回一個 FabricDataFrame，並偵測到資料行之間的相依性。列表代表具有一對一對應的欄位。函式也會移除可轉移的邊緣，以嘗試修剪潛在的相依性。

當你指定 dropna=True 選項時，函式會剔除任一欄中含有 NaN 值的列，使其不參與評估。這種消去可能導致非傳遞的依賴關係，如下範例所示：

一個	B	C
1	1	1
1	1	1
1	NAN	9
2	NAN	2
2	2	2

在某些情況下，當你指定 dropna=True 選項時，依賴鏈會形成循環，如下範例所示：

一個	B	C
1	1	NAN
2	1	NAN
NAN	1	1
NAN	2	1
1	NAN	1
1	NAN	2

視覺化資料中的相依性

當你用 find_dependencies在資料集中找到函數相依關係後，你可以用函 plot_dependency_metadata 式來視覺化這些相依關係。此函數會從 find_dependencies 取得產生的 FabricDataFrame，並建立資料行與資料行群組之間相依性的視覺化表示法。

這段Python程式碼片段展示了如何使用 plot_dependencies：

from sempy.fabric import FabricDataFrame
from sempy.dependencies import plot_dependency_metadata
from sempy.samples import download_synthea
import pandas as pd

download_synthea(which='small')

df = FabricDataFrame(pd.read_csv("synthea/csv/providers.csv"))

deps = df.find_dependencies()
plot_dependency_metadata(deps)

plot_dependency_metadata 函數會產生一個視覺效果，顯示資料行的 1：1 分組。屬於單一群組的數據行會放在單一單元格中。若函式找不到合適的候選，則回傳空的 FabricDataFrame。

識別資料品質問題

資料品質問題可以有多種形式——例如缺失值、不一致或不準確。為了確保任何基於數據的分析或模型的可靠性與有效性，識別並解決這些問題非常重要。偵測資料品質問題的一種方法是檢視資料集中欄位間功能依賴性的違反情況。

這個 list_dependency_violations 函式可以幫助你找出資料集欄位間函數相依性的違規。當你提供決定因素欄位和依賴欄位時，函數會顯示不符合函數依賴的值，以及它們各自出現的次數。這些資訊能幫助你檢視近似相依關係並識別資料品質問題。

以下程式碼片段說明如何使用該 list_dependency_violations 函式：

from sempy.fabric import FabricDataFrame
from sempy.samples import download_synthea
import pandas as pd

download_synthea(which='small')

df = FabricDataFrame(pd.read_csv("synthea/csv/providers.csv"))

violations = df.list_dependency_violations(determinant_col="ZIP", dependent_col="CITY")

在此範例中，函式假設 ZIP（行列式）與 CITY（相依資料行）之間存在功能相依性。如果資料集存在資料品質問題——例如，多個城市都被分配到相同的郵遞區號——函式會輸出包含以下問題的資料：

郵遞區號	城市	計數
12345	波士頓	2
12345	西雅圖	1

此輸出表示兩個不同的城市（波士頓和西雅圖）具有相同的郵遞區號值（12345）。此結果顯示資料集存在資料品質問題。

list_dependency_violations 函式提供更多選項，可以處理遺漏值、顯示映射到違規值的值、限制返回的違規次數，並依計數或決定性欄位對結果進行排序。

輸出 list_dependency_violations 能幫助你識別資料集資料品質問題。然而，您應仔細檢視結果並考慮資料的背景，以決定最合適的行動方案來解決已識別的問題。這種方法可能涉及更多數據清理、驗證或探索，以確保分析或模型的可靠性與有效性。

視覺化資料品質問題

資料品質問題可能損害任何基於該資料的分析或模型的可靠性與有效性。識別並處理這些問題對於確保結果的準確性非常重要。為了偵測資料品質問題，檢視資料集中欄位間函數依賴性的違反情況。可視化這些違規可能會更清楚地顯示問題，並協助您更有效地解決這些問題。

plot_dependency_violations 函數可協助視覺化資料集中資料行之間的功能相依性違規。給定行列式欄與相依欄時，此函數以圖形格式顯示違規值，以便理解資料品質問題的性質與範圍。

此代碼段示範如何使用函 plot_dependency_violations 式：

from sempy.fabric import FabricDataFrame
from sempy.samples import download_synthea
import pandas as pd

download_synthea(which='small')

df = FabricDataFrame(pd.read_csv("synthea/csv/providers.csv"))

df.plot_dependency_violations(determinant_col="ZIP", dependent_col="CITY")

在此範例中，函式假設 ZIP （決定因素）和 CITY （相依因素）欄之間已有的功能相依性。如果資料集存在資料品質問題——例如，多個城市都被分配到相同的郵遞區號——函數會產生違規值的圖表。

函數 plot_dependency_violations 提供更多選項，可以處理遺漏值、顯示與違反值對應的值、限制傳回的違規數量，並依計數或關鍵列排序結果。

該 plot_dependency_violations 函式會產生一個視覺化，有助於識別資料集資料品質問題。然而，您應仔細檢視結果並考慮資料的背景，以決定最合適的行動方案來解決已識別的問題。這種方法可能涉及更多數據清理、驗證或探索，以確保分析或模型的可靠性與有效性。

強制實施功能限制

資料品質對於確保基於資料集建置的任何分析或模型的可靠性與有效性至關重要。在數據集中的數據行之間強制執行功能限制有助於改善數據品質。函數約束確保欄位間的關係具有準確度與一致性，進而帶來更精確的分析或模型結果。

該 drop_dependency_violations 函數在資料集中的欄位間強制執行功能約束。它會移除違反特定限制的列。假設有一個決定性欄和一個相依欄，此函式會移除不符合兩者間功能條件約束的資料列。

此代碼段示範如何使用函 drop_dependency_violations 式：

from sempy.fabric import FabricDataFrame
from sempy.samples import download_synthea
import pandas as pd

download_synthea(which='small')

df = FabricDataFrame(pd.read_csv("synthea/csv/providers.csv"))

cleaned_df = df.drop_dependency_violations(determinant_col="ZIP", dependent_col="CITY")

在此範例中，函數強制ZIP（行列式）與CITY（相依）欄位間的函數約束。對於行列式的每個值，函數會選擇該依賴欄位中最常見的值，並刪除所有其他值的列。例如，給定此資料集，刪除 CITY=Seattle 的列，輸出中函數性依賴 ZIP -> CITY 成立：

郵遞區號	城市
12345	西雅圖
12345	波士頓
12345	波士頓
98765	巴爾的摩
00000	舊金山

函數 drop_dependency_violations 提供 verbose 選項以控制輸出詳細程度。藉由設定 verbose=1，您可以看到已刪除的列數目。值 verbose=2 會顯示已移除行的整個行內容。

函 drop_dependency_violations 式可以在數據集中的數據行之間強制執行功能條件約束，這有助於改善數據品質，並在分析或模型中產生更精確的結果。然而，請仔細考慮資料的情境以及你選擇執行的功能限制，以確保不會意外從資料集中移除有價值的資訊。

意見反應

此頁面對您有幫助嗎？

Last updated on 2026-03-11