Détecter, explorer et valider des dépendances fonctionnelles dans vos données à l’aide d’un lien sémantique

Les dépendances fonctionnelles sont des relations entre les colonnes d’une table, où les valeurs d’une colonne déterminent les valeurs d’une autre colonne. Comprendre ces dépendances peut vous aider à découvrir des modèles et des relations dans vos données. Cette compréhension peut faciliter l’ingénierie des fonctionnalités, le nettoyage des données et les tâches de création de modèles. Les dépendances fonctionnelles agissent comme un invariant efficace qui vous aide à trouver et à résoudre les problèmes de qualité des données qui peuvent être difficiles à détecter autrement.

Dans cet article, vous allez utiliser le lien sémantique pour :

Rechercher des dépendances entre les colonnes d’un FabricDataFrame
Visualiser les dépendances
Identifier les problèmes de qualité des données
Visualiser les problèmes de qualité des données
Appliquer des contraintes fonctionnelles entre les colonnes d’un jeu de données

Prérequis

Obtenez un abonnement Microsoft Fabric. Vous pouvez également vous inscrire à un essai gratuit Microsoft Fabric.
Connectez-vous à Microsoft Fabric.
Basculez vers Fabric à l’aide du sélecteur d’expérience situé en bas à gauche de votre page d’accueil.

Accédez à l’expérience de science des données trouvée dans Microsoft Fabric.
Créez un bloc-notes pour copier et coller du code dans des cellules.
Pour Spark 3.4 et versions ultérieures, le lien sémantique est disponible dans le runtime par défaut lors de l’utilisation de Fabric et il n’est pas nécessaire de l’installer. Si vous utilisez Spark 3.3 ou version inférieure, ou si vous souhaitez effectuer une mise à jour vers la version la plus récente du lien sémantique, vous pouvez exécuter la commande : python %pip install -U semantic-link
Ajoutez un Lakehouse à votre notebook.

Le lien sémantique est disponible dans le runtime Fabric par défaut. Pour effectuer une mise à jour vers la version la plus récente du lien sémantique, exécutez cette commande :

%pip install -U semantic-link

Rechercher des dépendances fonctionnelles dans les données

La fonction SemPy find_dependencies détecte les dépendances fonctionnelles entre les colonnes d’un FabricDataFrame. La fonction utilise un seuil sur l’entropie conditionnelle pour découvrir les dépendances fonctionnelles approximatives, où l’entropie conditionnelle faible indique une forte dépendance entre les colonnes. Pour rendre la find_dependencies fonction plus sélective, définissez un seuil inférieur sur l’entropie conditionnelle. Le seuil inférieur signifie que seules les dépendances plus fortes sont détectées.

Cet extrait de code Python montre comment utiliser find_dependencies :

from sempy.fabric import FabricDataFrame
from sempy.dependencies import plot_dependency_metadata
import pandas as pd


df = FabricDataFrame(pd.read_csv("your_data.csv"))

deps = df.find_dependencies()

La fonction find_dependencies retourne un FabricDataFrame avec des dépendances détectées entre les colonnes. Une liste représente des colonnes qui ont un mappage 1:1. La fonction supprime également les arêtes transitives, pour essayer de supprimer les dépendances potentielles.

Lorsque vous spécifiez l’option dropna=True , la fonction élimine les lignes qui ont une valeur NaN dans l’une ou l’autre colonne de l’évaluation. Cette élimination peut entraîner des dépendances nontransitives, comme illustré dans l’exemple suivant :

Un	B	C
1	1	1
1	1	1
1	NAN	9
2	NAN	2
2	2	2

Dans certains cas, la chaîne de dépendances peut former des cycles lorsque vous spécifiez l’option dropna=True , comme illustré dans l’exemple suivant :

Un	B	C
1	1	NAN
2	1	NAN
NAN	1	1
NAN	2	1
1	NAN	1
1	NAN	2

Visualiser les dépendances dans les données

Après avoir trouvé des dépendances fonctionnelles dans un jeu de données à l’aide find_dependenciesde , vous pouvez visualiser les dépendances à l’aide de la plot_dependency_metadata fonction. Cette fonction prend le FabricDataFrame résultant de find_dependencies et crée une représentation visuelle des dépendances entre les colonnes et les groupes de colonnes.

Cet extrait de code Python montre comment utiliser plot_dependencies :

from sempy.fabric import FabricDataFrame
from sempy.dependencies import plot_dependency_metadata
from sempy.samples import download_synthea
import pandas as pd

download_synthea(which='small')

df = FabricDataFrame(pd.read_csv("synthea/csv/providers.csv"))

deps = df.find_dependencies()
plot_dependency_metadata(deps)

La fonction plot_dependency_metadata génère une visualisation qui affiche les regroupements 1:1 de colonnes. Les colonnes appartenant à un seul groupe sont placées dans une seule cellule. Si la fonction ne trouve aucun candidat approprié, elle retourne un FabricDataFrame vide.

Identifier les problèmes de qualité des données

Les problèmes de qualité des données peuvent prendre de nombreuses formes : par exemple, des valeurs manquantes, des incohérences ou des inexactitudes. Pour garantir la fiabilité et la validité d’une analyse ou d’un modèle basé sur les données, il est important d’identifier et de résoudre ces problèmes. Une façon de détecter les problèmes de qualité des données consiste à examiner les violations des dépendances fonctionnelles entre les colonnes d’un jeu de données.

La list_dependency_violations fonction peut vous aider à trouver des violations des dépendances fonctionnelles entre les colonnes du jeu de données. Lorsque vous fournissez une colonne déterminante et une colonne dépendante, la fonction affiche les valeurs qui violent la dépendance fonctionnelle, ainsi que le nombre de leurs occurrences respectives. Ces informations peuvent vous aider à inspecter les dépendances approximatives et à identifier les problèmes de qualité des données.

L’extrait de code suivant montre comment utiliser la list_dependency_violations fonction :

from sempy.fabric import FabricDataFrame
from sempy.samples import download_synthea
import pandas as pd

download_synthea(which='small')

df = FabricDataFrame(pd.read_csv("synthea/csv/providers.csv"))

violations = df.list_dependency_violations(determinant_col="ZIP", dependent_col="CITY")

Dans cet exemple, la fonction part du principe qu’il existe une dépendance fonctionnelle entre les colonnes ZIP (déterminante) et CITY (dépendante). Si le jeu de données a des problèmes de qualité des données ( par exemple, le même code postal affecté à plusieurs villes) la fonction génère les données avec les problèmes :

ZIP	VILLE	compter
12345	Boston	2
12345	Seattle	1

Cette sortie indique que deux villes différentes (Boston et Seattle) ont la même valeur de code postal (12345). Ce résultat suggère un problème de qualité des données dans le jeu de données.

La fonction list_dependency_violations fournit davantage d’options permettant de gérer les valeurs manquantes, de montrer les valeurs mappées aux valeurs en violation, de limiter le nombre de violations retournées, et de trier les résultats en fonction du nombre ou de la colonne déterminante.

La list_dependency_violations sortie peut vous aider à identifier les problèmes de qualité des jeux de données. Toutefois, vous devez examiner attentivement les résultats et prendre en compte le contexte de vos données pour déterminer le cours d’action le plus approprié pour résoudre les problèmes identifiés. Cette approche peut impliquer un nettoyage, une validation ou une exploration des données supplémentaire pour garantir la fiabilité et la validité de votre analyse ou de votre modèle.

Visualiser les problèmes de qualité des données

Les problèmes de qualité des données peuvent endommager la fiabilité et la validité de n’importe quelle analyse ou modèle basé sur ces données. Identifier et résoudre ces problèmes est important pour garantir la précision de vos résultats. Pour détecter les problèmes de qualité des données, examinez les violations des dépendances fonctionnelles entre les colonnes d’un jeu de données. La visualisation de ces violations peut montrer plus clairement les problèmes, et vous aider à les résoudre plus efficacement.

La fonction plot_dependency_violations peut vous aider à visualiser les violations des dépendances fonctionnelles entre les colonnes d’un jeu de données. Étant donné une colonne déterminante et une colonne dépendante, cette fonction montre les valeurs en violation dans un format graphique, afin de faciliter la compréhension de la nature et de l’étendue des problèmes de qualité des données.

Cet extrait de code montre comment utiliser la fonction plot_dependency_violations :

from sempy.fabric import FabricDataFrame
from sempy.samples import download_synthea
import pandas as pd

download_synthea(which='small')

df = FabricDataFrame(pd.read_csv("synthea/csv/providers.csv"))

df.plot_dependency_violations(determinant_col="ZIP", dependent_col="CITY")

La fonction plot_dependency_violations fournit davantage d’options permettant de gérer les valeurs manquantes, de montrer les valeurs mappées aux valeurs en violation, de limiter le nombre de violations retournées, et de trier les résultats en fonction du nombre ou de la colonne déterminante.

La plot_dependency_violations fonction génère une visualisation qui peut aider à identifier les problèmes de qualité des données de jeu de données. Toutefois, vous devez examiner attentivement les résultats et prendre en compte le contexte de vos données pour déterminer le cours d’action le plus approprié pour résoudre les problèmes identifiés. Cette approche peut impliquer un nettoyage, une validation ou une exploration des données supplémentaire pour garantir la fiabilité et la validité de votre analyse ou de votre modèle.

Appliquer des contraintes fonctionnelles

La qualité des données est essentielle pour garantir la fiabilité et la validité de n’importe quelle analyse ou modèle basé sur un jeu de données. L’application de contraintes fonctionnelles entre les colonnes d’un jeu de données peut contribuer à améliorer la qualité des données. Les contraintes fonctionnelles garantissent que les relations entre les colonnes ont une précision et une cohérence, ce qui peut entraîner des résultats d’analyse ou de modèle plus précis.

La drop_dependency_violations fonction applique des contraintes fonctionnelles entre les colonnes d’un jeu de données. Elle supprime les lignes qui violent une contrainte donnée. Étant donné une colonne déterminante et une colonne dépendante, cette fonction supprime les lignes avec des valeurs qui ne respectent pas la contrainte fonctionnelle entre les deux colonnes.

Cet extrait de code montre comment utiliser la fonction drop_dependency_violations :

from sempy.fabric import FabricDataFrame
from sempy.samples import download_synthea
import pandas as pd

download_synthea(which='small')

df = FabricDataFrame(pd.read_csv("synthea/csv/providers.csv"))

cleaned_df = df.drop_dependency_violations(determinant_col="ZIP", dependent_col="CITY")

Dans cet exemple, la fonction applique une contrainte fonctionnelle entre les colonnes ZIP (déterminant) et CITY (dépendantes). Pour chaque valeur du déterminant, la fonction choisit la valeur la plus courante de la colonne dépendante et supprime toutes les lignes avec d’autres valeurs. Par exemple, étant donné ce jeu de données, la ligne avec CITY=Seattle est supprimée et la dépendance fonctionnelle ZIP -> CITY contient dans la sortie :

ZIP	VILLE
12345	Seattle
12345	Boston
12345	Boston
98765	Baltimore
00000	San Francisco

La fonction drop_dependency_violations fournit l’option verbose permettant de contrôler la verbosité de la sortie. En définissant verbose=1, vous pouvez voir le nombre de lignes supprimées. Une valeur verbose=2 affiche l’intégralité du contenu de ligne des lignes supprimées.

La fonction drop_dependency_violations peut appliquer des contraintes fonctionnelles entre les colonnes de votre jeu de données, ce qui peut améliorer la qualité des données et générer des résultats plus justes dans votre analyse ou votre modèle. Toutefois, prenez soigneusement en compte le contexte de vos données et les contraintes fonctionnelles que vous choisissez d’appliquer pour vous assurer que vous ne supprimez pas accidentellement des informations précieuses de votre jeu de données.

Commentaires

Cette page a-t-elle été utile ?

Last updated on 2026-03-11