Qu'est-ce que le lien sémantique ?
Le lien sémantique est une fonctionnalité qui vous permet d'établir une connexion entre les modèles sémantiques et Science des données Synapse dans Microsoft Fabric. L'utilisation du lien sémantique est uniquement prise en charge dans Microsoft Fabric.
Pour Spark 3.4 et versions ultérieures, le lien sémantique est disponible dans le runtime par défaut lors de l’utilisation de Fabric et il n’est pas nécessaire de l’installer.
Pour Spark 3.3 et versions antérieures, ou pour effectuer une mise à jour vers la dernière version du lien sémantique, exécutez la commande suivante :
%pip install -U semantic-link
Les principaux objectifs du lien sémantique sont les suivants :
- Faciliter la connectivité des données.
- Permettre la propagation d’informations sémantiques.
- Intégrer en toute transparence les outils établis que les scientifiques des données utilisent, comme les notebooks.
Le lien sémantique vous aide à préserver les connaissances du domaine sur la sémantique des données d'une manière standardisée, ce qui peut accélérer l'analyse des données et réduire les erreurs.
Flux de données des liens sémantiques
Le flux de données de lien sémantique commence par les modèles sémantiques qui contiennent des données et des informations sémantiques. Le lien sémantique comble le fossé entre Power BI et l’expérience Synapse Data Science.
Le lien sémantique vous permet d’utiliser des modèles sémantiques de Power BI dans l'expérience Synapse Data Science pour effectuer des tâches telles qu'une analyse statistique approfondie et une modélisation prédictive avec des techniques d'apprentissage automatique. Vous pouvez stocker la sortie de votre travail de science des données dans OneLake à l’aide d’Apache Spark et ingérer la sortie stockée dans Power BI à l’aide de Direct Lake.
Connectivité Power BI
Un modèle sémantique sert de modèle objet tabulaire unique, fournissant des sources fiables pour les définitions sémantiques, telles que les mesures Power BI. Un lien sémantique se connecte aux modèles sémantiques dans les écosystèmes suivants, ce qui facilite le travail des scientifiques des données dans le système avec lequel ils sont les plus familiers.
- L’écosystème Pandas Python par le biais de la bibliothèque Python SemPy.
- Écosystème Apache Spark, via le connecteur natif Spark. Cette implémentation prend en charge différents langages, notamment PySpark, Spark SQL, R et Scala.
Applications d’informations sémantiques
Les informations sémantiques dans les données incluent des catégories de données Power BI telles que l’adresse et le code postal, les relations entre les tables et les informations hiérarchiques.
Ces catégories de données comprennent des métadonnées que le lien sémantique propage dans l'environnement Synapse Data Science pour permettre de nouvelles expériences et maintenir la lignée des données.
Voici quelques exemples d'applications du lien sémantique :
- Suggestions intelligentes de fonctions sémantiques intégrées.
- Intégration innovante pour augmenter les données avec les mesures Power BI avec l’utilisation d’add-measures.
- Outils de validation de la qualité des données en fonction des relations entre les tables et les dépendances fonctionnelles au sein des tables.
Le lien sémantique est un outil puissant qui permet aux analystes commerciaux d'utiliser efficacement les données dans un environnement complet de science des données.
Le lien sémantique facilite une collaboration transparente entre les data scientists et les analystes métier en éliminant le besoin de réimplémenter la logique métier intégrée dans les mesures Power BI. Cette approche garantit que les deux parties peuvent travailler de manière efficace et productive, ce qui optimise le potentiel de leurs insights pilotés par les données.
Structure de données FabricDataFrame
FabricDataFrame est la structure de données principale utilisée par le lien sémantique pour propager les informations sémantiques des modèles sémantiques dans l'environnement Synapse Data Science.
La classe FabricDataFrame
:
- Prend en charge toutes les opérations Pandas.
- Il sous-classe le DataFrame pandas et ajoute des métadonnées, telles que des informations sémantiques et la traçabilité.
- Expose des fonctions sémantiques et la méthode add-measure qui vous permettent d’utiliser des mesures Power BI dans le travail de science des données.
Contenu connexe
- Explorez la documentation de référence pour le package de lien sémantique Python (SemPy)
- Tutoriel : Nettoyer les données avec des dépendances fonctionnelles
- Connectivité Power BI avec lien sémantique et Microsoft Fabric
- Explorer et valider des données avec un lien sémantique
- Explorer et valider les relations dans des modèles sémantiques