Normes de traitement des données pour l’IA et l’analytique

Une plateforme de données unifiée dépend des normes d’ingestion, de transformation et de publication cohérentes afin que les leaders puissent approuver des données pour l’analytique et l’IA. Recommandation: Établissez des normes à l’échelle de l’organisation qui contrôlent les données qui entrent Dans OneLake, comment les équipes affinent ces données et comment les produits de données régis atteignent les consommateurs (voir la figure 1). Pour appliquer cette recommandation, utilisez cet article comme liste de contrôle :

Figure 1. Trois étapes pour définir des normes opérationnelles pour les données.

1. Définir des normes d’ingestion des données

OneLake sert de lac de données central pour l’analytique et l’IA dans Microsoft Fabric. Les leaders doivent donc contrôler les entrées. Recommandation: Définissez des limites claires afin que les équipes ingèrent uniquement les données qui prennent en charge les résultats métier définis. Pour appliquer cette recommandation, utilisez la liste de contrôle suivante.

Quelles données unifiez-vous ? L’unification des données dans OneLake signifie sélectionner des données qui prennent en charge un produit de données lié à un résultat métier mesurable. Bonnes pratiques : Apportez uniquement des données dans OneLake si elles prennent en charge un produit de données et ajoutent de la valeur métier. Traitez l’ingestion des données comme une décision de produit plutôt qu’une valeur technique par défaut. Conseils de décision : Décidez d’ingérer des données lorsqu’elles expliquent ou mesurent un processus métier ou un résultat suivis par les dirigeants. Choisissez de laisser des données dans des systèmes opérationnels ou un stockage départemental lorsqu’aucun cas d’usage actif n’existe. Ce choix réduit les coûts de stockage et la surcharge de gouvernance.
Conservez le contenu de la collaboration et des connaissances dans Microsoft 365. Les données Microsoft 365 prennent en charge les agents Microsoft 365 Copilot. Ces agents récupèrent des documents, des e-mails et des artefacts de collaboration tout en respectant les autorisations existantes. Consultez l’architecture De Microsoft 365 Copilot. Bonnes pratiques : Utilisez Microsoft 365 comme système d’enregistrement pour le contenu dont l’objectif principal est la collaboration, la référence ou la récupération des connaissances. Utilisez le guide d’adoption de Microsoft 365 pour préparer ces données.
Intégrer des bases de données opérationnelles par le biais de modèles pris en charge. Les bases de données opérationnelles fournissent souvent des scénarios d’analytique et d’IA, mais l’accès direct crée un risque et une instabilité. Bonnes pratiques : Utilisez des modèles pris en charge par Microsoft Fabric, tels que des raccourcis pour l’accès virtuel et la mise en miroir pour l’accès répliqué. Les bases de données Azure nécessitent souvent la mise en miroir pour une intégration fiable. Conseils de décision : Choisissez des raccourcis lorsque l’accès virtuel répond aux besoins en matière de performances. Choisissez la mise en miroir lorsque les performances d’analyse, l’isolation ou la réutilisation en aval nécessitent une copie physique dans OneLake.
Intégrer des lacs de données existants. De nombreuses organisations exploitent déjà des lacs de données, tels qu’Azure Data Lake Storage (ADLS), Google Cloud Storage ou Amazon S3. Bonnes pratiques : Traitez les lacs existants dans le cadre du patrimoine de données unifié plutôt que de forcer la migration immédiate. Utilisez des raccourcis ou une mise en miroir. Conseils de décision : Décider en fonction de la préparation et du risque. Pour éviter la duplication, choisissez des raccourcis. Choisissez la mise en miroir lorsque la cohérence, les performances ou la conformité dépassent le coût de duplication.
Afficher les résultats Azure Databricks dans OneLake. Azure Databricks produit souvent déjà des données analytiques organisées. Bonnes pratiques : Conservez les pipelines Databricks en place et surfacez les sorties Gold finales dans OneLake. Conseils de décision : Choisissez des raccourcis pour éviter la réplication et quand l’accès à distance répond aux besoins. Choisissez la mise en miroir lorsque les modèles de gouvernance ou de consommation demandent des données locales.
Séparez l’entrée des données internes et externes. Les données d’analytique interne et les données externes nécessitent différents contrôles. Bonnes pratiques : Créez des espaces de travail distincts ou des zones de lac pour les produits de données externes. Stockez uniquement les jeux de données externes approuvés dans ces emplacements. Conseils de décision : Déterminez rapidement si les données prennent en charge les décisions internes ou le partage externe. Choisissez la séparation physique pour réduire l’exposition accidentelle et simplifier l’application des stratégies de sécurité.

2. Définir des normes de transformation de données

L’obtention de données dans OneLake n’est que la première étape. La valeur réelle provient de la transformation des données brutes en produits de données prêts à l’emploi de haute qualité. Les leaders ne conçoivent pas de pipelines, mais ils définissent des plateformes et des normes architecturales qui empêchent la fragmentation. Recommandation: Normaliser les plateformes de transformation et appliquer une architecture d’affinement cohérente. Pour appliquer cette recommandation, utilisez la liste de contrôle suivante :

2.1. Utiliser la plateforme de données appropriée

Votre choix de plateformes définit les exigences opérationnelles de vos produits de données dans les environnements Microsoft et Azure. Recommandation: Pour chaque produit de données, équilibrez la simplicité et l’intégration avec la nécessité de fonctionnalités d’ingénierie spécialisées. Pour appliquer cette recommandation, utilisez la liste de contrôle suivante :

Fabric (valeur par défaut). Fabric fournit des moteurs intégrés d’ingénierie, d’analytique et de décisionnel qui fonctionnent directement sur OneLake, qui joue le rôle de patrimoine de données régi unifié pour l’organisation. Bonnes pratiques : Utilisez Fabric pour l’analytique, les rapports et la préparation des données standard. Privilégiez les moteurs Fabric natifs, tels que Dataflows Gen2, Spark et SQL, pour simplifier le contrôle d’accès, la traçabilité et la gestion des coûts. Utilisez OneLake comme couche de stockage unique. Conseils de décision : Choisissez Fabric quand les exigences correspondent aux fonctionnalités intégrées et lorsque les dirigeants définissent la gouvernance et la facturation unifiées. Acceptez une personnalisation limitée en échange d’une surcharge opérationnelle plus faible.
Azure Databricks. De nombreuses personnes préfèrent Azure Databricks. Il prend en charge les scénarios de traitement à grande échelle et d’apprentissage automatique avancé. Bonnes pratiques : Continuez à utiliser Databricks où l’expertise ou la mise à l’échelle existe déjà. Exiger que les données arrivent dans OneLake ou se connectent par le biais de raccourcis OneLake, afin de centraliser la gouvernance, la sécurité et la découverte. Conseils de décision : Choisissez Databricks quand Fabric ne répond pas aux exigences actuelles. Acceptez une surcharge d’intégration et de compétence plus élevée comme compromis.
Appliquer les limites de propriété de la plateforme. Les limites de plateforme claires empêchent les coûts dupliqués et la logique incohérente entre les systèmes. Bonnes pratiques : Attribuez la responsabilité de chaque classe de charge de travail à une plateforme. Exiger une révision architecturale avant d’approuver le traitement multiplateforme. Conseils de décision : Déterminez la plateforme qui possède des résultats d’ingestion, de transformation et d’analytique. Empêchez les transformations en double et les pipelines qui se chevauchent qui fournissent le même résultat métier.

2.2. Appliquer l’architecture de médaillon

L’architecture de médaillon établit une confiance, une cohérence et une gouvernance sur tous les produits de données en définissant une progression claire des données brutes vers des sorties prêtes pour l’entreprise. Recommandation: Exiger que tous les produits de données dans OneLake suivent une structure bronze, argent et or et interdisent les raccourcis qui contournent ces couches. Pour appliquer cette recommandation, utilisez la liste de contrôle suivante :

Mandatez une couche bronze comme système d’enregistrement (ingestion brute) : la couche bronze capture les données exactement à mesure qu’elle arrive dans OneLake et conserve la fidélité de la source d’origine. Bonnes pratiques : Stockez les données en mode ajout uniquement et immuables. Interdire les corrections ou l’enrichissement à ce stade. Exigez que tous les jeux de données entrants soient d'abord intégrés dans le niveau bronze. Conseils de décision : Décidez que le bronze n’existe que pour préserver la vérité des systèmes sources. Acceptez la facilité d’utilisation plus lente en échange de l’audit et de la traçabilité.
Établissez la couche Argent comme vue approuvée. La couche Argent contient des données validées, standardisées et nettoyées dont les équipes s’appuient pour une analyse cohérente. Bonnes pratiques : Appliquez des règles de qualité des données, un alignement de format et une validation métier de base. Documentez clairement les jeux de données silver et gérez les modifications par le biais de processus de gouvernance. Conseils de décision : Choisissez l'argent en tant que couche de référence nettoyée. Interdire aux équipes de nettoyer les données brutes indépendamment, ce qui crée des interprétations conflictuelles.
Gold (contexte métier, produits de données) : Certifier des jeux de données gold en tant que produits de données métiers. La couche or fournit des produits de données régis que les dirigeants utilisent pour les décisions, le suivi des performances et les rapports. Bonnes pratiques : Aligner les données de référence sur les définitions et indicateurs d'entreprise approuvés. Optimisez les structures pour la consommation. Enregistrez chaque gold dataset en tant que produit de données dans Microsoft Purview, avec les informations concernant la propriété, l'objectif et la réactualisation. Conseils de décision : Décidez que tout jeu de données utilisé dans les équipes ou pour les décisions doit exister en or. Rejeter les jeux de données non managés ou noncertifiés qui contournent la gouvernance.
Créez des produits désinfectés pour une utilisation externe. Le partage externe nécessite une séparation délibérée des données opérationnelles internes. Bonnes pratiques : Produisez des jeux de données organisés qui suppriment ou masquent des champs sensibles et réduisent les détails si nécessaire. Attribuez la propriété et appliquez des étiquettes claires, telles que l’utilisation publique ou externe. Stockez ces jeux de données dans des emplacements approuvés. Conseils de décision : Choisissez de traiter les jeux de données externes comme des produits indépendants. Acceptez les étapes de gouvernance ajoutées pour réduire les risques juridiques et de sécurité.

Fabric prend en charge ce modèle via des vues de lac matérialisées qui peuvent gérer automatiquement les transformations. Voir Medallion Lakehouse Architecture in Fabric. Pour une architecture d’analytique, consultez Analytique de bout en bout avec Microsoft Fabric.

Table. Exemple d'architecture de medallion. La couche Or combine les données de deux jeux de données.

Dataset	Couche	Exemple de données	Que s’est-il passé
Transactions de vente	Bronze	OrderID=984321 · StoreID=17 · Amount="1,200 » · TxnDate="2026-01-05T14:32:09Z »	Cet enregistrement est arrivé du système de vente exactement tel qu'il a été envoyé. La quantité est du texte. Timestamp suit le format système. Aucune signification n’est appliquée.
	Argent	OrderID=984321 · StoreID=17 · Amount=1200.00 · TxnDate=2026-01-05	La transaction est normalisée et validée. La quantité est numérique. La date suit les règles d’entreprise. Les données sont désormais dignes de confiance.
Informations de référence sur le magasin	Bronze	StoreID="17 » · RegionName="EAST »	Cet enregistrement est arrivé à partir d’un système d’emplacement. La mise en forme reflète la source.
	Argent	StoreID=17 · Région=Est	Les identificateurs de magasin s’alignent sur les données de vente. Les valeurs de région sont nettoyées et cohérentes.
Chiffre d’affaires quotidien par région	Or	Region=East · Date=2026-01-05 · TotalRevenue=425000	Cette valeur combine les transactions de ventes Silver avec les données de référence du magasin Silver. Les enregistrements individuels sont résumés pour répondre à une question métier.

2.3. Envisager une couche d’or adaptative

Adaptive Gold est inclus ici comme une considération prospective. L’idée est que vous utilisez des agents IA pour créer des couches d’or. Les agents peuvent observer des modèles que vous ne pourrez peut-être pas. Si les utilisateurs demandent fréquemment des « principaux problèmes clients par région par mois », les agents IA peuvent matérialiser ce jeu de données. Cette fonctionnalité n’est pas fournie dès aujourd’hui dans Microsoft Fabric. Elle nécessite la création d'un agent IA personnalisé qui fonctionne sur la télémétrie de Fabric et Power BI.

3. Définir les normes de publication des produits de données

Les normes de publication définissent la façon dont votre organisation expose des produits de données approuvés via Microsoft Fabric OneLake et Microsoft Purview. L’objectif est de mettre à l’échelle la réutilisation, d’appliquer la gouvernance et de réduire les risques entre les charges de travail d’analyse et d’IA. Recommandation: Établissez une norme de publication unique qui rend tous les produits de données approuvés détectables, régis et clairement destinés à un public défini avant une utilisation étendue. Pour appliquer cette recommandation, utilisez la liste de contrôle suivante :

Normaliser la publication via le catalogue OneLake. OneLake Catalog fournit une surface d’accès unifiée pour les produits de données sur les plateformes de traitement Fabric et externes, telles que Databricks. Bonnes pratiques : Utilisez OneLake comme couche d’exécution et de consommation par défaut pour tous les produits de données approuvés. Traitez Microsoft Purview comme système d’enregistrement pour les définitions de gouvernance et d’entreprise. Cet alignement permet à Power BI, aux agents de données Fabric et à Recherche Azure AI de consommer des données de manière cohérente tout en permettant une visibilité centralisée de la gouvernance.
Vérifiez la détectabilité. La détectabilité garantit que les décideurs et les consommateurs peuvent trouver des produits de données approuvés sans s’appuyer sur des connaissances informelles. Bonnes pratiques : Configurez la visibilité de l’espace de travail Fabric afin que les audiences pertinentes puissent découvrir des éléments. Ils n’ont pas besoin d’un accès, simplement la possibilité de demander l’accès. Activez les flux de travail de demande d’accès Purview afin que les utilisateurs puissent demander l’autorisation directement à partir du catalogue. Conseils de décision : Choisissez une grande détectabilité lorsque l’objectif est réutilisé sur plusieurs domaines. Choisissez une détectabilité limitée lorsque des contraintes réglementaires ou de confidentialité s’appliquent. Équilibrez la visibilité avec les contrôles d’accès plutôt que de masquer les ressources.
Mandatez l’enrichissement des métadonnées lors de la publication. Les métadonnées fournissent un contexte qui permet aux dirigeants d’évaluer l’adéquation, la confiance et la réutilisation d’un produit de données. Bonnes pratiques : Exiger des métadonnées descriptives lors de la publication. Utilisez des étiquettes dans Fabric pour classifier les produits par domaine ou initiative métier. Vérifiez que les descriptions expliquent l’objectif et l’étendue des données. Cette pratique prend en charge la recherche dans le catalogue et améliore la confiance en la réutilisation. Conseils de décision : Déterminez si les exigences de métadonnées restent minimales ou appliquent un schéma standard. Choisissez un schéma standard lorsque l’organisation exploite plusieurs domaines et a besoin de cohérence. Choisissez une approche plus légère pour les phases de maturité anticipée.
Approuver et certifier le cas échéant. Définissez les critères d’approbation et de certification. L’approbation signale le niveau de confiance et la maturité de gouvernance à l’organisation. Bonnes pratiques : Utilisez Promu pour indiquer les produits recommandés par domaine. Utilisez Certifié pour indiquer les produits qui ont passé un examen formel de gouvernance. Appliquez la certification aux jeux de données Gold qui prennent en charge les rapports exécutifs ou les analyses critiques. Consultez les directives d'approbation de la structure de référence à Endorsement. Conseils de décision : Déterminez les produits qui nécessitent une certification. Choisissez une certification obligatoire pour les charges de travail exécutives ou réglementaires. Choisissez une certification facultative lorsque la vitesse et l’expérimentation sont prioritaires. Acceptez l’intégration plus lente comme compromis pour une plus grande confiance.
Publier en tant que produit de données dans Purview. Les produits de données Purview fournissent une vue de niveau supérieur qui regroupe les ressources dans un cycle de vie de produit managé. Bonnes pratiques : Créez une entrée de produit de données Purview pour chaque produit de données publié. Incluez le nom du produit, la description, les propriétaires, l’état de qualité et les ressources associées, telles que les tables, les modèles et les rapports. Produits de données de référence dans le catalogue unifié. Conseils de décision : Déterminez si les produits de données Purview sont requis pour toutes les ressources publiées ou uniquement pour les produits stratégiques. Choisissez une couverture complète lorsque la visibilité du portefeuille est importante. Choisissez une couverture sélective lorsque la capacité de gouvernance est limitée.
Déclarez l’audience et l’utilisation prévues. L’intention claire empêche l’utilisation incorrecte et prend en charge la conformité entre les scénarios d’analytique et d’IA. Bonnes pratiques : Exiger que chaque produit de données indique son public prévu et le type de charge de travail pris en charge. Spécifiez l’utilisation interne, partenaire ou publique. ** Identifiez les scénarios d'IA, d'analytique, de BI ou de web public. Utilisez les métadonnées Purview, les termes du glossaire et les étiquettes de confidentialité ensemble pour exprimer cette intention de manière cohérente. Conseils de décision : Déterminez si l’utilisation externe ou agent nécessite une approbation supplémentaire. Choisissez une approbation plus stricte lorsque les données quittent les limites de l’organisation. Acceptez la publication plus lente comme compromis pour réduire les risques.

Étape suivante

Normes de sécurité des données

Commentaires

Cette page a-t-elle été utile ?

Last updated on 2026-03-11