Partager via


Configurer un jeu de données de référence dans le processeur de données

Important

Opérations Azure IoT (préversion) – activé parc Azure Arc est actuellement en PRÉVERSION. Vous ne devez pas utiliser ce logiciel en préversion dans des environnements de production.

Vous devrez déployer une nouvelle installation d’Azure IoT Operations lorsqu’une version en disponibilité générale est mise à disposition, vous ne pourrez pas mettre à niveau une installation en préversion.

Pour connaître les conditions juridiques qui s’appliquent aux fonctionnalités Azure en version bêta, en préversion ou plus généralement non encore en disponibilité générale, consultez l’Avenant aux conditions d’utilisation des préversions de Microsoft Azure.

Jeux de données de référence au sein du processeur de données stockent les données de référence que les pipelines peuvent utiliser pour l’enrichissement et la contextualisation. Les données à l’intérieur du magasin de données de référence sont organisées en jeux de données, avec chacun plusieurs clés.

Prérequis

  • Instance déployée du processeur de données qui inclut le composant facultatif du processeur de données.
  • Pipeline de processeur de données avec une étape d’entrée qui désérialise les données entrantes.

Configurer un magasin de données de référence

Pour ajouter un jeu de données au magasin de données, vous avez deux options :

  • Sélectionnez l’onglet Jeux de données de référence dans la page de configuration du pipeline.
  • Sélectionnez Créer lorsque le type de destination jeux de données de référence est sélectionné dans l’index de sortie d’un pipeline.
Champ Description Obligatoire Exemple
Nom Nom du jeu de données Oui mes-sql
Description Description du jeu de données. Non erp data
Charge utile Chemin d’accès aux données du message à stocker dans le jeu de données Non .payload
Heure d’expiration Durée de validité des données de référence appliquées à chaque message ingéré. Non 12h
Timestamp Le chemin d’accès jq correspond au champ timestamp dans les données de référence. Ce champ est utilisé pour les jointures basées sur timestamp dans l’index d’enrichissement. Non .payload.saptimestamp
Clés Consultez la configuration des clés dans le tableau suivant.

Les timestamps référencés doivent être au format RFC3339, ISO 8601 ou Unix. Par défaut, le délai d’expiration d’un jeu de données est défini sur 24h. Cette valeur par défaut garantit que des données obsolètes ne sont pas enrichie au-delà de 24 heures (si les données ne sont pas mises à jour) ni qu’elles n’augmentent pas de façon illimitée, ce qui le cas échéant peut saturer le disque.

Chaque clé inclut :

Champ Description Obligatoire Sélection Exemple
Nom de la propriété Nom de la clé. Cette clé est utilisée pour les jointures basées sur le nom dans l’index d’enrichissement. Non Aucun(e) assetSQL
Chemin de la propriété Chemin d’accès jq à la clé dans le message Non Aucun(e) .payload.unique_id
Clé primaire Détermine si la propriété est une clé primaire. Utilisé pour mettre à jour ou ajouter des données ingérées dans un jeu de données. Non Yes/No Yes

Les clés du jeu de données ne sont pas obligatoires, mais elles sont recommandées pour le maintenir à jour.

Important

Sachez que .payload est automatiquement ajouté au chemin d’accès jq. Les données de référence ne stockent les données que dans l’objet .payload du message. Spécifiez le chemin d’accès à l’exclusion du préfixe .payload.

Conseil

Le déploiement du jeu de données sur votre cluster prend quelques secondes, puis devient visible dans l’affichage de liste des jeux de données.

Les notes suivantes concernent les options de configuration du jeu de données dans les tables précédentes :

  • Les noms de propriété respectent la casse.
  • Vous pouvez avoir jusqu’à 10 propriétés par jeu de données.
  • Une seule clé primaire peut être sélectionnée dans chaque jeu de données.
  • La chaîne est le seul type de données valide pour les valeurs de clés de jeu de données.
  • Les clés primaires sont utilisées pour mettre à jour ou ajouter des données ingérées dans un jeu de données. Si un nouveau message est fourni avec la même clé primaire, l’entrée précédente est mise à jour. Si une nouvelle valeur est entrée pour la clé primaire, cette nouvelle clé et la valeur associée sont ajoutées au jeu de données
  • Le timestamp du jeu de données de référence est utilisé pour les conditions de jointure basées sur timestamp dans l’index d’enrichissement.
  • Vous pouvez utiliser l’index de transformation pour transférer dans l’objet de charge utile uniquement les données de l’objet .payload du message en tant que magasin de jeux de données de référence, et exclure les métadonnées associées.

Afficher vos jeux de données

Pour afficher les jeux de données disponibles :

  1. Sélectionnez Jeux de données de référence dans l’expérience de l’éditeur de pipeline. Une liste de tous les jeux de données disponibles est visible dans la vue Jeux de données de référence.
  2. Sélectionnez un jeu de données pour afficher ses détails de configuration, notamment les clés et les timestamps.

Exemple

Cet exemple décrit une usine de fabrication où plusieurs pièces d’équipement sont installées à différents emplacements. Un système ERP effectue le suivi des installations, stocke les données dans la base de données et enregistre les détails suivants pour chaque élément d’équipement : nom, emplacement, date d’installation et booléen (qui indique s’il s’agit d’une pièce de rechange). Par exemple :

équipement location installationDate isSpare
Four Seattle 5/3/2002 FAUX
Mixeur Tacoma 15/11/2005 FAUX
Segment Seattle 25/4/2021 VRAI

Ces données ERP sont une source utile de données contextuelles pour les données de série chronologique provenant de chaque emplacement. Vous pouvez envoyer ces données au processeur de données pour stocker dans un jeu de données de référence et l’utiliser pour enrichir les messages dans d’autres pipelines.

Lorsque vous envoyez des données à partir d’une base de données, comme Microsoft SQL Server, au processeur de données, elle le désérialise dans un format qu’il peut traiter. Le code JSON suivant montre un exemple de charge utile qui représente les données d’une base de données au sein du processeur de données :

{
    "payload": { 
        { 
            "equipment": "Oven", 
            "location": "Seattle", 
            "installationDate": "2002-03-05T00:00:00Z", 
            "isSpare": "FALSE" 
        }, 
        { 
            "equipment": "Mixer", 
            "location": "Tacoma", 
            "installationDate": "2005-11-15T00:00:00Z", 
            "isSpare": "FALSE"
        }, 
        { 
            "equipment": "Slicer", 
            "location": "Seattle", 
            "installationDate": "2021-04-25T00:00:00Z", 
            "isSpare": "TRUE"
        } 
    }
} 

Utilisez la configuration suivante pour le jeu de données de référence :

Champ Exemple
Nom equipment
Timestamp .installationDate
Heure d’expiration 12h

Les deux clés :

Champ Exemple
Nom de la propriété equipment name
Chemin de la propriété .equipment
Clé primaire Oui
Champ Exemple
Nom de la propriété location
Chemin de la propriété .location
Clé primaire Non

Une base de données ne peut posséder qu’une seule clé primaire.

Toutes les données entrantes du pipeline sont stockées dans le jeu de données equipment au sein du magasin de données de référence. Les données stockées incluent le timestamp installationDate et les clés telles que equipment name et location.

Ces propriétés sont disponibles dans les index d’enrichissement d’autres pipelines, où vous pouvez les utiliser pour fournir un contexte et ajouter des informations supplémentaires aux messages en cours de traitement. Par exemple, vous pouvez utiliser ces données pour compléter les lectures de capteurs à partir d’un équipement spécifique avec sa date et son emplacement d’installation. Pour plus d’informations, consultez l’index Enrichir.

Dans le jeu de données equipment, la clé equipment name sert de clé primaire. Lorsque le pipeline ingère de nouvelles données, le processeur de données vérifie cette propriété pour déterminer comment gérer les données entrantes :

  • Si un message arrive avec une equipment name clé qui n’existe pas encore dans le jeu de données (par exemple Pump), le processeur de données ajoute une nouvelle entrée au jeu de données. Cette entrée inclut le nouveau type equipment name et ses données associées, telles que location, installationDateet isSpare.
  • Si un message arrive avec une equipment name clé qui correspond à une entrée existante dans le jeu de données (par exemple Slicer), le processeur de données met à jour cette entrée. Les données associées pour cet équipement, telles que location, installationDate et isSpare, sont mises à jour avec les valeurs du message entrant.

Le equipment jeu de données du magasin de données de référence est une source d’informations à jour qui peut améliorer et contextualiser les données transitant par d’autres pipelines dans le processeur de données à l’aide de la Enrich phase.