Compartir a través de


Configuración de un conjunto de datos de referencia en el procesador de datos

Importante

Operaciones de IoT de Azure, habilitado por Azure Arc, está actualmente en VERSIÓN PRELIMINAR. No se debería usar este software en versión preliminar en entornos de producción.

Tendrá que implementar una nueva instalación de Azure IoT Operations cuando esté disponible una versión disponible con carácter general, no podrá actualizar una instalación en versión preliminar.

Consulte Términos de uso complementarios para las versiones preliminares de Microsoft Azure para conocer los términos legales que se aplican a las características de Azure que se encuentran en la versión beta, en versión preliminar o que todavía no se han publicado para que estén disponibles con carácter general.

Conjuntos de datos de referencia dentro del almacén de procesadores de datos de referencia que las canalizaciones pueden usar para el enriquecimiento y la contextualización. Los datos del almacén de datos de referencia se organizan en conjuntos de datos, cada uno con varias claves.

Requisitos previos

  • Instancia implementada del procesador de datos que incluye el componente opcional del procesador de datos.
  • Una canalización del procesador de datos con una fase de entrada que deserializa los datos entrantes.

Configuración de un almacén de datos de referencia

Para agregar un conjunto de datos al almacén de datos, tiene dos opciones:

  • Seleccione la pestaña Conjuntos de datos de referencia en la página de configuración de la canalización.
  • Seleccione Crear nuevo cuando el tipo de destino Conjuntos de datos de referencia esté seleccionado en la fase de salida de una canalización.
Campo Descripción Obligatorio Ejemplo
Nombre Nombre del conjunto de datos. mes-sql
Descripción Descripción del conjunto de datos. No erp data
Carga útil Ruta de acceso a los datos del mensaje que se van a almacenar en el conjunto de datos. No .payload
Fecha de expiración Validez temporal de los datos de referencia aplicados a cada mensaje ingerido. No 12h
Marca de tiempo La ruta de acceso de jq corresponde al campo de marca de tiempo en los datos de referencia. Este campo se usa para combinaciones basadas en la marca de tiempo en la fase de enriquecimiento. No .payload.saptimestamp
Claves Consulte configuración de claves en la tabla siguiente.

Las marcas de tiempo a las que se hace referencia deben estar en formato RFC3339, ISO 8601 o Unix. De forma predeterminada, la hora de expiración de un conjunto de datos se establece en 24h. Este valor predeterminado garantiza que ningún dato obsoleto se enriquezca pasadas 24 horas (si los datos no se actualizan) ni crezca sin límites, lo que puede llenar el disco.

Cada clave incluye:

Campo Descripción Obligatorio Número de selección Ejemplo
Nombre de propiedad Nombre de la clave. Esta clave se usa para combinaciones basadas en el nombre en la fase de enriquecimiento. No Ninguno assetSQL
Ruta de acceso de la propiedad La ruta de acceso de jq a la clave dentro del mensaje. No Ninguno .payload.unique_id
Clave principal Determina si la propiedad es una clave principal. Se usa para actualizar o anexar datos ingeridos en un conjunto de datos. No Yes/No Yes

Las claves del conjunto de datos no son necesarias, pero se recomiendan para mantener el conjunto de datos actualizado.

Importante

Recuerde que .payload se anexa automáticamente a la ruta de acceso de jq. Los datos de referencia solo almacenan los datos dentro del objeto .payload del mensaje. Especifique la ruta de acceso excluyendo el prefijo .payload.

Sugerencia

El conjunto de datos tarda unos segundos en implementarse en el clúster y en volverse visible en la vista de lista de conjuntos de datos.

Las notas siguientes están relacionadas con las opciones de configuración del conjunto de datos en las tablas anteriores:

  • Los nombres de propiedad distinguen entre mayúsculas y minúsculas.
  • Puede tener hasta 10 propiedades por conjunto de datos.
  • Solo se puede seleccionar una clave principal en cada conjunto de datos.
  • El único tipo de datos válido para los valores de clave del conjunto de datos es una cadena.
  • Las claves principales se usan para actualizar o anexar datos ingeridos en un conjunto de datos. Si se incluye un nuevo mensaje con la misma clave principal, se actualiza la entrada anterior. Si se incluye un nuevo valor para la clave principal, esa nueva clave y el valor asociado se anexan al conjunto de datos.
  • La marca de tiempo del conjunto de datos de referencia se usa para las condiciones de combinación basadas en la marca de tiempo en la fase de enriquecimiento.
  • Puede usar la fase de transformación para transferir datos al objeto de carga, ya que los conjuntos de datos de referencia solo almacenan los datos dentro del objeto .payload del mensaje y excluyen los metadatos asociados.

Visualización de los conjuntos de datos

Para ver los conjuntos de datos disponibles:

  1. Seleccione Conjuntos de datos de referencia en la experiencia del editor de canalizaciones. Se muestra una lista de todos los conjuntos de datos disponibles en la vista Conjuntos de datos de referencia.
  2. Seleccione un conjunto de datos para ver sus detalles de configuración, incluidas sus claves y marcas de tiempo.

Ejemplo

En este ejemplo se describe una planta de fabricación en la que se instalan varios equipos en diferentes ubicaciones. Un sistema de planificación de recursos empresariales (ERP) realiza un seguimiento de las instalaciones, almacena los datos en la base de datos y registra los siguientes detalles de cada equipo: nombre, ubicación, fecha de instalación y un valor booleano que indica si es un equipo de repuesto. Por ejemplo:

equipment ubicación installationDate isSpare
Horno Seattle 5/3/2002 FALSO
Mezclador Tacoma 15/11/2005 FALSO
Segmentación Seattle 25/4/2021 VERDADERO

Estos datos de ERP son un origen útil de datos contextuales para los datos de serie temporal que proceden de cada ubicación. Puede enviar estos datos al procesador de datos para almacenarlos en un conjunto de datos de referencia y usarlos para enriquecer los mensajes en otras canalizaciones.

Cuando se envían datos desde una base de datos, como Microsoft SQL Server, al procesador de datos, se deserializa en un formato que puede procesar. El siguiente JSON muestra una carga de ejemplo que representa los datos de una base de datos dentro del procesador de datos:

{
    "payload": { 
        { 
            "equipment": "Oven", 
            "location": "Seattle", 
            "installationDate": "2002-03-05T00:00:00Z", 
            "isSpare": "FALSE" 
        }, 
        { 
            "equipment": "Mixer", 
            "location": "Tacoma", 
            "installationDate": "2005-11-15T00:00:00Z", 
            "isSpare": "FALSE"
        }, 
        { 
            "equipment": "Slicer", 
            "location": "Seattle", 
            "installationDate": "2021-04-25T00:00:00Z", 
            "isSpare": "TRUE"
        } 
    }
} 

Use la siguiente configuración para el conjunto de datos de referencia:

Campo Ejemplo
Nombre equipment
Marca de tiempo .installationDate
Fecha de expiración 12h

Las dos claves:

Campo Ejemplo
Nombre de propiedad equipment name
Ruta de acceso de la propiedad .equipment
Clave principal
Campo Ejemplo
Nombre de propiedad location
Ruta de acceso de la propiedad .location
Clave principal No

Cada conjunto de datos solo puede tener una clave principal.

Todos los datos entrantes de la canalización se almacenan en el conjunto de datos equipment en el almacén de datos de referencia. Los datos almacenados incluyen las claves y la marca de tiempo de installationDate, como equipment name y location.

Estas propiedades están disponibles en las fases de enriquecimiento de otras canalizaciones, donde puede usarlas para proporcionar contexto y agregar información adicional a los mensajes que se procesan. Por ejemplo, puede usar estos datos para complementar las lecturas de los sensores de un equipo específico con la fecha de su instalación y su ubicación. Para más información, consulte la fase de enriquecimiento.

Dentro del conjunto de datos equipment, la clave equipment name actúa como clave principal. Cuando la canalización ingiere nuevos datos, el procesador de datos comprueba esta propiedad para determinar cómo controlar los datos entrantes:

  • Si llega un mensaje con una equipment name clave que aún no existe en el conjunto de datos (por Pumpejemplo, ), el procesador de datos agrega una nueva entrada al conjunto de datos. Esta entrada incluye el nuevo tipo equipment name y sus datos asociados, como location, installationDate y isSpare.
  • Si llega un mensaje con una equipment name clave que coincide con una entrada existente en el conjunto de datos (por Slicerejemplo, ), el procesador de datos actualiza esa entrada. Los datos asociados para ese equipo, como location, installationDate y isSpare, se actualizan con los valores del mensaje entrante.

El equipment conjunto de datos del almacén de datos de referencia es un origen de información actualizado que puede mejorar y contextualizar los datos que fluyen a través de otras canalizaciones del procesador de datos mediante la Enrich fase .