Configuración de un conjunto de datos de referencia en el procesador de datos
Importante
Operaciones de IoT de Azure, habilitado por Azure Arc, está actualmente en VERSIÓN PRELIMINAR. No se debería usar este software en versión preliminar en entornos de producción.
Tendrá que implementar una nueva instalación de Azure IoT Operations cuando esté disponible una versión disponible con carácter general, no podrá actualizar una instalación en versión preliminar.
Consulte Términos de uso complementarios para las versiones preliminares de Microsoft Azure para conocer los términos legales que se aplican a las características de Azure que se encuentran en la versión beta, en versión preliminar o que todavía no se han publicado para que estén disponibles con carácter general.
Conjuntos de datos de referencia dentro del almacén de procesadores de datos de referencia que las canalizaciones pueden usar para el enriquecimiento y la contextualización. Los datos del almacén de datos de referencia se organizan en conjuntos de datos, cada uno con varias claves.
Requisitos previos
- Instancia implementada del procesador de datos que incluye el componente opcional del procesador de datos.
- Una canalización del procesador de datos con una fase de entrada que deserializa los datos entrantes.
Configuración de un almacén de datos de referencia
Para agregar un conjunto de datos al almacén de datos, tiene dos opciones:
- Seleccione la pestaña Conjuntos de datos de referencia en la página de configuración de la canalización.
- Seleccione Crear nuevo cuando el tipo de destino Conjuntos de datos de referencia esté seleccionado en la fase de salida de una canalización.
Campo | Descripción | Obligatorio | Ejemplo |
---|---|---|---|
Nombre | Nombre del conjunto de datos. | Sí | mes-sql |
Descripción | Descripción del conjunto de datos. | No | erp data |
Carga útil | Ruta de acceso a los datos del mensaje que se van a almacenar en el conjunto de datos. | No | .payload |
Fecha de expiración | Validez temporal de los datos de referencia aplicados a cada mensaje ingerido. | No | 12h |
Marca de tiempo | La ruta de acceso de jq corresponde al campo de marca de tiempo en los datos de referencia. Este campo se usa para combinaciones basadas en la marca de tiempo en la fase de enriquecimiento. | No | .payload.saptimestamp |
Claves | Consulte configuración de claves en la tabla siguiente. |
Las marcas de tiempo a las que se hace referencia deben estar en formato RFC3339, ISO 8601 o Unix.
De forma predeterminada, la hora de expiración de un conjunto de datos se establece en 24h
. Este valor predeterminado garantiza que ningún dato obsoleto se enriquezca pasadas 24 horas (si los datos no se actualizan) ni crezca sin límites, lo que puede llenar el disco.
Cada clave incluye:
Campo | Descripción | Obligatorio | Número de selección | Ejemplo |
---|---|---|---|---|
Nombre de propiedad | Nombre de la clave. Esta clave se usa para combinaciones basadas en el nombre en la fase de enriquecimiento. | No | Ninguno | assetSQL |
Ruta de acceso de la propiedad | La ruta de acceso de jq a la clave dentro del mensaje. | No | Ninguno | .payload.unique_id |
Clave principal | Determina si la propiedad es una clave principal. Se usa para actualizar o anexar datos ingeridos en un conjunto de datos. | No | Yes /No |
Yes |
Las claves del conjunto de datos no son necesarias, pero se recomiendan para mantener el conjunto de datos actualizado.
Importante
Recuerde que .payload
se anexa automáticamente a la ruta de acceso de jq. Los datos de referencia solo almacenan los datos dentro del objeto .payload
del mensaje. Especifique la ruta de acceso excluyendo el prefijo .payload
.
Sugerencia
El conjunto de datos tarda unos segundos en implementarse en el clúster y en volverse visible en la vista de lista de conjuntos de datos.
Las notas siguientes están relacionadas con las opciones de configuración del conjunto de datos en las tablas anteriores:
- Los nombres de propiedad distinguen entre mayúsculas y minúsculas.
- Puede tener hasta 10 propiedades por conjunto de datos.
- Solo se puede seleccionar una clave principal en cada conjunto de datos.
- El único tipo de datos válido para los valores de clave del conjunto de datos es una cadena.
- Las claves principales se usan para actualizar o anexar datos ingeridos en un conjunto de datos. Si se incluye un nuevo mensaje con la misma clave principal, se actualiza la entrada anterior. Si se incluye un nuevo valor para la clave principal, esa nueva clave y el valor asociado se anexan al conjunto de datos.
- La marca de tiempo del conjunto de datos de referencia se usa para las condiciones de combinación basadas en la marca de tiempo en la fase de enriquecimiento.
- Puede usar la fase de transformación para transferir datos al objeto de carga, ya que los conjuntos de datos de referencia solo almacenan los datos dentro del objeto
.payload
del mensaje y excluyen los metadatos asociados.
Visualización de los conjuntos de datos
Para ver los conjuntos de datos disponibles:
- Seleccione Conjuntos de datos de referencia en la experiencia del editor de canalizaciones. Se muestra una lista de todos los conjuntos de datos disponibles en la vista Conjuntos de datos de referencia.
- Seleccione un conjunto de datos para ver sus detalles de configuración, incluidas sus claves y marcas de tiempo.
Ejemplo
En este ejemplo se describe una planta de fabricación en la que se instalan varios equipos en diferentes ubicaciones. Un sistema de planificación de recursos empresariales (ERP) realiza un seguimiento de las instalaciones, almacena los datos en la base de datos y registra los siguientes detalles de cada equipo: nombre, ubicación, fecha de instalación y un valor booleano que indica si es un equipo de repuesto. Por ejemplo:
equipment | ubicación | installationDate | isSpare |
---|---|---|---|
Horno | Seattle | 5/3/2002 | FALSO |
Mezclador | Tacoma | 15/11/2005 | FALSO |
Segmentación | Seattle | 25/4/2021 | VERDADERO |
Estos datos de ERP son un origen útil de datos contextuales para los datos de serie temporal que proceden de cada ubicación. Puede enviar estos datos al procesador de datos para almacenarlos en un conjunto de datos de referencia y usarlos para enriquecer los mensajes en otras canalizaciones.
Cuando se envían datos desde una base de datos, como Microsoft SQL Server, al procesador de datos, se deserializa en un formato que puede procesar. El siguiente JSON muestra una carga de ejemplo que representa los datos de una base de datos dentro del procesador de datos:
{
"payload": {
{
"equipment": "Oven",
"location": "Seattle",
"installationDate": "2002-03-05T00:00:00Z",
"isSpare": "FALSE"
},
{
"equipment": "Mixer",
"location": "Tacoma",
"installationDate": "2005-11-15T00:00:00Z",
"isSpare": "FALSE"
},
{
"equipment": "Slicer",
"location": "Seattle",
"installationDate": "2021-04-25T00:00:00Z",
"isSpare": "TRUE"
}
}
}
Use la siguiente configuración para el conjunto de datos de referencia:
Campo | Ejemplo |
---|---|
Nombre | equipment |
Marca de tiempo | .installationDate |
Fecha de expiración | 12h |
Las dos claves:
Campo | Ejemplo |
---|---|
Nombre de propiedad | equipment name |
Ruta de acceso de la propiedad | .equipment |
Clave principal | Sí |
Campo | Ejemplo |
---|---|
Nombre de propiedad | location |
Ruta de acceso de la propiedad | .location |
Clave principal | No |
Cada conjunto de datos solo puede tener una clave principal.
Todos los datos entrantes de la canalización se almacenan en el conjunto de datos equipment
en el almacén de datos de referencia. Los datos almacenados incluyen las claves y la marca de tiempo de installationDate
, como equipment name
y location
.
Estas propiedades están disponibles en las fases de enriquecimiento de otras canalizaciones, donde puede usarlas para proporcionar contexto y agregar información adicional a los mensajes que se procesan. Por ejemplo, puede usar estos datos para complementar las lecturas de los sensores de un equipo específico con la fecha de su instalación y su ubicación. Para más información, consulte la fase de enriquecimiento.
Dentro del conjunto de datos equipment
, la clave equipment name
actúa como clave principal. Cuando la canalización ingiere nuevos datos, el procesador de datos comprueba esta propiedad para determinar cómo controlar los datos entrantes:
- Si llega un mensaje con una
equipment name
clave que aún no existe en el conjunto de datos (porPump
ejemplo, ), el procesador de datos agrega una nueva entrada al conjunto de datos. Esta entrada incluye el nuevo tipoequipment name
y sus datos asociados, comolocation
,installationDate
yisSpare
. - Si llega un mensaje con una
equipment name
clave que coincide con una entrada existente en el conjunto de datos (porSlicer
ejemplo, ), el procesador de datos actualiza esa entrada. Los datos asociados para ese equipo, comolocation
,installationDate
yisSpare
, se actualizan con los valores del mensaje entrante.
El equipment
conjunto de datos del almacén de datos de referencia es un origen de información actualizado que puede mejorar y contextualizar los datos que fluyen a través de otras canalizaciones del procesador de datos mediante la Enrich
fase .