MATCH_RECOGNIZE

✅ Flusso di eventi dell'infrastruttura di Analisi ✅ di flusso di Azure

La clausola MATCH_RECOGNIZE viene usata per cercare un set di eventi in un flusso di dati. Questa clausola consente di definire modelli di evento usando espressioni regolari e metodi di aggregazione per verificare ed estrarre valori dalla corrispondenza.

Nell'esempio seguente viene illustrata la struttura di base di una clausola MATCH_RECOGNIZE:

SELECT *
INTO output FROM input TIMESTAMP BY time
	MATCH_RECOGNIZE (
		LIMIT DURATION (minute, 1)
		PARTITION BY tollBoothId
		MEASURES
			Last(Toyota.LicensePlate) AS toyotaLicensePlate,
			Last(Lexus.LicensePlate) AS lexusLicensePlate
		AFTER MATCH SKIP TO NEXT ROW
		PATTERN (Toyota+ Ford* Lexus+)
		DEFINE
			Toyota AS Toyota.make = 'Toyota',
			Ford AS Ford.make = 'Ford',
			Lexus AS Lexus.make = 'Lexus'
	) AS T

MATCH_RECOGNIZE ha un output corrispondente di ONE ROW PER MATCH come impostazione predefinita, ovvero l'unica corrispondenza disponibile. Ciò significa che la corrispondenza produce un singolo risultato di riga per corrispondenza e non restituisce le righe corrispondenti.

Sintassi

SELECT_star_query_definition
MATCH_RECOGNIZE (
	LIMIT DURATION (time_unit, time)
	PARTITION BY column_alias
	MEASURES
		expression AS column_alias [,...n]
	AFTER MATCH SKIP TO NEXT ROW
	PATTERN ( <pattern_group> )
	DEFINE
		pattern_name AS boolean_expression [,…n]
) AS column_alias

<pattern_group> ::=
{
	<pattern_name_modifier> [ | <pattern_group> ]*
}
<pattern_name_modifier> ::=
{
	<pattern_atom> [ <pattern_atom> ]*
}
<pattern_atom> ::=
{
	[ pattern_name | ( <pattern_group> ) ] [ <pattern_modifier> ]?
}
<pattern_name> :: =
{
	name | .
}
<pattern_modifier> ::=
{
	* | + | ?
}

DURATA LIMITE

La durata del limite viene usata per definire un intervallo di tempo in cui eseguire la ricerca del criterio. Gli eventi vengono ordinati in base all'ora e TIMESTAMP BY possono essere usati nella clausola SELECT per specificare il campo ora.

PARTITION BY

PARTITION BY consente la chiave e il partizionamento della corrispondenza su un nome di colonna. Una corrispondenza verrà eseguita su ogni chiave univoca specificata dall'istruzione di partizione. In questo modo, una singola query deve essere confrontata su tutte le chiavi e genera corrispondenze separate, una a ogni chiave.

Questa clausola skip definisce che una volta che un criterio viene confrontato a partire dall'evento S, il successivo tentativo di corrispondenza verrà avviato all'evento S+1. Le corrispondenze possono sovrapporsi in questo caso perché un modello può contenere l'inizio di un altro modello all'interno. Questa è l'unica clausola skip disponibile.

MISURE

MEASURES viene usato per definire i valori proiettati dalla corrispondenza usando metodi di aggregazione. Ad esempio, LAST(A.id) AS aid restituirà l'ultimo id valore trovato su tutti gli eventi che corrispondono al modello denominato A nel nome aiddel campo .

Funzione classificatore

La funzione di classificazione può essere usata in MEASURES per restituire i nomi dei criteri di output corrispondenti agli eventi di input. La funzione restituisce un elenco di stringhe, ognuna con il nome del modello corrispondente a un evento.

MODELLO

Il modello definisce l'espressione regolare degli eventi in cui eseguire la ricerca nel flusso di dati. Le variabili di modello sono definite dall'utente e separate da spazi. Modificatori come + e * possono essere usati per modificare la frequenza di una variabile quando corrispondono agli eventi.

Esempio

PATTERN (A+ (B | C))

Il modello in questo esempio definisce una variabile A almeno una volta, seguita da una concatenazione di B o C.

Quantificatori di criteri

I quantificatori di criteri vengono usati per modificare la modalità di mapping di un modello nel flusso di dati, definendo il numero di volte in cui un criterio deve corrispondere per essere valido. Sono disponibili i quantificatori seguenti:

'*' - Zero o più volte
'+' - Una o più volte
'?' - Zero o una volta
'|' - Un modello o un altro

Esempio:

PATTERN (A? B+)

In questo esempio viene definita un'ora di A 0 o 1 seguita da B almeno una volta.

DEFINIRE

DEFINE specifica le regole utilizzate per associare una variabile di pattern a un evento. Le regole sono espressioni booleane su valori aggregati del flusso di dati.

DEFINE
    A AS Last(A.bigint) > 5,
    B AS Last(A.bigint) < B.bigint

In questo esempio vengono definite le regole A e B in cui il valore LAST di A è maggiore di 5 e B dove il valore LAST di A è minore del valore corrente di B. Quando non si usa una funzione di aggregazione nell'espressione DEFINE, l'evento corrente valutato viene associato alla variabile di pattern, ad esempio, in B.bigint il valore B proviene dall'evento corrente valutato.

È possibile accedere ai modelli definiti solo in ordine, se il modello A è definito prima del modello B, A non può fare riferimento a B.

consentiti

...
DEFINE
A AS Last(A.value),
B AS Max(A.value) + Max(B.value),
...

Non consentito

...
DEFINE
A AS Last(A.value) + Last(B.Value),
B AS Max(A.value) + Max(B.value),
...

Metodi di aggregazione

I metodi di aggregazione seguenti possono essere usati in MEASURES e DEFINE:

Min: numero minimo aggregato finora.
Max: numero massimo aggregato finora.
First: primo valore aggregato.
Last: ultimo valore aggregato finora.

Esempio:

Il ricaricamento di serbatoi ad alta pressione è un processo pericoloso e deve essere monitorato attentamente, man mano che aumenta la pressione su un serbatoio aumenta anche la temperatura, la pressione deve aumentare costantemente per dare tempo per il raffreddamento del serbatoio durante il ricaricamento.

In questo esempio, lo sviluppatore vuole monitorare il riempimento di un serbatoio ad alta pressione quando inizia ad aumentare la pressione. Il serbatoio inizia a ricaricare e non può aumentare la pressione del suo doppio in meno di 3 minuti, altrimenti il serbatoio si surriscalda e potrebbe causare un guasto irreversibile.

È possibile usare la query seguente per monitorare lo stato di avanzamento:

SELECT *
INTO output FROM input TIMESTAMP BY time
MATCH_RECOGNIZE (
	LIMIT DURATION (minute, 3)
	MEASURES
 		MAX(Dangerous.pressure) as pressure,
		Classifier() as patterns
	AFTER MATCH SKIP TO NEXT ROW
	PATTERN (Normal+ Dangerous+)
	DEFINE
		Normal AS Normal.isFilling = 1,
		Dangerous AS Max(Dangerous.pressure) > 2* Max(Normal.pressure)
) AS T

Questa query corrisponde a Normal a qualsiasi evento che riempie il serbatoio e nel caso in cui la pressione sia superiore al doppio di un riempimento Normale entro 3 minuti, rispetto a un evento viene generato con la lettura massima della pressione per il modello Pericoloso .

Limitazioni

Solo i valori di campo possono essere usati per le aggregazioni. Nessuna funzione può essere chiamata all'interno di una chiamata di aggregazione.

consentiti
```
...
DEFINE
      A AS Max(A.value) > 5,
...
```
Non consentito
```
...
DEFINE
      A AS Max(udf.myUdf(A.value)) > 5,
...
```

È possibile fornire un solo campo a una funzione di aggregazione come parametro di input.