Che cos'è Esplora dati di Azure Synapse? (anteprima)
Esplora dati di Azure Synapse offre ai clienti un'esperienza di query interattiva per sbloccare informazioni dettagliate dai dati di log e telemetria. Per integrare i motori di runtime di analisi SQL e Apache Spark esistenti, il runtime di analisi di Esplora dati è ottimizzato per l'analisi efficiente dei log usando una potente tecnologia di indicizzazione per indicizzare automaticamente i dati non strutturati (testo libero) e semistrutturati comunemente presenti nei dati di telemetria.
Per altre informazioni, vedere il video seguente:
Caratteristiche di Esplora dati di Azure Synapse
Inserimento semplificato: Esplora dati offre integrazioni predefinite per l'inserimento di dati con uso limitato di codice/senza uso di codice, l'inserimento di dati a velocità effettiva elevata e la memorizzazione dei dati nella cache da origini in tempo reale. I dati possono essere inseriti da origini come Hub eventi di Azure, Kafka, Azure Data Lake, agenti open source come Fluentd/Fluent Bit e un'ampia gamma di origini dati cloud e locali.
Nessuna modellazione dei dati complessa: con Esplora dati non è necessario creare modelli di dati complessi, né creare script complessi per trasformare i dati prima del loro uso.
Nessuna manutenzione dell'indice: non è necessario eseguire attività di manutenzione per ottimizzare i dati per le prestazioni delle query, né alcuna manutenzione dell'indice. Con Esplora dati, tutti i dati non elaborati sono immediatamente disponibili e ciò consente di eseguire query ad alte prestazioni e concorrenza elevata sui dati in streaming e persistenti. È possibile usare queste query per creare dashboard e avvisi in modalità near real-time e connettere i dati di analisi operativa al resto della piattaforma di analisi dei dati.
Democratizzazione dell'analisi dei dati: Esplora dati democratizza l'analisi self-service dei Big Data con il linguaggio di query intuitivo Kusto (KQL), che offre l'espressività e la potenza di SQL con la semplicità di Excel. KQL è ottimizzato ai massimi livelli relativamente all'esplorazione dei dati di telemetria non elaborati e delle serie temporali grazie alla tecnologia di indicizzazione avanzata del testo di Esplora dati per una ricerca efficiente di dati non strutturati (testo libero) ed espressione regolare e alle funzionalità di analisi complete per l'esecuzione di query sui dati di traccia/testo e dati semistrutturati JSON, incluse matrici e strutture annidate. KQL offre supporto avanzato per serie temporali per la creazione, la modifica e l'analisi di più serie temporali con il supporto dell'esecuzione Python a livello di motore per l'assegnazione dei punteggi dei modelli.
Tecnologia collaudata nell'ordine di petabyte: Esplora dati è un sistema distribuito con risorse di calcolo e archiviazione che può essere ridimensionato in modo indipendente, abilitando l'analisi su gigabyte o petabyte di dati.
Integrato: Azure Synapse Analytics offre interoperabilità tra dati tra Esplora dati, Apache Spark e i motori SQL che consentono a ingegneri di dati, scienziati dei dati e analisti dei dati di accedere e usare collaborativamente e in modo semplice e sicuro gli stessi dati nel data lake.
Quando usare Esplora dati di Azure Synapse?
Usare Esplora dati come piattaforma dati per la creazione di soluzioni di analisi dei log in modalità near real-time e di analisi IoT per:
Consolidare e correlare i dati di log ed eventi in origini dati locali, cloud e di terze parti.
Accelerare il percorso delle operazioni di intelligenza artificiale (riconoscimento dei modelli, rilevamento anomalie, previsione e altro ancora).
Sostituire le soluzioni di ricerca log basate sull'infrastruttura per risparmiare sui costi e aumentare la produttività.
Creare una soluzione IoT Analytics per i dati IoT.
Creare soluzioni SaaS per l'analisi in modo da offrire servizi ai clienti interni ed esterni.
Architettura del pool di Esplora dati
I pool di Esplora dati implementano un'architettura con scale-out mediante la separazione delle risorse di calcolo da quelle di archiviazione. In questo modo è possibile ridimensionare in modo indipendente ogni risorsa ed eseguire più calcoli di sola lettura sugli stessi dati. I pool di Esplora dati sono costituiti da un set di risorse di calcolo che eseguono il motore responsabile dell'indicizzazione automatica, della compressione, della memorizzazione nella cache e della gestione delle query distribuite. Dispongono anche di un secondo set di risorse di calcolo che esegue il servizio di gestione dei dati responsabile dei processi di sistema in background e dell'inserimento dati gestito e in coda. Tutti i dati vengono salvati in modo permanente in account di archiviazione BLOB gestiti usando un formato a colonne compresso.
I pool di Esplora dati supportano un ecosistema avanzato per l'inserimento di dati tramite connettori, SDK, API REST e altre funzionalità gestite. Offre diversi modi per usare i dati per query ad hoc, report, dashboard, avvisi, API REST e SDK.
Esistono molte funzionalità uniche che rendono Esplora dati il miglior motore di analisi per log e serie temporali in Azure.
Nelle sezioni seguenti vengono messi in evidenza i principali fattori di differenziazione.
L'indicizzazione di dati semistrutturati e non strutturati (testo libero) garantisce prestazioni elevate in modalità near real-time e query a concorrenza elevata
Esplora dati indicizza dati semistrutturati (JSON) e dati non strutturati (testo libero) e ciò garantisce prestazioni ottimali delle query in esecuzione su questo tipo di dati. Per impostazione predefinita, ogni campo viene indicizzato durante l'inserimento dei dati con la possibilità di usare criteri di codifica di basso livello per ottimizzare o disabilitare l'indice per campi specifici. L'ambito dell'indice è una singola partizione di dati.
L'implementazione dell'indice dipende dal tipo di campo, come indicato di seguito:
Tipo di campo | Implementazione dell'indicizzazione |
---|---|
Stringa | Il motore compila un indice di termini invertito per i valori delle colonne di tipo stringa. Ogni valore stringa viene analizzato e suddiviso in termini normalizzati e per ogni termine viene registrato un elenco ordinato di posizioni logiche, contenenti ordinali di record. L'elenco ordinato di termini risultante e le relative posizioni associate vengono archiviati come albero B non modificabile. |
Numerico DateTime TimeSpan |
Il motore compila un semplice indice di trasferimento basato su intervallo. L'indice registra i valori min/max per ogni blocco, per un gruppo di blocchi e per l'intera colonna all'interno della partizione di dati. |
Dinamico | Il processo di inserimento enumera tutti gli elementi "atomici" all'interno del valore dinamico, ad esempio i nomi delle proprietà, i valori e gli elementi della matrice e li inoltra al generatore di indici. I campi dinamici hanno lo stesso indice di termini invertito dei campi stringa. |
Queste funzionalità di indicizzazione efficienti consentono a Esplora dati di rendere disponibili i dati in modalità near real-time per query ad alte prestazioni e concorrenza elevata. Il sistema ottimizza automaticamente le partizioni di dati per migliorare ulteriormente le prestazioni.
Kusto Query Language
KQL è caratterizzato da una community di grandi dimensioni e in costante crescita che ha adottato rapidamente Log Analytics di Monitoraggio di Azure e Application Insights, Microsoft Sentinel, Esplora dati di Azure e altre offerte Microsoft. Il linguaggio è ben progettato con una sintassi facile da leggere e offre una transizione uniforme da semplici righe a query di elaborazione dei dati complesse. Ciò consente a Esplora dati di fornire supporto IntelliSense avanzato e un set completo di costrutti di linguaggio e funzionalità predefinite per aggregazioni, serie temporali e analisi utente non disponibili in SQL per l'esplorazione rapida dei dati di telemetria.