Che cos'è Azure Synapse Esplora dati? (Anteprima)

Azure Synapse Esplora dati offre ai clienti un'esperienza di query interattiva per sbloccare informazioni dettagliate dai dati di log e telemetria. Per integrare i motori di runtime di analisi SQL e Apache Spark esistenti, il runtime di analisi di Esplora dati è ottimizzato per l'analisi dei log efficiente usando una tecnologia di indicizzazione avanzata per indicizzare automaticamente i dati senza testo e semistrutturati comunemente trovati nei dati di telemetria.

Diagramma che mostra l'architettura Azure Synapse.

Per altre informazioni, vedere il video seguente:

Cosa rende Azure Synapse Esplora dati univoco?

  • Inserimento semplice: Esplora dati offre integrazioni predefinite per l'inserimento di dati senza codice/basso codice, l'inserimento di dati ad alta velocità effettiva e la memorizzazione nella cache da origini in tempo reale. I dati possono essere inseriti da origini quali Hub eventi di Azure, Kafka, Azure Data Lake, open source agenti come Fluentd/Fluent Bit e un'ampia gamma di origini dati cloud e locali.

  • Nessuna modellazione dei dati complessa: con Esplora dati, non è necessario compilare modelli di dati complessi e non è necessario creare script complessi per trasformare i dati prima dell'utilizzo.

  • Nessuna manutenzione dell'indice : non è necessaria alcuna attività di manutenzione per ottimizzare i dati per le prestazioni delle query e non è necessaria alcuna manutenzione dell'indice. Con Esplora dati, tutti i dati non elaborati sono disponibili immediatamente, consentendo di eseguire query ad alte prestazioni e concorrenza elevata sui dati di streaming e persistenti. È possibile usare queste query per creare dashboard e avvisi quasi in tempo reale e connettere i dati di analisi operativa al resto della piattaforma di analisi dei dati.

  • Democratizzazione dell'analisi dei dati: Esplora dati democratizza l'analisi self-service, Big Data con l'Linguaggio di query Kusto intuitiva (KQL) che fornisce l'espressività e la potenza di SQL con la semplicità di Excel. KQL è altamente ottimizzato per l'esplorazione dei dati di telemetria e serie temporali non elaborati sfruttando la tecnologia di indicizzazione di testo di classe migliore di Esplora dati per una ricerca di testo e regex efficiente e funzionalità di analisi completa per eseguire query su tracce\dati di testo e dati semistrutturati JSON, tra cui matrici e strutture annidate. KQL offre supporto avanzato per la creazione, la modifica e l'analisi di più serie temporali con supporto per l'esecuzione di Python nel motore.

  • Tecnologia comprovata su scala petabyte: Esplora dati è un sistema distribuito con risorse di calcolo e archiviazione che possono ridimensionare in modo indipendente, abilitando l'analisi su gigabyte o petabyte di dati.

  • Integrato: Azure Synapse Analytics offre interoperabilità tra i dati tra Esplora dati, Apache Spark e motori SQL che consentono ai data engineer, ai data scientist e agli analisti dei dati di accedere e collaborare in modo semplice e sicuro sugli stessi dati nel data lake.

Quando usare Azure Synapse Esplora dati?

Usare Esplora dati come piattaforma dati per creare soluzioni di log analytics quasi in tempo reale e analisi IoT per:

  • Consolidare e correlare i dati dei log e degli eventi tra origini dati locali, cloud e di terze parti.

  • Accelerare il percorso Ops per intelligenza artificiale (riconoscimento dei modelli, rilevamento anomalie, previsione e altro ancora).

  • Sostituire le soluzioni di ricerca log basate sull'infrastruttura per risparmiare sui costi e aumentare la produttività.

  • Creare soluzioni di analisi IoT per i dati IoT.

  • Creare soluzioni SaaS di analisi per offrire servizi ai clienti interni ed esterni.

architettura del pool Esplora dati

Esplora dati pool implementano un'architettura con scalabilità orizzontale separando le risorse di calcolo e archiviazione. Ciò consente di ridimensionare in modo indipendente ogni risorsa e, ad esempio, eseguire più calcoli di sola lettura sugli stessi dati. Esplora dati pool sono costituiti da un set di risorse di calcolo che eseguono il motore responsabile dell'indicizzazione automatica, della compressione, della memorizzazione nella cache e della gestione delle query distribuite. Hanno anche un secondo set di risorse di calcolo che eseguono il servizio di gestione dei dati responsabile dei processi di sistema in background e l'inserimento di dati gestiti e accodati. Tutti i dati vengono mantenuti sugli account di archiviazione BLOB gestiti usando un formato columnar compresso.

Esplora dati pool supportano un ecosistema avanzato per l'inserimento di dati usando connettori, SDK, API REST e altre funzionalità gestite. Offre diversi modi per usare i dati per query ad hoc, report, dashboard, avvisi, API REST e SDK.

architettura dei pool di Esplora dati

Esistono molte funzionalità uniche che rendono i dati esplorano il motore analitico migliore per l'analisi delle serie temporali e dei log in Azure.

Le sezioni seguenti evidenziano i diversiatori chiave.

L'indicizzazione di dati senza testo e semistrutturata consente query simultanee e ad alte prestazioni in tempo reale

Esplora dati indicizza i dati semistrutturati (JSON) e i dati non strutturati (testo libero) che rendono le query in esecuzione correttamente su questo tipo di dati. Per impostazione predefinita, ogni campo viene indicizzato durante l'inserimento dei dati con l'opzione per usare criteri di codifica di basso livello per ottimizzare o disabilitare l'indice per campi specifici. L'ambito dell'indice è una singola partizione di dati.

L'implementazione dell'indice dipende dal tipo del campo, come indicato di seguito:

Tipo di campo Implementazione dell'indicizzazione
Stringa Il motore compila un indice termini invertito per i valori di colonna stringa. Ogni valore stringa viene analizzato e suddiviso in termini normalizzati e un elenco ordinato di posizioni logiche, contenente ordinali record, viene registrato per ogni termine. L'elenco ordinato risultante di termini e le relative posizioni associate vengono archiviate come albero B non modificabile.
Numerica
DateTime
TimeSpan
Il motore compila un semplice indice forward basato su intervallo. L'indice registra i valori min/max per ogni blocco, per un gruppo di blocchi e per l'intera colonna all'interno della partizione dati.
Dinamico Il processo di inserimento enumera tutti gli elementi "atomici" all'interno del valore dinamico, ad esempio nomi di proprietà, valori e elementi di matrice e li inoltra al generatore di indici. I campi dinamici hanno lo stesso indice termini invertito dei campi stringa.

Queste funzionalità di indicizzazione efficienti consentono a Esplora dati di rendere i dati disponibili in tempo quasi in tempo reale per query ad alte prestazioni e concorrenza elevata. Il sistema ottimizza automaticamente le partizioni dei dati per migliorare ulteriormente le prestazioni.

Kusto Query Language

KQL ha una grande community in crescita con l'adozione rapida di Log Analytics di Monitoraggio di Azure e Application Insights, Microsoft Sentinel, Azure Esplora dati e altre offerte Microsoft. Il linguaggio è ben progettato con una sintassi facile da leggere e offre una transizione uniforme da semplice lineare a query di elaborazione dei dati complesse. Ciò consente Esplora dati di fornire un supporto avanzato di Intellisense e un set completo di costrutti di linguaggio e funzionalità predefinite per aggregazioni, serie temporali e analisi utente che non sono disponibili in SQL per l'esplorazione rapida dei dati di telemetria.

Passaggi successivi