Abilitare le statistiche di analisi per le query
Nota
Azure HDInsight su AKS verrà ritirato il 31 gennaio 2025. Prima del 31 gennaio 2025, sarà necessario eseguire la migrazione dei carichi di lavoro a Microsoft Fabric o a un prodotto Azure equivalente per evitare interruzioni improvvise dei carichi di lavoro. I cluster rimanenti nella sottoscrizione verranno arrestati e rimossi dall’host.
Solo il supporto di base sarà disponibile fino alla data di ritiro.
Importante
Questa funzionalità è attualmente disponibile solo in anteprima. Le Condizioni per l'utilizzo supplementari per le anteprime di Microsoft Azure includono termini legali aggiuntivi che si applicano a funzionalità di Azure in versione beta, in anteprima o in altro modo non ancora disponibili a livello generale. Per informazioni su questa anteprima specifica, vedere Informazioni sull'anteprima di Azure HDInsight nel servizio Azure Kubernetes. Per domande o suggerimenti sulle funzionalità, inviare una richiesta in AskHDInsight con i dettagli e seguire Microsoft per altri aggiornamenti nella Community di Azure HDInsight.
Spesso i team di dati sono necessari per analizzare le prestazioni o ottimizzare le query per migliorare l'utilizzo delle risorse o soddisfare i requisiti aziendali.
È stata aggiunta una nuova funzionalità in Trino per HDInsight su AKS che consente all'utente di acquisire statistiche di analisi per qualsiasi connettore. Questa funzionalità fornisce informazioni più approfondite sul profilo delle prestazioni delle query oltre a quello disponibile nelle statistiche prodotte da Trino.
È possibile abilitare questa funzionalità usando proprietà di sessione collect_raw_scan_statistics
e seguendo il comando Trino:
SET SESSION collect_raw_scan_statistics=true
Dopo l'abilitazione, gli operatori di origine nella query, ad esempio TableScanOperator
, ScanFilterAndProject
e così via, hanno statistiche sulle analisi dei dati, la granularità è per istanza dell'operatore in una pipeline.
Suggerimento
Le statistiche di analisi sono utili per identificare i colli di bottiglia quando il cluster o la query non sono vincolati dalla CPU e le prestazioni di lettura della query devono essere sottoposte a indagine. Consente anche di comprendere il profilo di esecuzione della query dal punto di vista del livello di divisione.
Nota
Attualmente, il numero acquisito di divisioni per ogni ruolo di lavoro è limitato a 1000 a causa di vincoli di dimensioni dei dati prodotti. Se il numero di divisioni per ogni ruolo di lavoro per la query supera questo limite, vengono restituite le prime 1000 divisioni con esecuzione più lunga.
Come accedere alle statistiche di analisi
Dopo aver impostato la proprietà della sessione, le query successive nella sessione avviano l'acquisizione delle statistiche dagli operatori di origine ogni volta che sono disponibili. Esistono diversi modi in cui gli utenti possono usare e analizzare le statistiche di analisi generate per una query.
Query Json
La scheda Json nella pagina Dettagli query fornisce la rappresentazione JSON della query, che include statistiche in ogni fase, pipeline della query. Quando la proprietà della sessione è impostata, il codice JSON include un nuovo campo denominato scanStats
in queryStats.operatorSummaries[*]
. La matrice contiene un oggetto per ogni istanza dell'operatore.
L'esempio seguente mostra un json per una query usando hive connector
e le statistiche di analisi abilitate.
Nota
Il riepilogo delle statistiche di analisi include splitInfo popolato dal connettore. In questo modo gli utenti possono controllare le informazioni sull'archivio da includere nei connettori personalizzati.
Interfaccia utente delle statistiche di analisi
È possibile trovare una nuova scheda denominata Scan Stats
nella pagina Dettagli query che visualizza le statistiche prodotte da questa funzionalità e fornisce informazioni dettagliate sulle prestazioni della granularità suddivisa di ogni ruolo di lavoro. La pagina consente agli utenti di visualizzare il profilo di esecuzione di Trino per la query con informazioni come letture simultanee nel tempo e nella velocità effettiva.
L'esempio seguente mostra una pagina per una query con le statistiche di analisi abilitate.
Uso di Microsoft Query logger**
Microsoft Query logger supporta questa funzionalità. Se abilitato con questa funzionalità, il plug-in del query logger popola una tabella denominata operatorstats
insieme alla tabella degli eventi di query; questa tabella viene denormalizzata in modo che ogni istanza dell'operatore sia una riga per ogni query.