Usare l'esecuzione approssimativa

Completato

Non è insolito che ingegneri dei dati, analisti dei dati e scienziati dei dati svolgano analisi esplorative per ottenere una panoramica sui dati che stanno usando. Un'analisi esplorativa dei dati può includere l'esecuzione di query sui metadati per ottenere informazioni sui dati archiviati nel database, l'esecuzione di query per ottenere informazioni statistiche sui dati, ad esempio i valori medi per una colonna, o anche il conteggio dei valori distinti. Alcune attività possono richiedere molto tempo, soprattutto su set di dati di grandi dimensioni.

Ad esempio, il conteggio dei valori distinti in una tabella composta da oltre un miliardo di righe può essere un'operazione lunga e costosa. Poiché nelle analisi esplorative non sempre è richiesta la massima precisione delle informazioni, esiste una soluzione.

Azure Synapse Analytics supporta l'esecuzione approssimativa usando l'accuratezza HyperLogLog, per ridurre la latenza durante l'esecuzione di query su set di dati di grandi dimensioni. L'esecuzione approssimativa si usa per accelerare l'esecuzione delle query, accettando come compromesso una piccola riduzione dell'accuratezza. Quindi, se occorre troppo tempo per ottenere informazioni di base sui dati quando si esplorano vasti set di Big Data, è possibile usare l'accuratezza HyperLogLog e ottenere un risultato con un'accuratezza media del 2% rispetto alla cardinalità esatta. A questo scopo si usa la funzione Transact-SQL APPROX_COUNT_DISTINCT