適用対象:はい Databricks Runtime 18.1 以降と![]()
キーと値のペアから Datasketches TupleSketch を作成します。キーは個別のカウントに使用され、整数の集計値は指定されたモードに従って集計されます。
構文
tuple_sketch_agg_integer ( key, summary [, lgNomEntries [, mode ]] )
論争
-
key: 一意の値カウントの式。 使用できる型は、
INTEGER、LONG、FLOAT、DOUBLE、STRING、BINARY、ARRAY<INTEGER>、およびARRAY<LONG>です。 -
summary: 各キーに関連付けて集計する
INTEGER値。 -
lgNomEntries: わずかなエントリの log-base-2 を指定する省略可能な
INTEGERリテラル。 4 ~ 26 の範囲で指定する必要があります。 既定値は 12 (4,096 バケット) です。 値が大きいほど精度は向上しますが、使用するメモリは多くなります。 -
mode: 集計モード
STRING集計モードを指定する省略可能なリテラル。 有効な値:'sum'、'min'、'max'、'alwaysone'。 既定値は、'sum'です。
返品ポリシー
シリアル化されたコンパクトな TupleSketch と整数の概要を含む BINARY 値。
注記
-
NULLキーまたはサマリー値は、集計中は無視されます。 - キーの場合、空の文字列、空のバイト配列、および空の配列は無視されます。
-
lgNomEntriesパラメーターとmodeパラメーターは定数値である必要があります。 - 個別のカウント見積もりを取得するには 、tuple_sketch_estimate_integer を使用します。
- 集計された集計値を取得するには 、tuple_sketch_summary_integer を使用します。
エラー メッセージ
例示
-- Create sketch and get distinct count estimate
> SELECT tuple_sketch_estimate_integer(tuple_sketch_agg_integer(key, summary)) FROM VALUES (1, 5), (1, 1), (2, 2), (2, 3), (3, 2) tab(key, summary);
3.0
-- Get aggregated summary (sum mode by default)
> SELECT tuple_sketch_summary_integer(tuple_sketch_agg_integer(key, summary)) FROM VALUES (1, 1), (1, 2), (2, 3) tab(key, summary);
6