📄️ any_value
各集約グループから任意の行を取得します。この関数を使用して、GROUP BY 句を含むクエリを最適化できます。
📄️ approx_count_distinct
集計関数の近似値を返します。これは COUNT(DISTINCT col) の結果に似ています。
📄️ approx_top_k
expr 内で最も頻繁に出現する上位 k 個のアイテム値とその概算カウントを返します。
📄️ avg
選択されたフィールドの平均値を返します。
📄️ bitmap
ここでは、Bitmap でのいくつかの集計関数の使用例を示します。関数の詳細な定義や他の Bitmap 関数については、bitmap-functions を参照してください。
📄️ corr
2 つの式間のピアソン相関係数を返します。この関数は v2.5.10 からサポートされています。ウィンドウ関数としても使用できます。
📄️ count
指定された式に基づいて、行の総数を返します。
📄️ count_if
指定された条件を満たすレコードの数を返します。条件を満たすレコードがない場合は 0 を返します。
📄️ covar_pop
2 つの式の母集団共分散を返します。この関数は v2.5.10 からサポートされています。ウィンドウ関数としても使用できます。
📄️ covar_samp
2 つの式の標本共分散を返します。この関数は v2.5.10 からサポートされています。ウィンドウ関数としても使用できます。
📄️ ds_hll_count_distinct
集計関数の近似値を返します。これは COUNT(DISTINCT col) の結果に似ています。APPROXCOUNTDISTINCT(expr) も同様の関数です。
📄️ group_concat
sep 引数を使用して、グループ内の非NULL値を1つの文字列に連結します。指定しない場合、デフォルトで , となります。この関数は、複数の行の列の値を1つの文字列に連結するために使用できます。
📄️ grouping
列が集計列であるかどうかを示します。集計列である場合は 0 が返され、それ以外の場合は 1 が返されます。
📄️ grouping_id
grouping_id は、同じグループ化基準の統計結果を区別するために使用されます。
📄️ hll_raw_agg
この関数は、HLL フィールドを集計するための集計関数です。HLL 値を返します。
📄️ hll_union
HLL 値のセットを連結して返します。
📄️ hll_union_agg
HLL は、HyperLogLog アルゴリズムに基づくエンジニアリング実装であり、HyperLogLog 計算プロセスの中間結果を保存するために使用されます。
📄️ mann_whitney_u_test
説明
📄️ max
expr 式の最大値を返します。
📄️ max_by
y の最大値に関連付けられた x の値を返します。
📄️ min
expr 式の最小値を返します。
📄️ min_by
y の最小値に関連付けられた x の値を返します。
📄️ multi_distinct_count
expr の行数の合計を返します。これは count(distinct expr) と同等です。
📄️ multi_distinct_sum
expr 内の異なる値の合計を返します。これは sum(distinct expr) と同等です。
📄️ percentile_approx
p 番目のパーセンタイルの近似値を返します。ここで、p の値は 0 から 1 の間です。
📄️ percentile_cont
expr の線形補間によるパーセンタイル値を計算します。
📄️ percentile_disc
入力列 expr の離散分布に基づいてパーセンタイル値を返します。正確なパーセンタイル値が見つからない場合、この関数は最も近い2つの値のうち大きい方の値を返します。
📄️ percentile_disc_lc
入力列 expr の離散分布に基づいてパーセンタイル値を返します。percentiledisc と同じ動作ですが、実装アルゴリズムが異なります。percentiledisc はすべての入力データを取得する必要があり、パーセンタイル値を取得するためのマージソートに消費されるメモリはすべての入力データのメモリです。一方、percentiledisclc は key->count のハッシュテーブルを構築するため、入力のカーディナリティが低い場合、入力データサイズが大きくても明らかなメモリ増加はありません。
📄️ retention
指定された期間内のユーザーリテンション率を計算します。この関数は1から31の条件を受け入れ、各条件が真であるかどうかを評価します。条件が真と評価されると、1が返されます。そうでない場合は、0が返されます。最終的に0と1の配列を返します。このデータに基づいてユーザーリテンション率を計算できます。
📄️ std
式の標準偏差を返します。バージョン v2.5.10 以降、この関数はウィンドウ関数としても使用できます。
📄️ stddev,stddev_pop,std
expr 式の母集団標準偏差を返します。バージョン 2.5.10 以降、この関数はウィンドウ関数としても使用できます。
📄️ stddev_samp
式の標本標準偏差を返します。バージョン 2.5.10 以降、この関数はウィンドウ関数としても使用できます。
📄️ sum
expr の非 NULL 値の合計を返します。DISTINCT キーワードを使用して、異なる非 NULL 値の合計を計算することができます。
📄️ var_samp,variance_samp
式の標本分散を返します。バージョン 2.5.10 以降、この関数はウィンドウ関数としても使用できます。
📄️ variance,var_pop,variance_pop
式の母分散を返します。バージョン 2.5.10 以降、この関数はウィンドウ関数としても使用できます。
📄️ window_funnel
スライディングウィンドウ内でイベントチェーンを検索し、イベントチェーン内の連続するイベントの最大数を計算します。この関数は、コンバージョン率の分析によく使用されます。v2.3からサポートされています。