cos_similarity_norm
2 つの正規化されたベクトル間の角度の余弦を計算することによって、それらの類似性を測定します。角度はベクトルの方向によって形成され、ベクトルの大きさの違いは無視されます。この関数は、入力ベクトルが正規化されていることを前提としています。コサイン類似度を計算する前にベクトルを正規化する必要がある場合は、cosine_similarity を使用してください。
類似度は -1 から 1 の間にあります。ベクトル間の角度が小さいほど、コサイン類似度は高くなります。
- 2 つのベクトルが同じ方向を持つ場合、それらは 0 度の角度を持ち、コサイン類似度は 1 です。
- 垂直なベクトルは 90 度の角度を持ち、コサイン類似度は 0 です。
- 反対のベクトルは 180 度の角度を持ち、コサイン類似度は -1 です。
Syntax
cosine_similarity_norm(a, b)
Parameters
a
と b
は比較するベクトルです。これらは同じ次元を持たなければなりません。サポートされているデータ型は Array<float>
です。2 つの配列は同じ数の要素を持たなければなりません。そうでない場合、エラーが返されます。
Return value
[-1, 1] の範囲内の FLOAT 値を返します。入力パラメータが null または無効な場合、エラーが報告されます。
Examples
-
ベクトルを格納するテーブルを作成し、このテーブルにデータを挿入します。
CREATE TABLE t1_similarity
(id int, data array<float>)
DISTRIBUTED BY HASH(id);
INSERT INTO t1_similarity VALUES
(1, array<float>[0.1, 0.2, 0.3]),
(2, array<float>[0.2, 0.1, 0.3]),
(3, array<float>[0.3, 0.2, 0.1]); -
data
列の各行を配列[0.1, 0.2, 0.3]
と比較して類似度を計算し、結果を降順でリストします。SELECT id, data, cosine_similarity_norm([0.1, 0.2, 0.3], data) as dist
FROM t1_similarity
ORDER BY dist DESC;
+------+---------------+------------+
| id | data | dist |
+------+---------------+------------+
| 1 | [0.1,0.2,0.3] | 0.14000002 |
| 2 | [0.2,0.1,0.3] | 0.13000001 |
| 3 | [0.3,0.2,0.1] | 0.10000001 |
+------+---------------+------------+