メインコンテンツまでスキップ
バージョン: Latest-3.4

共有データクラスタの Compaction

このトピックでは、StarRocks 共有データクラスタでの compaction の管理方法について説明します。

概要

StarRocks における compaction とは、データファイルの異なるバージョンを大きなファイルにマージするプロセスを指し、小さなファイルの数を減らし、クエリ効率を向上させます。共有なしクラスタと比較して、共有データクラスタは新しい compaction スケジューリングメカニズムを導入しており、以下の特徴があります:

  • Compaction は FE によってスケジュールされ、CN によって実行されます。FE はパーティション単位で compaction タスクを開始します。
  • 各 compaction は、データロードの完全なトランザクションプロセス(書き込み、コミット、公開)に従って新しいデータバージョンを生成します。

Compaction の管理

Compaction スコアの確認

システムは各パーティションに対して compaction スコアを維持します。compaction スコアは、対応するパーティションのデータファイルのマージ状況を反映します。スコアが高いほど、パーティションのマージレベルが低く、マージ待ちのデータファイルのバージョンが多いことを意味します。FE は compaction タスクをトリガーするための参考として compaction スコアを使用し、あなたはパーティション内のデータバージョンが多すぎるかどうかの指標として compaction スコアを使用できます。

  • SHOW PROC ステートメントを使用して、特定のテーブルのパーティションの compaction スコアを確認できます。

    SHOW PROC '/dbs/<database_name>/<table_name>/partitions'

    例:

    mysql> SHOW PROC '/dbs/load_benchmark/store_sales/partitions';
    +-------------+---------------+----------------+----------------+-------------+--------+--------------+-------+------------------------------+---------+----------+-----------+----------+------------+-------+-------+-------+
    | PartitionId | PartitionName | CompactVersion | VisibleVersion | NextVersion | State | PartitionKey | Range | DistributionKey | Buckets | DataSize | RowCount | CacheTTL | AsyncWrite | AvgCS | P50CS | MaxCS |
    +-------------+---------------+----------------+----------------+-------------+--------+--------------+-------+------------------------------+---------+----------+-----------+----------+------------+-------+-------+-------+
    | 38028 | store_sales | 913 | 921 | 923 | NORMAL | | | ss_item_sk, ss_ticket_number | 64 | 15.6GB | 273857126 | 2592000 | false | 10.00 | 10.00 | 10.00 |
    +-------------+---------------+----------------+----------------+-------------+--------+--------------+-------+------------------------------+---------+----------+-----------+----------+------------+-------+-------+-------+
    1 row in set (0.20 sec)
  • v3.1.9 および v3.2.4 以降、information_schema.partitions_meta というシステム定義ビューをクエリすることで、パーティションの compaction スコアを確認することもできます。

    例:

    mysql> SELECT * FROM information_schema.partitions_meta ORDER BY Max_CS LIMIT 10;
    +--------------+----------------------------+----------------------------+--------------+-----------------+-----------------+----------------------+--------------+---------------+-----------------+-----------------------------------------+---------+-----------------+----------------+---------------------+-----------------------------+--------------+---------+-----------+------------+------------------+----------+--------+--------+-------------------------------------------------------------------+
    | DB_NAME | TABLE_NAME | PARTITION_NAME | PARTITION_ID | COMPACT_VERSION | VISIBLE_VERSION | VISIBLE_VERSION_TIME | NEXT_VERSION | PARTITION_KEY | PARTITION_VALUE | DISTRIBUTION_KEY | BUCKETS | REPLICATION_NUM | STORAGE_MEDIUM | COOLDOWN_TIME | LAST_CONSISTENCY_CHECK_TIME | IS_IN_MEMORY | IS_TEMP | DATA_SIZE | ROW_COUNT | ENABLE_DATACACHE | AVG_CS | P50_CS | MAX_CS | STORAGE_PATH |
    +--------------+----------------------------+----------------------------+--------------+-----------------+-----------------+----------------------+--------------+---------------+-----------------+-----------------------------------------+---------+-----------------+----------------+---------------------+-----------------------------+--------------+---------+-----------+------------+------------------+----------+--------+--------+-------------------------------------------------------------------+
    | tpcds_1t | call_center | call_center | 11905 | 0 | 2 | 2024-03-17 08:30:47 | 3 | | | cc_call_center_sk | 1 | 1 | HDD | 9999-12-31 23:59:59 | NULL | 0 | 0 | 12.3KB | 42 | 0 | 0 | 0 | 0 | s3://XXX/536a3c77-52c3-485a-8217-781734a970b1/db10328/11906/11905 |
    | tpcds_1t | web_returns | web_returns | 12030 | 3 | 3 | 2024-03-17 08:40:48 | 4 | | | wr_item_sk, wr_order_number | 16 | 1 | HDD | 9999-12-31 23:59:59 | NULL | 0 | 0 | 3.5GB | 71997522 | 0 | 0 | 0 | 0 | s3://XXX/536a3c77-52c3-485a-8217-781734a970b1/db10328/12031/12030 |
    | tpcds_1t | warehouse | warehouse | 11847 | 0 | 2 | 2024-03-17 08:30:47 | 3 | | | w_warehouse_sk | 1 | 1 | HDD | 9999-12-31 23:59:59 | NULL | 0 | 0 | 4.2KB | 20 | 0 | 0 | 0 | 0 | s3://XXX/536a3c77-52c3-485a-8217-781734a970b1/db10328/11848/11847 |
    | tpcds_1t | ship_mode | ship_mode | 11851 | 0 | 2 | 2024-03-17 08:30:47 | 3 | | | sm_ship_mode_sk | 1 | 1 | HDD | 9999-12-31 23:59:59 | NULL | 0 | 0 | 1.7KB | 20 | 0 | 0 | 0 | 0 | s3://XXX/536a3c77-52c3-485a-8217-781734a970b1/db10328/11852/11851 |
    | tpcds_1t | customer_address | customer_address | 11790 | 0 | 2 | 2024-03-17 08:32:19 | 3 | | | ca_address_sk | 16 | 1 | HDD | 9999-12-31 23:59:59 | NULL | 0 | 0 | 120.9MB | 6000000 | 0 | 0 | 0 | 0 | s3://XXX/536a3c77-52c3-485a-8217-781734a970b1/db10328/11791/11790 |
    | tpcds_1t | time_dim | time_dim | 11855 | 0 | 2 | 2024-03-17 08:30:48 | 3 | | | t_time_sk | 16 | 1 | HDD | 9999-12-31 23:59:59 | NULL | 0 | 0 | 864.7KB | 86400 | 0 | 0 | 0 | 0 | s3://XXX/536a3c77-52c3-485a-8217-781734a970b1/db10328/11856/11855 |
    | tpcds_1t | web_sales | web_sales | 12049 | 3 | 3 | 2024-03-17 10:14:20 | 4 | | | ws_item_sk, ws_order_number | 128 | 1 | HDD | 9999-12-31 23:59:59 | NULL | 0 | 0 | 47.7GB | 720000376 | 0 | 0 | 0 | 0 | s3://XXX/536a3c77-52c3-485a-8217-781734a970b1/db10328/12050/12049 |
    | tpcds_1t | store | store | 11901 | 0 | 2 | 2024-03-17 08:30:47 | 3 | | | s_store_sk | 1 | 1 | HDD | 9999-12-31 23:59:59 | NULL | 0 | 0 | 95.6KB | 1002 | 0 | 0 | 0 | 0 | s3://XXX/536a3c77-52c3-485a-8217-781734a970b1/db10328/11902/11901 |
    | tpcds_1t | web_site | web_site | 11928 | 0 | 2 | 2024-03-17 08:30:47 | 3 | | | web_site_sk | 1 | 1 | HDD | 9999-12-31 23:59:59 | NULL | 0 | 0 | 13.4KB | 54 | 0 | 0 | 0 | 0 | s3://XXX/536a3c77-52c3-485a-8217-781734a970b1/db10328/11929/11928 |
    | tpcds_1t | household_demographics | household_demographics | 11932 | 0 | 2 | 2024-03-17 08:30:47 | 3 | | | hd_demo_sk | 1 | 1 | HDD | 9999-12-31 23:59:59 | NULL | 0 | 0 | 2.1KB | 7200 | 0 | 0 | 0 | 0 | s3://XXX/536a3c77-52c3-485a-8217-781734a970b1/db10328/11933/11932 |
    +--------------+----------------------------+----------------------------+--------------+-----------------+-----------------+----------------------+--------------+---------------+-----------------+-----------------------------------------+---------+-----------------+----------------+---------------------+-----------------------------+--------------+---------+-----------+------------+------------------+----------+--------+--------+-------------------------------------------------------------------+

次の2つのメトリクスに注目する必要があります:

  • AvgCS: パーティション内のすべての tablet の平均 compaction スコア。
  • MaxCS: パーティション内のすべての tablet の中で最大の compaction スコア。

Compaction タスクの確認

新しいデータがシステムにロードされると、FE は異なる CN ノードで実行される compaction タスクを常にスケジュールします。まず、FE 上の compaction タスクの一般的なステータスを確認し、次に CN 上の各タスクの実行詳細を確認できます。

Compaction タスクの一般的なステータスの確認

SHOW PROC ステートメントを使用して、compaction タスクの一般的なステータスを確認できます。

SHOW PROC '/compactions';

例:

mysql> SHOW PROC '/compactions';
+---------------------+-------+---------------------+---------------------+---------------------+-------+--------------------------------------------------------------------------------------------------------------------+
| Partition | TxnID | StartTime | CommitTime | FinishTime | Error | Profile |
+---------------------+-------+---------------------+---------------------+---------------------+-------+--------------------------------------------------------------------------------------------------------------------+
| ssb.lineorder.43026 | 51053 | 2024-09-24 19:15:16 | NULL | NULL | NULL | NULL |
| ssb.lineorder.43027 | 51052 | 2024-09-24 19:15:16 | NULL | NULL | NULL | NULL |
| ssb.lineorder.43025 | 51047 | 2024-09-24 19:15:15 | NULL | NULL | NULL | NULL |
| ssb.lineorder.43026 | 51046 | 2024-09-24 19:15:04 | 2024-09-24 19:15:06 | 2024-09-24 19:15:06 | NULL | {"sub_task_count":1,"read_local_sec":0,"read_local_mb":31,"read_remote_sec":0,"read_remote_mb":0,"in_queue_sec":0} |
| ssb.lineorder.43027 | 51045 | 2024-09-24 19:15:04 | 2024-09-24 19:15:06 | 2024-09-24 19:15:06 | NULL | {"sub_task_count":1,"read_local_sec":0,"read_local_mb":31,"read_remote_sec":0,"read_remote_mb":0,"in_queue_sec":0} |
| ssb.lineorder.43029 | 51044 | 2024-09-24 19:15:03 | 2024-09-24 19:15:05 | 2024-09-24 19:15:05 | NULL | {"sub_task_count":1,"read_local_sec":0,"read_local_mb":31,"read_remote_sec":0,"read_remote_mb":0,"in_queue_sec":0} |
+---------------------+-------+---------------------+---------------------+---------------------+-------+--------------------------------------------------------------------------------------------------------------------+

以下のフィールドが返されます:

  • Partition: Compaction タスクが属するパーティション。
  • TxnID: Compaction タスクに割り当てられたトランザクション ID。
  • StartTime: Compaction タスクが開始する時間。NULL はタスクがまだ開始されていないことを示します。
  • CommitTime: Compaction タスクがデータをコミットする時間。NULL はデータがまだコミットされていないことを示します。
  • FinishTime: Compaction タスクがデータを公開する時間。NULL はデータがまだ公開されていないことを示します。
  • Error: Compaction タスクのエラーメッセージ(ある場合)。
  • Profile: (v3.2.12 および v3.3.4 からサポート) Compaction タスクが完了した後のプロファイル。
    • sub_task_count: パーティション内のサブタスク(tablet に相当)の数。
    • read_local_sec: ローカルキャッシュからデータを読み取るすべてのサブタスクの合計時間。単位: 秒。
    • read_local_mb: ローカルキャッシュからすべてのサブタスクが読み取ったデータの合計サイズ。単位: MB。
    • read_remote_sec: リモートストレージからデータを読み取るすべてのサブタスクの合計時間。単位: 秒。
    • read_remote_mb: リモートストレージからすべてのサブタスクが読み取ったデータの合計サイズ。単位: MB。
    • in_queue_sec: すべてのサブタスクがキューに滞在する合計時間。単位: 秒。

Compaction タスクの実行詳細の確認

各 compaction タスクは複数のサブタスクに分割され、それぞれが tablet に対応します。information_schema.be_cloud_native_compactions というシステム定義ビューをクエリすることで、各サブタスクの実行詳細を確認できます。

例:

mysql> SELECT * FROM information_schema.be_cloud_native_compactions;
+-------+--------+-----------+---------+---------+------+---------------------+-------------+----------+--------+-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
| BE_ID | TXN_ID | TABLET_ID | VERSION | SKIPPED | RUNS | START_TIME | FINISH_TIME | PROGRESS | STATUS | PROFILE |
+-------+--------+-----------+---------+---------+------+---------------------+-------------+----------+--------+-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
| 10001 | 51047 | 43034 | 12 | 0 | 1 | 2024-09-24 19:15:15 | NULL | 82 | | {"read_local_sec":0,"read_local_mb":31,"read_remote_sec":0,"read_remote_mb":0,"read_remote_count":0,"read_local_count":1900,"segment_init_sec":0,"column_iterator_init_sec":0,"in_queue_sec":0} |
| 10001 | 51048 | 43032 | 12 | 0 | 1 | 2024-09-24 19:15:15 | NULL | 82 | | {"read_local_sec":0,"read_local_mb":32,"read_remote_sec":0,"read_remote_mb":0,"read_remote_count":0,"read_local_count":1900,"segment_init_sec":0,"column_iterator_init_sec":0,"in_queue_sec":0} |
| 10001 | 51049 | 43033 | 12 | 0 | 1 | 2024-09-24 19:15:15 | NULL | 82 | | {"read_local_sec":0,"read_local_mb":31,"read_remote_sec":0,"read_remote_mb":0,"read_remote_count":0,"read_local_count":1900,"segment_init_sec":0,"column_iterator_init_sec":0,"in_queue_sec":0} |
| 10001 | 51051 | 43038 | 9 | 0 | 1 | 2024-09-24 19:15:15 | NULL | 84 | | {"read_local_sec":0,"read_local_mb":31,"read_remote_sec":0,"read_remote_mb":0,"read_remote_count":0,"read_local_count":1900,"segment_init_sec":0,"column_iterator_init_sec":0,"in_queue_sec":0} |
| 10001 | 51052 | 43036 | 12 | 0 | 0 | NULL | NULL | 0 | | |
| 10001 | 51053 | 43035 | 12 | 0 | 1 | 2024-09-24 19:15:16 | NULL | 2 | | {"read_local_sec":0,"read_local_mb":1,"read_remote_sec":0,"read_remote_mb":0,"read_remote_count":0,"read_local_count":100,"segment_init_sec":0,"column_iterator_init_sec":0,"in_queue_sec":0} |
+-------+--------+-----------+---------+---------+------+---------------------+-------------+----------+--------+-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+

以下のフィールドが返されます:

  • BE_ID: CN の ID。
  • TXN_ID: サブタスクが属するトランザクションの ID。
  • TABLET_ID: サブタスクが属する tablet の ID。
  • VERSION: tablet のバージョン。
  • RUNS: サブタスクが実行された回数。
  • START_TIME: サブタスクが開始する時間。
  • FINISH_TIME: サブタスクが終了する時間。
  • PROGRESS: tablet の compaction 進捗状況(パーセンテージ)。
  • STATUS: サブタスクのステータス。エラーメッセージがある場合、このフィールドに返されます。
  • PROFILE: (v3.2.12 および v3.3.4 からサポート) サブタスクの実行時プロファイル。
    • read_local_sec: サブタスクがローカルキャッシュからデータを読み取る時間。単位: 秒。
    • read_local_mb: サブタスクがローカルキャッシュから読み取ったデータのサイズ。単位: MB。
    • read_remote_sec: サブタスクがリモートストレージからデータを読み取る時間。単位: 秒。
    • read_remote_mb: サブタスクがリモートストレージから読み取ったデータのサイズ。単位: MB。
    • read_local_count: サブタスクがローカルキャッシュからデータを読み取った回数。
    • read_remote_count: サブタスクがリモートストレージからデータを読み取った回数。
    • in_queue_sec: サブタスクがキューに滞在する時間。単位: 秒。

Compaction タスクの設定

これらの FE および CN (BE) パラメータを使用して compaction タスクを設定できます。

FE パラメータ

次の FE パラメータを動的に設定できます。

例:

ADMIN SET FRONTEND CONFIG ("lake_compaction_max_tasks" = "-1");
lake_compaction_max_tasks
  • デフォルト: -1
  • タイプ: Int
  • 単位: -
  • 変更可能: はい
  • 説明: 共有データクラスタで許可される同時 Compaction タスクの最大数。この項目を -1 に設定すると、同時タスク数を適応的に計算します。つまり、生存している CN ノードの数に 16 を掛けた数です。この値を 0 に設定すると、compaction が無効になります。
  • 導入バージョン: v3.1.0

CN パラメータ

次の CN パラメータを動的に設定できます。

例:

UPDATE information_schema.be_configs SET VALUE = 8 
WHERE name = "compact_threads";
compact_threads
  • デフォルト: 4
  • タイプ: Int
  • 単位: -
  • 変更可能: はい
  • 説明: 同時 compaction タスクに使用されるスレッドの最大数。この設定は v3.1.7 および v3.2.2 以降で動的に変更可能になりました。
  • 導入バージョン: v3.0.0

NOTE

本番環境では、compact_threads を BE/CN CPU コア数の 25% に設定することをお勧めします。

max_cumulative_compaction_num_singleton_deltas
  • デフォルト: 500
  • タイプ: Int
  • 単位: -
  • 変更可能: はい
  • 説明: 単一の Cumulative Compaction でマージできるセグメントの最大数。compaction 中に OOM が発生した場合、この値を減らすことができます。
  • 導入バージョン: -

NOTE

本番環境では、compaction タスクを加速し、リソース消費を減らすために max_cumulative_compaction_num_singleton_deltas100 に設定することをお勧めします。

lake_pk_compaction_max_input_rowsets
  • デフォルト: 500
  • タイプ: Int
  • 単位: -
  • 変更可能: はい
  • 説明: 共有データクラスタ内の主キーテーブルの compaction タスクで許可される入力 rowset の最大数。このパラメータのデフォルト値は、v3.2.4 および v3.1.10 以降で 5 から 1000 に、v3.3.1 および v3.2.9 以降で 500 に変更されました。主キーテーブルに対して Sized-tiered Compaction ポリシーが有効になった後(enable_pk_size_tiered_compaction_strategytrue に設定することで)、StarRocks は各 compaction の rowset 数を制限して書き込み増幅を減らす必要がなくなります。したがって、このパラメータのデフォルト値が増加しました。
  • 導入バージョン: v3.1.8, v3.2.3

Compaction タスクの手動トリガー

v3.2.5 以降、テーブルまたは特定のパーティションに対して手動で compaction をトリガーできます。

-- テーブル全体に対して compaction をトリガーします。
ALTER TABLE <table_name> COMPACT;
-- 特定のパーティションに対して compaction をトリガーします。
ALTER TABLE <table_name> COMPACT <partition_name>;
-- 複数のパーティションに対して compaction をトリガーします。
ALTER TABLE <table_name> COMPACT (<partition_name>, <partition_name>, ...);

Compaction タスクのキャンセル

タスクのトランザクション ID を使用して compaction タスクを手動でキャンセルできます。

CANCEL COMPACTION WHERE TXN_ID = <TXN_ID>;

NOTE

  • CANCEL COMPACTION ステートメントは Leader FE ノードから提出する必要があります。
  • CANCEL COMPACTION は非同期プロセスです。タスクがキャンセルされたかどうかを確認するには、SHOW PROC '/compactions' を実行してください。

ベストプラクティス

Compaction はクエリパフォーマンスにとって重要であるため、テーブルおよびパーティションのデータマージング状況を定期的に監視することをお勧めします。以下はベストプラクティスとガイドラインです:

  • Compaction スコアを監視し、それに基づいてアラートを設定します。StarRocks の組み込み Grafana 監視テンプレートにはこのメトリクスが含まれています。
  • Compaction 中のリソース消費、特にメモリ使用量に注意を払います。Grafana 監視テンプレートにもこのメトリクスが含まれています。
  • CN 上の並列 compaction ワーカースレッドの数を調整してタスクの実行を加速します。compact_threads を BE/CN CPU コア数の 25% に設定することをお勧めします。クラスタがアイドル状態(例えば、compaction のみを実行し、クエリを処理していない場合)では、一時的にこの値を 50% に増やし、タスク完了後に 25% に戻すことができます。