メインコンテンツまでスキップ
バージョン: Latest-3.4

機能サポート: データロードとアンロード

このドキュメントは、StarRocks がサポートするさまざまなデータロードおよびアンロード方法の機能を概説します。

ファイル形式

ロードファイル形式

データソースファイル形式
CSVJSON [3]ParquetORCAvroProtoBufThrift
Stream Loadローカルファイルシステム、アプリケーション、コネクタYesYesサポート予定サポート予定サポート予定
INSERT from FILESHDFS, S3, OSS, Azure, GCS, NFS(NAS) [5]Yes (v3.3+)サポート予定Yes (v3.1+)Yes (v3.1+)サポート予定
Broker LoadYesYes (v3.2.3+)YesYesサポート予定
Routine LoadKafkaYesYesサポート予定サポート予定Yes (v3.0+) [1]サポート予定サポート予定
Spark LoadYesサポート予定YesYesサポート予定
コネクタFlink, SparkYesYesサポート予定サポート予定サポート予定
Kafka Connector [2]KafkaYes (v3.0+)サポート予定サポート予定Yes (v3.0+)サポート予定
PIPE [4]INSERT from FILES と一致
注記

[1], [2]: Schema Registry が必要です。

[3]: JSON はさまざまな CDC 形式をサポートします。StarRocks がサポートする JSON CDC 形式の詳細については、JSON CDC format を参照してください。

[4]: 現在、PIPE を使用したロードでは INSERT from FILES のみがサポートされています。

[5]: 各 BE または CN ノードの同じディレクトリに NAS デバイスを NFS としてマウントし、file:// プロトコルを介して NFS 内のファイルにアクセスする必要があります。

JSON CDC 形式

Stream LoadRoutine LoadBroker LoadINSERT from FILESKafka Connector [1]
Debeziumサポート予定サポート予定サポート予定サポート予定Yes (v3.0+)
Canalサポート予定
Maxwell
注記

[1]: StarRocks の主キーテーブルに Debezium CDC 形式のデータをロードする際には、transforms パラメータを設定する必要があります。

アンロードファイル形式

ターゲットファイル形式
テーブル形式リモートストレージCSVJSONParquetORC
INSERT INTO FILESN/AHDFS, S3, OSS, Azure, GCS, NFS(NAS) [3]Yes (v3.3+)サポート予定Yes (v3.2+)Yes (v3.3+)
INSERT INTO CatalogHiveHDFS, S3, OSS, Azure, GCSYes (v3.3+)サポート予定Yes (v3.2+)Yes (v3.3+)
IcebergHDFS, S3, OSS, Azure, GCSサポート予定サポート予定Yes (v3.2+)サポート予定
Hudi/Deltaサポート予定
EXPORTN/AHDFS, S3, OSS, Azure, GCSYes [1]サポート予定サポート予定サポート予定
PIPEサポート予定 [2]
注記

[1]: Broker プロセスの設定がサポートされています。

[2]: 現在、PIPE を使用したデータのアンロードはサポートされていません。

[3]: 各 BE または CN ノードの同じディレクトリに NAS デバイスを NFS としてマウントし、file:// プロトコルを介して NFS 内のファイルにアクセスする必要があります。

ファイル形式関連のパラメータ

ロードファイル形式関連のパラメータ

ファイル形式パラメータロード方法
Stream LoadINSERT from FILESBroker LoadRoutine LoadSpark Load
CSVcolumn_separatorYesYes (v3.3+)Yes [1]
row_delimiterYesYes [2] (v3.1+)Yes [3] (v2.2+)サポート予定
encloseYes (v3.0+)Yes (v3.0+)Yes (v3.0+)サポート予定
escape
skip_headerサポート予定
trim_spaceYes (v3.0+)
JSONjsonpathsYesサポート予定Yes (v3.2.3+)Yesサポート予定
strip_outer_array
json_root
ignore_json_sizeサポート予定
注記

[1]: 対応するパラメータは COLUMNS TERMINATED BY です。

[2]: 対応するパラメータは ROWS TERMINATED BY です。

[3]: 対応するパラメータは ROWS TERMINATED BY です。

アンロードファイル形式関連のパラメータ

ファイル形式パラメータアンロード方法
INSERT INTO FILESEXPORT
CSVcolumn_separatorYes (v3.3+)Yes
line_delimiter [1]
注記

[1]: データロードでの対応するパラメータは row_delimiter です。

圧縮形式

ロード圧縮形式

ファイル形式圧縮形式ロード方法
Stream LoadBroker LoadINSERT from FILESRoutine LoadSpark Load
CSV
  • deflate
  • bzip2
  • gzip
  • lz4_frame
  • zstd
Yes [1]Yes [2]サポート予定サポート予定サポート予定
JSONYes (v3.2.7+) [3]サポート予定N/Aサポート予定N/A
Parquet
  • gzip
  • lz4
  • snappy
  • zlib
  • zstd
N/AYes [4]サポート予定Yes [4]
ORC
注記

[1]: 現在、CSV ファイルを Stream Load でロードする場合のみ、format=gzip を使用して圧縮形式を指定できます。これは gzip 圧縮された CSV ファイルを示します。deflate および bzip2 形式もサポートされています。

[2]: Broker Load は、format パラメータを使用して CSV ファイルの圧縮形式を指定することをサポートしていません。Broker Load はファイルの拡張子を使用して圧縮形式を識別します。gzip 圧縮ファイルの拡張子は .gz であり、zstd 圧縮ファイルの拡張子は .zst です。さらに、trim_spaceenclose などの他の format 関連のパラメータもサポートされていません。

[3]: compression = gzip を使用して圧縮形式を指定することがサポートされています。

[4]: Arrow Library によってサポートされています。compression パラメータを設定する必要はありません。

アンロード圧縮形式

ファイル形式圧縮形式アンロード方法
INSERT INTO FILESINSERT INTO CatalogEXPORT
HiveIcebergHudi/Delta
CSV
  • deflate
  • bzip2
  • gzip
  • lz4_frame
  • zstd
サポート予定サポート予定サポート予定サポート予定サポート予定
JSONN/AN/AN/AN/AN/AN/A
Parquet
  • gzip
  • lz4
  • snappy
  • zstd
Yes (v3.2+)Yes (v3.2+)Yes (v3.2+)サポート予定N/A
ORC

認証情報

ロード - 認証

認証ロード方法
Stream LoadINSERT from FILESBroker LoadRoutine LoadExternal Catalog
シングル KerberosN/AYes (v3.1+)Yes [1] (v2.5 より前のバージョン)Yes [2] (v3.1.4+)Yes
Kerberos Ticket Granting Ticket (TGT)N/Aサポート予定Yes (v3.1.10+/v3.2.1+)
シングル KDC マルチ KerberosN/A
基本アクセス認証 (アクセスキー ペア、IAM ロール)N/AYes (HDFS および S3 互換オブジェクトストレージ)Yes [3]Yes
注記

[1]: HDFS の場合、StarRocks はシンプル認証と Kerberos 認証の両方をサポートしています。

[2]: セキュリティプロトコルが sasl_plaintext または sasl_ssl に設定されている場合、SASL および GSSAPI (Kerberos) 認証の両方がサポートされています。

[3]: セキュリティプロトコルが sasl_plaintext または sasl_ssl に設定されている場合、SASL および PLAIN 認証の両方がサポートされています。

アンロード - 認証

INSERT INTO FILESEXPORT
シングル Kerberosサポート予定サポート予定

ロード - その他のパラメータと機能

パラメータと機能ロード方法
Stream LoadINSERT from FILESINSERT from SELECT/VALUESBroker LoadPIPERoutine LoadSpark Load
部分更新Yes (v3.0+)Yes [1] (v3.3+)Yes (v3.0+)N/AYes (v3.0+)サポート予定
partial_update_modeYes (v3.1+)サポート予定Yes (v3.1+)N/Aサポート予定サポート予定
COLUMNS FROM PATHN/AYes (v3.2+)N/AYesN/AN/AYes
timezone または セッション変数 time_zone [2]Yes [3]Yes [4]Yes [4]Yes [4]サポート予定Yes [4]サポート予定
時間精度 - マイクロ秒YesYesYesYes (v3.1.11+/v3.2.6+)サポート予定YesYes
注記

[1]: v3.3 以降、StarRocks は INSERT INTO で列リストを指定することにより、Row モードでの部分更新をサポートしています。

[2]: パラメータまたはセッション変数でタイムゾーンを設定すると、strftime()、alignment_timestamp()、from_unixtime() などの関数が返す結果に影響します。

[3]: パラメータ timezone のみがサポートされています。

[4]: セッション変数 time_zone のみがサポートされています。

アンロード - その他のパラメータと機能

パラメータと機能INSERT INTO FILESEXPORT
target_max_file_sizeYes (v3.2+)サポート予定
single
Partitioned_by
セッション変数 time_zoneサポート予定
時間精度 - マイクロ秒サポート予定サポート予定