Skip to main content

Kafka

Whitelist IP: 34.126.175.60

Cần whitelist IP để có thể lấy được danh sách topics.

Debezium Kafka transformation

Data sau khi được consume từ Kafka topic sẽ được append vào bảng theo tên của topic. Đây lả bảng sẽ chứa raw data từ kafka topic, nếu topic có config apply_transformation thì sẽ lấy data từ bảng trên chứa raw data để tranform data qua bảng mới.

Vd: tên topic là maverick_dwh.public.category thì tên bảng chứa raw data sẽ là maverick_dwh_public_category.

SCD Type 1

Data sẽ được cập nhật theo nguồn và sẽ chỉ lưu giá trị mới nhất trong bảng mới. Trường hợp record bị xoá ở nguồn thì cũng sẽ bị xoá ở bảng mới.

SCD Type 2

Lưu lại lịch sử của record theo version.

Mỗi bảng mới ngoài data gốc sẽ có thêm 1 số cột mới được tạo bao gồm:

  • elton_valid_from: ngày mà record được ghi nhận từ debezium.
  • elton_valid_to: ngày mà record được sử dụng tới, trong trường hợp record mới nhất sẽ được để giá trị default là 9999-12-31 23:59:59.
  • elton_is_valid: record có đang được sử dụng hay không.
  • elton_record_version: version của record.
  • elton_surrogate_key: unique key được tạo ra từ record.

Để lấy toàn bộ records đang được sử dụng thì có thể query:

SELECT *
FROM table
WHERE elton_is_valid = TRUE