Skip to main content

Hướng Dẫn Sử Dụng Tính Năng Transformation

info

Mục đích của tính năng: Trong một vài trường hợp, việc đem các bảng dữ liệu của doanh nghiệp từ các nguồn (source) về nơi chứa chung (destination) là chưa đủ để có thể thực hiện việc làm báo cáo, mà sẽ cần thực hiện biến đổi, kết hợp tuỳ chỉnh thêm. Tính năng Transformation được team Elton phát triển với mục đích giúp bạn chuyển đổi dữ liệu kinh doanh của doanh nghiệp mình một cách hiệu quả và trực quan nhất. Từ những bảng dữ liệu gốc, bạn có thể "xào nấu" lại phù hợp hơn với nhu cầu của mình.

Bước 1: Truy cập và tạo mới Transformation

  • Đăng nhập vào tài khoản trên Elton của bạn và chọn mục Transformation ở thanh menu bên trái. Sau đó nhấn nút Create Transformation bên góc phải của màn hình.

  • Hệ thống sẽ hiển thị ra một popup bên dưới như hình, yêu cầu bạn chọn giữa việc tạo một transformation hoàn toàn mới hay chọn từ template có sẵn. Template có sẵn sẽ được Elton cập nhật sớm.

  • sau khi chọn xong loại transformation bạn muốn tạo, bạn thao tác điền thông tin vào các field trong phần config sẽ được hướng dẫn chi tiết trong phần bên dưới.

Bước 2: Ý nghĩa của các field trong phần tạo Transformation

1. General Info

1.1 Name: Tên của cài đặt transformation bạn sắp tạo.

1.2 Description: Mô tả của cài đặt transformation bạn sắp tạo

1.3 Sync Frequency: Chọn khoản thời gian định kỳ mà bạn muốn dữ liệu của bảng tansformation sắp tạo được cập nhật. Ví dụ: Nếu bạn chọn option là Every 1 hour thì cứ mỗi 1 tiếng hệ thống sẽ tự chạy và sync dữ liệu một lần.

2. Source Config

info

Phần này nhằm cài đặt những field liên quan đến những bảng dữ liệu gốc mà bạn đang có nhu cầu chuyển đổi

2.1 Datasource type: Chọn loại kho dữ liệu nơi mà những bảng dữ liệu gốc của bạn đang được chứa. Hiện Elton đang hỗ trợ hai loại là BigQueryPostgreSQL.

2.2 Destination type: Chọn loại kho dữ liệu nơi mà bạn muốn bảng dữ liệu sau khi được transform của mình sẽ thuộc về. Elton hỗ trợ hai lựa chọn: Same as source (datasource type của bạng như thế nào thì destination type của bạn sẽ như vậy) và Lark Base.

2.3 Mode:

  • Basic: Lựa chọn này giúp đơn giản hoá quá trình setup bảng transformation của bạn, để phần cài đặt phức tạp lại cho hệ thống của Elton handle giúp.

  • Custom DML (Data manipulation language): Chọn lựa chọn này khi bạn muốn cá nhân hoá cụ thể hơn về bảng transformation của mình bằng DML mà không cần hệ thống Elton xử lý nhiều.

note

Elton khuyến khích bạn chọn lựa chọn Basic khi cài đặt transformation của mình.

2.4 Project: Chọn tên của BigQuery project nơi đang chứa các bảng dữ liệu mà bạn muốn tạo chuyển đổi.

2.5 SQL Query: Tạo câu query để lấy dữ liệu mong muốn từ các bảng dữ liệu gốc. Câu query cần thoả mãn các điều kiện sau:

  1. Trích xuất từ các bảng dữ liệu thuộc project mà bạn đã chọn ở trên
  2. Bao gồm các điều kiện trích xuất dữ liệu liên quan đến nhu cầu setup một bảng transformation mới của bạn.

2.6 Load strategy: Thông tin được dùng để xác định cách mà dữ liệu mới sẽ sẽ được cập nhật khi có thay đổi (chỉnh sửa hoặc xuất hiện thêm dòng mới). Có 3 lựa chọn để cập nhật dữ liệu: Merge, Overwrite, Append.

  1. Merge
  • Nếu chọn option là Merge, khi có một dòng mới phát sinh, hệ thống sẽ detect và cập nhật vào. Trường hợp dòng dữ liệu đã tồn tại có thay đổi, hệ thống sẽ tự động cập nhật các thay đổi đó.

  • Để option Merge hoạt động, bạn cần phải điền thêm Key field. Key field ở đây được định nghĩa là cột định danh của một record dữ liệu.

  • Ví dụ: Bảng dữ liệu Dữ liệu những đơn hàng của cửa hàng A thì sẽ luôn có một cột dùng để định danh các đơn hàng. Cụ thể trong trường hợp này sẽ là cột Mã đơn hàng. Vì vậy đối với ví dụ trên thì Key field sẽ là tên của cột định danh: Mã đơn hàng. Bạn thao tác điền Mã đơn hàng vào ô Key field.

  1. Overwrite
  • Nếu chọn option là Overwrite, mỗi khi cập nhật dữ liệu hệ thống sẽ thực hiện ghi đè lên toàn bộ dữ liệu cũ cũng như cập nhật thêm dữ liệu mới nếu có.
  1. Append
  • Nếu chọn option là Append, hệ thống sẽ chỉ cập nhật những record mới xuất hiện và sẽ không update data cũ khi có thay đổi.

3. Destination Config

info

Phần hướng dẫn Destination Config này sẽ chia làm hay loại, tuỳ vào việc bạn chọn Datasource typeDestination type nào

Trường hợp 1: Khi Datasource type = BigQueryDestination type = same as source

1 Destination Dataset: Chọn tập dữ liệu (dataset) trên BigQuery mà bạn muốn bảng transformation sắp tạo sẽ thuộc về

2 Destination Table: Đặt tên cho bảng transformation mà bạn sắp tạo trong dataset đích. Khi bạn setup xong và chạy thành công, bảng transformation mới tạo sẽ được hiển thị dưới tên này trong dataset.

3 Is Partitioned Table

  • Để giảm thiểu phí bị charge bởi Google BigQuery, Elton khuyến khích bạn nên bật chức năng Is partitioned table. Sử dụng chức năng này, hệ thống sẽ tự động phân nhỏ bảng dữ liệu của bạn ra thành nhiều phần nhỏ nhằm tối ưu hiệu xuất và chi phí.

  • Đối với bảng transformation được tạo trong phần này, mục Partitioning Field sẽ mặc định là date_start. Partitioning Field Type thể hiện khoản thời gian bạn muốn chia nhỏ dữ liệu của mình. Ví dụ: Khi chọn option là DAY, hệ thống sẽ tự động chia nhỏ data trên đơn vị là ngày.

tip

Việc sử dụng tính năng Is partitioned table đóng một phần quan trọng trong việc tối ưu chi phí và hiệu xuất của dữ liệu của bạn, vì vậy Elton khuyến khích khách hàng dùng tính năng này từ sớm, ngay cả khi tập dữ liệu của bạn đang chưa phải là quá lớn. Trong quá trình sử dụng, nếu bạn có thắc mắc về cách cài đặt, hãy liên hệ với team Elton bất cứ lúc nào để được hỗ trợ nhé.

4 Clustering Fields: clustering là một phương thức nâng cao khác để tiết kiệm chi phí và hiệu xuất của dữ liệu trên BigQuery. Elton chỉ recommend bạn dùng phương thức này nếu bảng dữ liệu quá lớn (>10GB). Vui lòng liên hệ team để được hướng dẫn cài đặt kỹ hơn khi bạn muốn dùng tính năng này.

Trường hợp 2: Khi Datasource type = PostgreSQLDestination type = same as source

1. Destination Table: Đặt tên cho bảng transformation mà bạn sắp tạo trong dataset đích. Khi bạn setup xong và chạy thành công, bảng transformation mới tạo sẽ được hiển thị dưới tên này trong dataset.

2. Index Columns: Điền Index Column của bạn

Trường hợp 3: Khi Destination type = Lark Base

1. Lark Connection: Chọn kết nối trên Lark Base mà bạn muốn chứa bảng dữ liệu sắp tạo

2. Base ID: Điền ID của Lark Base của bạn

3. Base Url: Điền URL của Lark Base của bạn

4. Lark Base table name: Đặt tên cho bảng transformation mà bạn sắp tạo. Khi bạn setup xong và chạy thành công, bảng transformation mới tạo sẽ được hiển thị dưới tên này.

Bước 3: Xem, sửa và các thao tác khác sau khi đã tạo thành công bảng Transformation mới

Tại chi tiết của một transformation mới tạo, bạn có thể tao tác chỉnh sửa, Run, Reload, Terminate và Delete transformation

3.1 Edit Configuration: Chọn option này để chỉnh sửa cài đặt của các field trong bảng transformation

3.2 Run: Chọn option này khi bạn muốn chạy bảng dữ liệu này mà không cần đợi tới thời gian đã được schedule trước

3.3 Reload: Chọn option này để reload lại hoàn toàn bảng dữ liệu đang được chạy. Khi chọn Reload, bảng transformation của bạn sẽ được load lại từ đầu, dữ liệu cũ sẽ được xoá đi. Elton khuyên bạn chọn option này trong trường hợp câu lệnh SQL đã được chỉnh sửa quá khác biệt so với lúc đầu.

3.4 Terminate: Chọn option này để dừng ngay lập tức lệnh Run gần nhất

3.5 Delete: Chọn option này khi bạn muốn xoá vĩnh viễn bảng transformation này

3.6 Toggle Disable transformation: Chọn option này khi bạn muốn tạm tắt bảng transformation này và sau đó có thể bật lại bất kỳ lúc nào

3.7 Tab SQL Query

Tại tab SQL Query, bạn có thể thao tác chỉnh sửa câu lệnh SQL của mình, cũng như xem các thay đổi của câu SQL trong quá khứ