Google Drive
Phần hướng dẫn tạo source data từ Google Drive này sẽ bao gồm hai phần:
- Hướng dẫn thiết lập Source từ Google Drive.
- Hướng dẫn điền các trường thông tin khi setup Connection với Source là từ Google Drive
Phần 1: Hướng dẫn thiết lập Source từ Google Drive
Sau khi đã thao tác các bước nền là chọn source và vào được trang setup source chi tiết, bạn tiến hành thao tác điền các trường thông tin cần thiết như hướng dẫn dưới đây. Hướng dẫn các bước nền để tạo source trên Elton bạn có thể xem ở phần Getting Started - Mục Thiết lập Source.
Bước 1: Cho phép truy cập Google Drive và Google Sheets ở trong phần API của Google BigQuery
-
Để tạo source và liên kết thành công với Google Drive, bạn cần đảm bảo rằng bạn đã setup xong project của bạn trên Google BigQuery và Google Drive cùng với Google Sheets là hai dịch vụ đã được kích hoạt.
-
Cách setup, tạo project từ Google Bigquery bạn có thể tham khảo thêm ở phần Phần 1: Hướng dẫn cài đặt nền (setup trên Google BigQuery)
- Khi đã thao tác và tạo project thành công trên Google BigQuery, bạn truy cập vào đường link này: https://console.cloud.google.com/apis/library để tiến hành kích hoạt Google Drive và Google Sheets trên project của bạn
-
Tại màn hình chính, bạn thao tác chọn project đã tạo, sau đó lần lượt tìm và nhấn vào mục
Google Drive API
vàGoogle Sheets API
-
Tại màn hình chi tiết của
Google Drive API
vàGoogle Sheets API
, bạn thao tác chọn nútEnable
là đã kích hoạt xong Google Drive và Google Sheets cho project của bạn.
Bước 2: Điền các trường thông tin cần thiết tại chi tiết source trên Elton
(1) Tại giao diện setup data source của Google Drive, bạn thao tác điền các thông tin định danh cho source chuẩn bị tạo:
- Display name: Tên hiển thị của source. Elton khuyến khích bạn đặt tên có mối liên hệ với source Google Drive mà bạn sắp sửa tạo (Ví dụ: Elton Google Drive).
- Description: Mô tả của source
-
Connection - JSON Credentials: Tại phần này bạn thao tác copy toàn bộ code JSON từ file mà bạn đã tải về máy lúc setup project tương ứng trên BigQuery. Hướng dẫn chi tiết tạo project trên BigQuery bạn có thể xem thêm ở Phần 1: Hướng dẫn cài đặt nền (setup trên Google BigQuery)
-
Sau khi hoàn tất điền các thông tin của source ở (1), bạn nhấn
Save
=> hệ thống sẽ đưa về trang thông tin chi tiết của source bạn vừa tạo.
Phần 2: Hướng dẫn điền các trường thông tin khi setup Connection với Source là từ Google Drive
Tại mục "Source Config" của màn hình setup chi tiết connection có source là Google Drive, các trường thông tin bạn cần điền sẽ có ý nghĩa như sau:
1. Select Google Drive Source
- Tại đây hệ thống sẽ hiển thị tên của source Google Sheets mà bạn đã tạo và chọn.
2. Share the google drive folder
-
Để Elton có thể truy cập vào folder có chứa các file excel dữ liệu của bạn trên ggl drive, bạn cần trao quyền (permission) của folder đó cho Elton bằng cách share folder cho Elton với vai trò là
Editor
. -
Email dùng để phân quyền của Elton được gắn ngay trong phần cài đặt (xem hình bên dưới), bạn thao tác copy email để trao quyền từ Google Drive Folder.
3. Google Drive Folder URL
- Bạn thao tác copy URL của Folder trên Google Drive mà bạn muốn kết nối và paste vào ô này.
4. File Format
- Định dạng của các file trong folder của bạn trên Google Drive Google Drive. Bạn thao tác chọn định dạng của các file đó để khi kết nối Elton có thể xác định được. Elton hỗ trợ hai định dạng chính: CSV hoặc Excel (XLSX).
-
Khi share folder của bạn trên Google Drive cho Elton để xử lý, bạn cần đảm bảo rằng định dạng của các file trong folder đó là đồng nhất với nhau.
-
Các file nên đều cùng là định dạng Excel hoặc đều cùng là định dạng CVS - tránh trường hợp có cả hai định dạng file CSV và Excel trong cùng 1 folder.
5. Check New Data By
-
Khi có một file CSV/Excel mới được upload lên folder trên Google Drive của bạn, Elton cần xác định phương pháp để tiến hành detect được file mới upload lên trên folder, từ đó connection và sync data.
-
Bạn thao tác chọn 2 option sync file mới mà Elton offer:
-
Filename: Elton sẽ detect file mới dựa trên tên của file
-
Date Imported: Elton sẽ detect file mới dựa trên ngày mà bạn up file lên
6. Start Cell
-
Là ô trong các file Excel/CSV mà bạn sẽ bắt đầu scan để lấy data.
-
Trong một vài trường hợp, 1 số file CSV/Excel được thiết kế có header hoặc tên người tạo, chứ không phải là bắt đầu A1 là data ngay. Vì vậy, khi điền vào ô này bạn cần kiểm tra lại các file CSV/Excel của bạn trong folder trên Google Drive, phần dữ liệu sẽ bắt đầu từ ô nào, để điền vào chính xác nhất.
7. Load strategy
- Thông tin được dùng để xác định cách mà dữ liệu trong các file CSV/Excel của folder sẽ được cập nhật khi có thay đổi phát sinh (chỉnh sửa hoặc thêm dòng mới). Có 3 lựa chọn để cập nhật dữ liệu: Merge, Overwrite, Append.
- Merge
-
Nếu chọn option là
Merge
, khi có một dòng mới phát sinh, hệ thống sẽ detect và cập nhật vào. Trường hợp dòng dữ liệu đã tồn tại có thay đổi, hệ thống sẽ tự động cập nhật các thay đổi đó. -
Để option
Merge
hoạt động, bạn cần phải điền thêmKey field
.Key field
ở đây được định nghĩa là cột định danh của một record dữ liệu. -
Ví dụ: File CSV/Excel về Dữ liệu những đơn hàng của cửa hàng A thì sẽ luôn có một cột dùng để định danh các đơn hàng. Cụ thể trong trường hợp này sẽ là cột
Mã đơn hàng
. Vì vậy đối với ví dụ trên thìKey field
sẽ là tên của cột định danh:Mã đơn hàng
. Bạn thao tác điềnMã đơn hàng
vào ôKey field
.
- Overwrite
- Nếu chọn option là
Overwrite
, mỗi khi cập nhật dữ liệu hệ thống sẽ thực hiện ghi đè lên toàn bộ dữ liệu cũ cũng như cập nhật thêm dữ liệu mới nếu có.
- Append
- Nếu chọn option là
Append
, hệ thống sẽ chỉ cập nhật những record mới xuất hiện và sẽ không update data cũ khi có thay đổi.
- Để connection được hoạt động hiệu quả, bạn cần chắc chắn là các file CSV/Excel trong folder của bạn đồng nhất về cấu trúc và loại dữ liệu. Từ đó các field như
Start Cell
,Load Stagegy
mới có thể hoạt động nhất quán được.
8. Advanced configs
8.1. Date format config
-
Trường thông tin này cung cấp cho bạn các lựa chọn để format dữ liệu liên quan tới ngày/tháng/năm (date) trong trường hợp dữ liệu của bạn trong các file CSV/Excel có nhập date theo các format không chuẩn, để quy về thành một chuẩn dữ liệu chung khi tạo connection.
-
Option None: Bạn chọn không cần format định dạng ngày/tháng/năm lại mà dùng định d ạng đã có sẵn trong dữ liệu.
-
Option Basic: Bạn chọn cài đặt format cơ bản mà Elton cung cấp cho bạn. Bạn có thể chọn
Day first
hoặcYear first
. -
Option Custom: Bạn tự định nghĩa format định dạng date của bạn. Lưu ý, khi tự định nghĩa cách format lại date, bạn vẫn cần tuân thủ một quy tắc nhất định. Trong trường hợp này bạn cần tham khảo thêm quy tắc format date ở đây.
Elton khuyến khích bạn chọn option Basic vì option này về cơ bản đã có thể bao quát hết các trường hợp nhập định dạng date sai, từ đó quy về chung một định dạng duy nhất.
8.2 CSV Encoding
- Trong một vài trường hợp, khi các file CSV/Excel của bạn export ra có nhiều kiểu encode khác nhau.
utf-8
là kiểu encode mặc định mà Elton setup sẵn. Trong quá trình tạo connection, nếu phát sinh ra lỗi, bạn vui lòng liện hệ với nhân viên của Elton để hỗ trợ bạn check thêm về file encode của bạn, cũng như điều chỉnh lại cho đúng.
8.3 CSV Delimiter
-
Bản chất một file file csv/excel được định dạng bên dưới là các dòng text. Ở các dòng text đó, các cột được phân biệt bằng 1 loại dấu nào đó (thường thì là dấu
phẩy
). Tuy nhiên, trong vài trg hợp các cột còn có thể được phân định bằngspace
hoặctab
. -
Xác định được file excel/CSV của bạn đang được phân chia bằng ký hiệu nào giúp elton phân định và kết nối data chính xác hơn.
-
Thông thường mặc định của các file excel/CSV sẽ là dấu
phẩy
. Trong vài trường hợp đặc biệt, bạn có thể liên hệ với Elton để giúp bạn check thêm về định dạng phân chia cột của các file excel/CSV của bạn.
8.4 Predefined columns name
-
Trong một vài trường hợp khi bạn có nhu cầu đặt tên lại cho các cột (column) trong các file execl của bạn, bạn có thể thao tác điền tên mới mong muốn của bạn vào đây.
-
Tên mới của mỗi cột khi bạn điền vô sẽ cách nhau bởi dấu
phẩy
-
Số lượng cột bạn muốn đặt tên lại phải trùng khớp với số lượng cột trong file excel/CSV của bạn, và phải theo thứ tự hiển thị trong file.
-
Ví dụ: file excel/CSV có 5 cột, bạn vui lòng thao tác điền tên mới cho cả 5 cột, và theo thứ tự hiển thị trong file excel/csv. Elton hiện chưa hỗ trợ điều chỉnh tên cho một vài cột nhất định trong một file excel/CSV.
8.5 Date time row number
-
Trong một vài trường hợp, các file excel/CSV của bạn có một dòng (row) có chứa giá trị ngày tháng (date/time) trong đó và bạn có nhu cầu muốn tách giá trị date/time đó ra thành một cột giá trị (column).
-
Ví dụ: Dòng (row) 2 có chứa giá trị
ngày tạo: 20/10/2023
. Khi bạn thao tác điền số dòng1
vào field này, Elton sẽ tiến hành detect giá trịdate/time
tương ứng với20/10/2023
trong các giá trị của dòng2
, và tách thành cột có chứa giá trị20/10/2023
.
- Bạn chỉ có thể tao tác điền tên 1 dòng để tiến hành tách giá trị date/time của dòng đó.
8.6 Big number columns
-
Field
Big number columns
được dùng trong trường hợp khi các file CSV/Excel của bạn có nhiều số lớn, dẫn tới có nhiều trường hợp lúc bạn export file ra từ nguồn gốc, các con số sẽ tự động convert qua kiểu rút gọn1E11..
. Điều này sẽ ảnh hưởng tới việc Elton đưa dữ liệu lên Destination nhất định. -
Vì vậy, khi xác định được các cột nào trong file excel/CSV của bạn có khả năng bị chuyển đổi số lớn như vậy, bạn thao tác điền tên các cột đó vào đây để Elton tiến hành detect và format giúp bạn khi tạo connection.
-
Bạn có thể tao tác điền tên nhiều cột, cách nhau bằng dấu phẩy.
8.7 Rows to columns
-
Khi b ạn thao tác điền 1 dòng (row) vào field này, elton sẽ tiến hành gom toàn bộ giá trị của dòng đó và chuyển thành dạng cột (column). Tên của cột mới được tạo sẽ đi theo rule prefix của Elton đã đặt trước:
elton_column_[row number]
. -
Ví dụ: Dòng 1 có các giá trị lần lượt là
Store
vàABC
. Khi bạn thao tác điền đòng1
vào fieldRows to columns
, Elton sẽ tiến hành gom và chuyển các giá trị của dòng1
thành dạng cột với tên cột làelton_column_ 1
- có các giá trị text làStore ABC
. -
Bạn có thể tao tác điền tên nhiều row, cách nhau bằng dấu phẩy.
Add-on: Cách tính Billable Pipeline cho source
-
Khi sử dụng Elton, bạn sẽ được thông báo về cách mà hệ thống sẽ tính phí sử dụng dịch vụ. Cách tính hiện tại chủ yếu dựa trên số pipeline bạn tạo.
-
Tuỳ từng loại source mà cách tính số lượng pipeline giới hạn sẽ khác nhau. Để biết thêm chi tiết, bạn vui lòng tham khảo cách tính ở link ở đây.