Chuyện công việc của Data Analyst

Nguồn: Maz Nguyen.

“Biết người biết ta, trăm trận trăm thắng”. Lý thuyết về năng lực cần có của một Data Analyst chúng ta sẽ dễ dàng tìm hiểu thông quá sách, bài viết và cả trên Google. Vậy còn chuyện thực hành trong công việc thực tế? Bạn sẽ cảm thấy khó khăn hay dễ dàng, tẻ nhạt do xung quanh toàn là số liệu hay thấy thú vị khi biết cách “chơi đùa” cùng chúng. Data Analyst có thực sự dành cho bạn?

Bài viết này được đúc kết hoàn toàn bằng trải nghiệm của mình trong hơn 1 năm làm việc tại ngân hàng Techcombank, và hơn 2 năm ở công ty hiện tại trong mảng thanh toán ví điện tử ZaloPay tại VNG. Mọi người đều biết, Data Analyst có rất nhiều ngạch khác nhau. Tuy mình chỉ vừa thử sức ở hai lĩnh vực (ngân hàng và ví điện tử), nhưng hi vọng câu chuyện của mình sẽ mang thêm cho bạn một góc nhìn thực tiễn về nghề.

Các công việc trong nghề Data Analyst của mình

1. Build Dashboard

Xây dựng dashboard là một đầu việc thường xuyên của mình ở Techcombank và cả VNG. Vì sao các dashboards trở nên thiết yếu trong doanh nghiệp đến vậy?

Bởi lẽ, dashboard là một tập hợp các key measurement metrics (chỉ số đo lường) được tính toán sẵn và visualize theo nhiều dạng charts, matrix tables khác nhau. Kết quả hiển thị trên dashboard được tự động cập nhật gần như real-time (15 minutes, hourly, daily, …) Nó giúp người quản lý business / project / product theo dõi tình hình kinh doanh / tiến độ dự án / hiệu quả sản phẩm một cách trực quan và nhanh chóng nhất có thể.

Để có thể tạo ra một Effective dashboard mình thường follow theo các steps sau đây:

  • Define end users / audiences and their requirements / purposes: Xác định đối tượng sử dụng dashboard (các sếp, internal hay external teams) và mục đích xem số liệu trong các yêu cầu của họ.
  • Define measurement metrics and filters/slicers: Từ mục đích của đối tượng sử dụng, mình xác định các chỉ số đo lường cần có. Các filters (bộ lọc) sẽ cung cấp cho người xem nhiều góc nhìn về dữ liệu. Điển hình như bộ lọc thời gian (ngày/tháng/năm, year to date, month to date, ..), bộ lọc phân lớp (category, subcategory), bộ lọc geographics (country, region, area, …), …
  • Sketch out a draft layout: Sau khi có đủ có metrics phân theo từng filters mình sẽ phát thảo bố cục dashboard lên trên giấy. Ở bước này mình sẽ tiến hành chọn các loại charts phù hợp để biểu diễn data tốt nhất có thể.
  • Prepare data (extract, transform, load): Trong team, Data Analyst phải tự thực hiện giai đoạn data preparation. Mình sử dụng công cụ JupyterNotebook với code Python để load các bảng dữ liệu từ nhiều databases khác nhau. Python hỗ trợ mình làm sạch dữ liệu, kết nối các bảng lại với nhau, làm statistics, visualization để đánh giá chất lượng dữ liệu. Sau nhiều bước transformation, mình có được 1 hoặc nhiều bảng chứa đầy đủ các dữ liệu mình cần.
  • Design dashboard with harmonious techniques: Mình thường xây dựng dashboard trên Tableau hoặc Power BI. Design dashboard là sự kết hợp của nhiều kĩ thuật: màu sắc chủ đạo, font chữ, size chữ, bố cục chặt chẽ, có khả năng tương tác cao, … Người xem nhìn vào dashboard có thể nắm bắt được thông điệp dễ dàng. Người phân tích, chỉ với những con số và biểu đồ nhưng họ có thể kể được những câu chuyện đầy đủ các phần: đặt vấn đề –> khái quát –> chi tiết –> nguyên nhân –> giải pháp. Một dashboard hiệu quả phải mang lại kết quả như thế.

2. Reporting

Đây là một công việc quá quen thuộc đối với tất cả mọi người phải không? Nào là báo cáo tài chính, báo cáo kế toán, báo cáo quản trị, báo cáo nội bộ, báo cáo vận hành, … Với công việc Data Analyst, mình hay đảm nhiệm hai loại báo cáo: Báo cáo định kì và báo cáo phân tích (analysis report)

  • Báo cáo định kì: quá đơn giản để hiểu. Đó là việc hàng tuần / tháng / quý / 6 tháng / năm mình phải làm các reports để nộp cho sếp. Các báo cáo này thường mang tính khái quát, trình bày các kết quả hoạt động của cá nhân /team. Giúp cho cấp lãnh đạo có thể theo dõi performance của business cũng như đánh giá KPI của nhân viên.
  • Báo cáo phân tích: là cái mình muốn đề cập nhiều hơn trong công việc của Data Analyst. Mình thường xuyên làm các analysis reports cho những projects đang tham gia. Quá trình phân tích của mình sẽ được trình bày chi tiết trong mục “Ad-hoc Analysis” bên dưới, bạn đọc tiếp nha.

3. Ad-hoc Analysis

Công việc tiếp theo của mình là trả lời những câu hỏi/yêu cầu cần làm rõ bằng dữ liệu từ sếp hoặc các team liên quan như product/business/marketing. Rất đơn giản và đột xuất, mình thường hay nhận một số câu hỏi như:

Example: Vì sao hôm qua tỷ lệ người dùng cheating campaign thanh toán hóa đơn điện lần đầu được giảm 100K tăng cao vậy?

Chia sẻ một tí về quá trình mình làm các bài phân tích:

  • Get general insights: Mình cần mở dashboard theo dõi kết quả cheating promotion campaigns ra xem để có được cái nhìn tổng thể các khía cạnh: tỷ lệ cheating, thời điểm xảy ra, mất bao nhiêu chi phí, …
  • Analyze in details: Sau khi có cái nhìn khái quát, mình vạch ra framework phân tích, xác định các data cần thu thập thêm. Framework của mình xoay quanh Why – What – When – Who – How, đặt ra các câu hỏi và giả thuyết;
    • Why: Vì sao campaign này lại bị cheated? Điểm hấp dẫn và điểm rủi ro của chương trình ở đâu?
    • What: Cheating rate tăng cao như thế nào so với mức trung bình cùng thời kì? Bao nhiêu cheaters? Mất bao nhiêu cost?
    • When: Thời điểm nào chương trình bị tấn công (ban đêm, ban ngày, khung giờ) ? Kéo dài bao lâu (có nhanh một cách bất thường)?
    • Who: Bọn chúng là ai (có hành động theo một cộng đồng với số lượng lớn)? Thời gian tạo tài khoản? Location? Đã xác định danh tài khoản hay chưa, nếu có thì thông tin profile (độ tuổi, giới tính, quê quán, …) thế nào?
    • How: Cheaters tấn công bằng hình thức nào (sử dụng app version cũ hay mới, có dùng chung 1 thiết bị, có tình trạng dùng máy ảo, thanh toán bằng nguồn tiền nào, hóa đơn điện tập trung ở khu vực nào)?
  • Deep dive: Collect data từ nhiều nguồn khác nhau: historical data, transactional data, user profile, user journeys data để có thể phân tích theo framework trên. Mình dùng Python để query, clean và transform dữ liệu để có được đầy đủ thông tin cần thiết. Dùng pandas để làm statistical techniques và visualization đơn giản. Nếu cần phân tích nhiều góc nhìn, mình sẽ dùng Tableau / Power BI để “kéo thả” cho việc visualization nhanh chóng hơn.
  • Consolidation and presentaion: Tổng hợp kết quả phân tích. Nếu vấn đề đơn giản và dễ hiểu mình sẽ phản hồi mail cho người yêu cầu. Nếu là một big issues/complicated incidence mình sẽ phải tổng hợp thành report và kĩ thuật data story telling để đi present cho sếp và mọi người.

4. Build strategy

Ở ZaloPay, mình được tham gia vào một vài dự án của sản phẩm. Đơn cử có thể kể đến dự án triển khai tính năng định danh khách hàng tự động (e-KYC). Vai trò của mình là người làm các analysis cho full life cycle ở các giai đoạn:

  • Preparation:
    • Rolling-out strategies: Dựa vào việc phân tích historical data về traffic khách hàng thực hiện KYC trong quá khứ và tốc độ tăng trưởng (user acquisition) mình sẽ đề xuất chiến lược phù hợp. Đảm bảo chất lượng sản phẩm, hạn chế rủi ro, đồng thời đáp ứng operational workload. Vì thế nên bắt đầu triển khai từ 10% –> 50% –> 100% là khả thi.
    • Risk management strategies: Tất cả các sản phẩm liên quan tới tài chính thì quản lý rủi ro là một khâu vô cùng quan trọng. Hạn chế fraudster (kẻ lừa đảo) thông qua việc đề xuất các giải pháp như: safety net – behavior rules – slowdown strategies.
  • Execution: Mình define data metrics và build monitoring dashboard để theo dõi performance của sản phẩm. Việc monitor kết quả thông qua dashboard giúp mình tìm ra các insights nhanh chóng. Từ đó tiếp tục deep dive để optimize chất lượng sản phẩm tốt hơn.
  • Weekly/ Monthly catch up: Từ các phân tích, mình sẽ đề xuất các giải pháp, thảo luận cùng team dự án để đưa ra các next actions. Thông thường mình sẽ là người trình bày chính do đã nắm toàn bộ data trong tay, nó giúp mình hiểu sản phẩm hơn rất nhiều.

Ngoài ra, một vài dự án khác mình cũng đã từng tham gia qua như: Xác định phân khúc khách hàng (user segmentation), cải thiện tỷ lệ thanh toán / liên kết ngân hàng của ZaloPay, cải thiện thời gian quy trình cho vay mua nhà tại ngân hàng. Thông qua toàn bộ quá trình, nó giúp mình trau dồi thêm business sense, đưa ra các đề xuất và quyết định hợp lý với tình huống của công ty.

5. Build Data Asset

Công việc cuối cùng này mình nghĩ sẽ rất khác so với nhiều bạn làm Data Analyst. Xây dựng data asset (tài sản dữ liệu) được hiểu nôm na là việc tạo ra những data tables/ data collections chứa những thông tin quan trọng, có tần xuất sử dụng thường xuyên. Bởi lẽ data của một payment application rất phong phú (thông tin khách hàng, dữ liệu giao dịch, lịch sử thao tác trên App, thông tin thiết bị, … ). Đồng thời cũng vô cùng phức tạp bởi nhiều data thô và dung lượng lớn (vài triệu dòng mỗi ngày). Vì vậy việc tạo ra những data “gọn gàng” theo các nhu cầu phổ biến là sự cần thiết cho những sản phẩm/ công ty đang build up mỗi ngày.

Cụ thể, quá trình làm ra data asset của mình sẽ như sau:

  • Define data asset by key domains: Xác định dữ liệu theo từng mảng. Ví dụ các domains như: user profile (tên, tuổi, địa chỉ, thu nhập, thiết bị sử dụng, ngày đăng kí, …), financial status (lịch sử thanh toán hóa đơn, số tiền thanh toán, số lượng khoản vay, bảo hiểm, …), user behaviors (các sản phẩm đã mua, nguồn tiền, thời gian active, …)
  • Define dimension table and fact table: Với tất cả thông tin cần có phía trên, mình cần phân bổ nó thành từng bảng DIM và FACT. Bạn có thể tìm hiểu thêm về DIM và FACT ở đây.
  • Data engineer build data pipeline (ETL process): Output của 2 bước trên sẽ được viết đầy đủ thành documents. Mình chuyển qua cho data engineer để họ xây dựng quá trình xử lý data theo pipeline.
  • Data quality checks: Sau khi DE hoàn thành công việc, các data asset đã có, mình sẽ tiến hành kiểm tra chất lượng dữ liệu: có đủ các dữ liệu mình yêu cầu, giá trị có bị rỗng, các chỉ số tính toán có chính xác, …?

Kết

Không khó cũng không dễ để trở thành một Data Analyst trong thời đại công nghệ phát triển. Dữ liệu trở nên cần thiết và đóng một vai trò quan trọng trong việc ra quyết định của con người (data-driven decision making). Các vị trí trong lĩnh vực Data Science được săn đón mạnh mẽ cùng với mức lương hấp dẫn đã khiến cho nghề Data Analyst ngày càng trở nên “hot” hơn.

Mình cũng có chia sẻ “Kinh nghiệm trở thành Data Analyst”, bạn có thể đọc thêm nhé.

Nguồn: Maz Nguyen.

Trả lời

Email của bạn sẽ không được hiển thị công khai.