Trực quan hóa dữ liệu – Một số phương thức trực quan dữ liệu thường gặp (Phần 2)

Dự án Coaching OCD thực hiện cho VTHM Group
Dự án Coaching cho đội ngũ cán bộ quản lý nhân sự của VTHM Group
25 May, 2022
OCD và JKVN mở rộng hợp đồng tư vấn – Xây dựng hệ thống lương 3P
Mở rộng hợp đồng tư vấn hệ thống lương 3P cho công ty cơ khí chính xác JKVN
26 May, 2022
Show all
Trực quan hóa dữ liệu

Trực quan hóa dữ liệu

Rate this post

Last updated on 26 May, 2022

Phần trước chúng ta đã làm quen với phương pháp trực quan hóa dữ liệu bằng một số dạng biểu đồ thể hiện độ lớn của dữ liệu. Tuy nhiên, đôi khi biểu đồ sử dụng độ lớn của dữ liệu khiến chúng ta không nhận ra được mối quan hệ giữa các nhóm trong một tổng thể. Trong trường hợp này, ta có thể sử dụng biểu đồ tỷ lệ để biểu diễn các nhóm thành các thành phần riêng biệt, mỗi phần sẽ đại diện cho một tỷ lệ của tổng thể.

Một số dạng biểu đồ thể hiện tỷ lệ của dữ liệu

1. Biểu đồ tròn

Biểu đồ tròn chia một hình tròn thành nhiều phần, khi cộng các phần riêng biệt này lại, chúng ta sẽ được tổng tối đa là 100%.

Biểu đồ này đặc biệt hữu ích trong tiếp thị kỹ thuật số. Vì khi đó bạn có thể sử dụng chúng để hiển thị bảng phân tích về:

– Thị trường cổ phiếu

– Chi tiêu tiếp thị

– Nhân khẩu học khách hàng

– Trải nghiệm người dùng

– Nguồn lưu lượng truy cập trực tuyến

Bạn muốn biểu đồ hình tròn thể hiện được sự khác biệt giữa các phần? Vậy thì tốt nhất bạn nên giới hạn số lượng danh mục minh họa (3 – 4 danh mục). Hãy xem Hình 1 để biết vì sao!

Hình 1. Biểu đồ hình tròn thể hiện Cơ cấu số dự án FDI của các tỉnh ven biển Việt Nam

Hình 1. Biểu đồ hình tròn thể hiện Cơ cấu số dự án FDI của các tỉnh ven biển Việt Nam

Qua hình 1, ta thấy có 3 vấn đề như sau:

  1. Số lượng nhóm trong một biến phân loại quá nhiều. 9 tỉnh, thành phố cho biến cơ cấu số dự án FDI.
  2. Tỷ lệ giữa các biến phân loại xấp xỉ bằng nhau. Nếu không có số liệu cụ thể trên biểu đồ, rất khó để xác định sự chênh lệch giữa: Bà Rịa – Vũng Tàu (10,42%), Hải Phòng (9,78%) và các địa phương khác (9,76%).
  3. Có 9 màu biểu diễn cho 9 tỉnh, thành phố khiến cho biểu đồ mất tính trực quan.

Trong tình huống này, ta nên chuyển thành biểu đồ thanh đơn để dễ quan sát và so sánh. (Hình 2)

 

Hình 2. Biểu đồ thanh dọc thể hiện Cơ cấu số dự án FDI của các tỉnh ven biển Việt Nam

Hình 2. Biểu đồ thanh dọc thể hiện Cơ cấu số dự án FDI của các tỉnh ven biển Việt Nam

Chú ý:

Không sử dụng nhiều biểu đồ hình tròn để thể hiện các thay đổi theo thời gian. Vì nó rất khó để so sánh sự khác biệt về kích thước giữa mỗi phần của hình tròn! (Hình 3)

Hình 3. Tỷ trọng dân số theo nhóm tuổi tại Việt Nam 1999 – 2019 (Đơn vị: %)

Hình 3. Tỷ trọng dân số theo nhóm tuổi tại Việt Nam 1999 – 2019 (Đơn vị: %)

Trong trường hợp này, ta có thể sử dụng biểu đồ thanh chồng 100% để so sánh sự thay đổi về tỷ lệ của từng phần trong tổng thể.

2. Biểu đồ thanh chồng và biểu đồ thanh chồng 100%

Thay vì chia dữ liệu thành các biểu đồ tròn, ta có thể sử dụng biểu đồ thanh chồng để biểu diễn tỷ lệ của từng nhóm dữ liệu so với tổng thể. Biểu đồ thanh chồng có thể trực quan dữ liệu theo độ lớn và theo tỷ lệ. Biểu đồ thanh chồng đơn giản được chia sẻ trong bài viết trước. (Trực quan hóa dữ liệu – Một số phương thức trực quan dữ liệu thường gặp (Phần 1)). Thay vì sử dụng nhiều biểu đồ tròn, hình 4 dưới đây thể hiện sự thay đổi về tỷ lệ của từng phần trong tổng thể rõ ràng hơn.

Hình 4. Biểu đồ thanh chồng thể hiện Tỷ trọng dân số theo nhóm tuổi tại Việt Nam 1999 – 2019 (Đơn vị: %)

Hình 4. Biểu đồ thanh chồng thể hiện Tỷ trọng dân số theo nhóm tuổi tại Việt Nam 1999 – 2019 (Đơn vị: %)

Tuy nhiên, giống với biểu đồ tròn, biểu đồ thanh chồng 100% cũng chỉ nên sử dụng cho bộ dữ liệu có từ 3 – 4 nhóm cho biến phân loại. Khi số lượng nhóm trong biến này tăng lên, giá trị giữa các nhóm xấp xỉ bằng nhau; thì biểu đồ thanh chồng 100% cũng không mang lại hiệu quả trực quan cho người xem. Thay vào đó, chúng ta đổi thành biểu đồ thanh đơn để phân tích chi tiết hơn. (Hình 2)

3. Biểu đồ Sunburst

Biểu đồ Sunburst được sử dụng để trực quan hóa dữ liệu phân cấp và tỉ lệ của các cấp đối với tổng thể. Nó thể hiện thứ bậc thông qua một loạt các vòng tròn đồng tâm; trong đó, mỗi vòng tương ứng với một cấp trong hệ thống phân cấp. Vòng tròn càng rộng, thứ bậc sẽ càng giảm. Mỗi vòng được chia theo tỉ lệ để thể hiện các chi tiết cấu thành nên vòng đó. Các lát trong biểu đồ Sunburst có thể được tô màu để làm nổi bật thứ bậc hoặc danh mục. (Hình 5)

Hình 5. Biểu đồ Sunburst thể hiện một số loài côn trùng trên các Rú trong khu vực dự án

Hình 5. Biểu đồ Sunburst thể hiện một số loài côn trùng trên các Rú trong khu vực dự án

(Nguồn số liệu: Báo cáo khảo sát Môi trường sinh thái vùng ven biển và vùng biển gần bờ, khu vực thực hiện dự án NMNĐ Vũng Áng II)

Một số trường hợp hay sử dụng biểu đồ Sunburst

– Hình dung kích thước tệp của các mô-đun khác nhau trong một gói phần mềm.

– Hiểu các nguồn thu của một doanh nghiệp

– Dân số thế giới được chia thành một lục địa, quốc gia, khu vực, thành phố,…

– Chi phí tiền lương của nhân viên giữa các bộ phận trong một tổ chức

Định hướng xuyên tâm của biểu đồ Sunburst sử dụng không gian hiệu quả hơn so với hình ảnh phân cấp tuyến tính (nganh hoặc dọc). Tuy nhiên, biểu đồ Sunburst bị giới hạn số lượng các cấp. Vì khi có quá nhiều cấp, người đọc chỉ nhìn được bức tranh tổng quát; không thể quan sát chi tiết khi các cấp dần trở nên quá nhỏ. Thêm vào đó, đối với mắt người, việc nhìn các phép đọc góc là rất khó.

4. Biểu đồ dạng cây

Biểu đồ dạng cây là một phương pháp hiển thị dữ liệu phân cấp (cấu trúc dạng cây) dưới dạng một tập hợp các hình chữ nhật lồng vào nhau. Mỗi nhánh của cây có một hình chữ nhật; sau đó được lát bằng các hình chữ nhật nhỏ hơn đại diện cho các nhánh phụ hoặc lá. Hình chữ nhật của mỗi lá có diện tích tỷ lệ với một kích thước xác định trên dữ liệu. Thường thì các lá được tô màu để hiển thị một chiều dữ liệu riêng biệt. Thêm vào đó, bạn có thể hiển thị số lượng hoặc tỷ lệ % trực tiếp vào biểu đồ để mang lại thông tin đầy đủ cho người xem. Hình 6 dưới đây thể hiện một biểu đồ dạng cây đơn giản chỉ với một cấp độ.

Hình 6. Biểu đồ cây thể hiện Số loài thú, chim, bò sát, lưỡng cư được ghi nhận tại Việt Nam

Hình 6. Biểu đồ cây thể hiện Số loài thú, chim, bò sát, lưỡng cư được ghi nhận tại Việt Nam

Nguồn: IUCN, 2021

Qua Hình 6, ta thấy biểu đồ dạng cây hoạt động khá tốt khi dữ liệu kết hợp nhiều biến định tính và định lượng. Hoặc như trong Hình 7, khi số lượng biến tăng lên, ta vẫn có thể dễ dàng hiểu được ý nghĩa của biểu đồ. Tại các Rú trên cát ven biển, thành phần loài côn trùng rất phong phú với 46 loài, 24 họ và 8 bộ.

Hình 7. Biểu đồ cây thể hiện một số loài côn trùng trên các Rú trong khu vực dự án

Hình 7. Biểu đồ cây thể hiện một số loài côn trùng trên các Rú trong khu vực dự án

(Nguồn số liệu: Báo cáo khảo sát Môi trường sinh thái vùng ven biển và vùng biển gần bờ, khu vực thực hiện dự án NMNĐ Vũng Áng II)

Hơn nữa, ta còn thấy:

– Mỗi hình chữ nhật đại diện cho mỗi bộ; diện tích của hình chữ nhật tỷ lệ với số loài tại các Rú trên cát ven biển.

– Màu sắc tỷ lệ với số lượng loài của mỗi họ; màu tối hơn thể hiện số lượng loài nhiều hơn.

Tuy nhiên, trong biểu đồ dạng cây, khi chúng ta đi xuống các cấp dưới, không gian có sẵn để vẽ biểu đồ giảm đáng kể. Điều này đặt ra một giới hạn đối với số lượng cấp độ phân cấp có thể được hiển thị cùng một lúc. Khi các danh mục nghiên cứu sâu hơn, chúng trở nên khó đọc hơn. Vậy biểu đồ cây rất tốt để so sánh dữ liệu cấp vĩ mô; cho người xem biết có bao nhiêu danh mục phụ. Nhưng nó không thực sự hiệu quả khi bạn muốn đi sâu vào các danh mục phụ đó.

Lời kết

Các kiểu trực quan hóa dữ liệu khác nhau sẽ giúp bạn biến những con số thô thành hình ảnh; khiến mọi thành viên trong nhóm của bạn và tất cả khách hàng của bạn đều có thể hiểu được. Mặc dù vậy, bạn hãy sáng suốt trong cách sử dụng chúng! Việc lựa chọn loại trực quan hóa dữ liệu phù hợp sẽ dễ dàng hơn khi bạn tiếp cận nó bằng cách tự đặt ra câu hỏi cho chính mình: Biểu đồ này hướng đến đối tượng nào? Bạn muốn họ biết điều gì?… Mong rằng qua hai bài viết của chúng tôi, bạn sẽ biết cách truyền đạt dữ liệu đến với đối tượng mục tiêu hiệu quả hơn.