Last updated on 20 May, 2022
Trong thế giới của dữ liệu lớn như hiện nay, trực quan hóa dữ liệu là một công cụ quan trọng để hiểu hàng nghìn tỷ dữ liệu được tạo ra mỗi ngày. Điều này là rất cần thiết vì hiểu dữ liệu mới có thể phân tích một lượng lớn thông tin và đưa ra các quyết định dựa trên dữ liệu.
Trực quan hóa dữ liệu là phương thức biểu diễn trực quan của thông tin và dữ liệu. Trực quan hóa dữ liệu giúp kể câu chuyên bằng cách sắp xếp dữ liệu thành một biểu mẫu dễ hiểu hơn, cho biết tổng quan về mẫu nghiên cứu, các xu hướng, làm nổi bật ngoại lệ và mối tương quan trong dữ liệu. Phương thức phổ biến nhất đề trực quan hóa dữ liệu là sử dụng các biểu đồ và đồ thị. Bài viết dưới đây sẽ cung cấp một số dạng biểu đồ thường gặp nhất hiện nay.
Table of Contents
ToggleBiểu đồ thanh trình bày dữ liệu với các thanh hình chữ nhật có chiều cao hoặc chiều dài tỷ lệ với các giá trị mà chúng biểu diễn. Một trục của biểu đồ hiển thị các danh mục cụ thể đang được so sánh và trục còn lại biểu thị một giá trị rời rạc. Các thanh có thể được vẽ theo chiều dọc (biểu đồ cột) hoặc chiều ngang (biểu đồ thanh ngang). Biểu đồ thanh ngang có một số ưu điểm hơn so với thanh dọc như:
– Các nhãn dễ hiển thị hơn với tập dữ liệu lớn.
– Với tập dữ liệu lớn, biểu đồ thanh ngang hoạt động tốt hơn trong bố cụ hẹp (ví dụ như khi xem trên thiết bị di động).
Có 3 biểu đồ thanh thường gặp là: biểu đồ thanh đơn áp dụng cho một biến phân loại; biểu đồ thanh nhóm và biểu đồ thanh xếp chồng áp dụng cho hai biến phân loại.
Loại biểu đồ này được sử dụng khi chỉ có 1 biến phân loại, mỗi thanh sẽ đại diện cho một nhóm cụ thể, chiều cao hoặc độ dài của mỗi thanh tỷ lệ với tổng các giá trị trong nhóm mà nó đại diện. Hình 1 biểu diễn số lượng xe được sản xuất của 9 hãng khác nhau theo 2 hình dạng biểu đồ thanh dọc và thanh ngang.
Tuy nhiên, như trong Hình 1, biểu đồ thanh dọc không đạt tính thẩm mỹ do tên nhóm phân loại quá dài trong khi bề ngang có giới hạn khiến phần mềm tự động xoay tên nhóm nằm nghiêng, gây cảm giác khó đọc cho người xem và chiếm nhiều diện tích bên dưới biểu đồ. Giải pháp cho vấn đề này là chuyển về dạng biểu đồ thanh ngang như bên cạnh.
Hơn nữa, bất kể biểu dồ dọc hay ngang, ta đều cần chú ý đến thứ tự sắp xếp các thanh. Để biểu đồ trực quan cho người xem, các thanh nên được sắp xếp tương ứng theo tính chất của biến mà nó thể hiện.
– Biến phân loại mang tính rời rạc (VD: quốc gia, thành phố, hãng xe, …): biểu đồ nên được sắp xếp theo độ lớn thanh từ cao xuống thấp hoặc từ dài đến ngắn.
– Biến phân loại mang tính liên tục hay có thứ tự ( VD: theo thời gian, theo độ tuổi, …): biểu đồ nên được sắp xếp theo thứ tự tăng hoặc giảm dần của biến phân loại.
Loại biểu đồ này được sử dụng khi hai hoặc nhiều tập dữ liệu được hiển thị cạnh nhau và được nhóm lại với nhau theo các danh mục trên cùng một trục.
Ví dụ trong bộ dữ liệu dưới đây, chúng ta có hai biến phân loại là “Yếu tố ưu tiên khi lựa chọn tai nghe” (rời rạc) và “Nhóm tuổi” (liên tục):
Trong hình 2a, Nhóm tuổi được hiển thị dọc theo trục x, đối với mỗi nhóm tuổi có những thanh tương ứng với mức độ ưu tiên khi lựa chọn tai nghe khác nhau. Biến “Các yếu tố ưu tiên” mang tính rời rạc nên màu sắc được sử dụng theo thang màu định tính.
Hình 2b, Các yếu tố ưu tiên được hiển thị dọc theo trục x, đối với mỗi yếu tố có 5 thanh tương ứng với nhóm tuổi. Biến “Nhóm tuổi” mang tính liên tục nên màu sắc được sử dụng theo thang màu tuần tự.
Có thể thấy, hình 2a sẽ phù hợp để xác định sự khác biệt trong mức độ ưu tiên lựa chọn tai nghe trong một nhóm tuổi. Nhưng hình 2a khó để so sánh số lượng giữa các nhóm tuổi cho một yếu tố ưu tiên nhất định. Ngược lại, hình 2b có thể giải quyết được nhược điểm trên. Như vậy, việc lựa chọn biến nào để hiển thị dọc theo trục x là tùy thuộc vào nhu cầu, mục đích mà người làm biểu đồ muốn cho người đọc thấy. Trong trường hợp có quá nhiều nhãn trong biến phân loại, ta nên chuyển từ biểu đồ nhóm thành các biểu đồ thanh đơn để diễn giải kết quả một cách trực quan hơn.
Đây là loại biểu đồ thể hiện nhiều tập dữ liệu chồng lên nhau để cho biết danh mục lớn hơn được chia thành các danh mục nhỏ hơn như thế nào và mối quan hệ của chúng với tổng số lượng.
Về cơ bản, biểu đồ thanh xếp chồng có thể được chia thành hai loại:
1) Biểu đồ thanh xếp chồng đơn giản hiển thị tổng giá trị của thanh là tất cả các giá trị phân đoạn được cộng lại với nhau. (Hình 3)
2) Biểu đồ thanh chồng 100% hiển thị một phần đến toàn bộ mối quan hệ trong mỗi nhóm. (Được giới thiệu trong bài viết Trực quan hóa dữ liệu – Một số phương thức trực quan dữ liệu thường gặp hiện nay (Phần 2))
Nhược điểm của biểu đồ này là khó phân biệt khi muốn so sánh các giá trị khác nhau trong cùng một nhóm mà các giá đó lại gần như xấp xỉ bằng nhau. Ví dụ hình 4a, độ dài thanh Thương hiệu, Sự tiện dụng, Giá trị thẩm mỹ và Ảnh hưởng xã hội có độ dài gần như xấp xỉ bằng nhau. Nếu không có con số như trong hình 4b thì sẽ rất khó so sánh các yếu tố này với nhau.
Trong biểu diễn độ lớn của dữ liệu, biểu đồ thanh phải bắt đầu từ gái trị 0 để chiều dài thanh tỷ lệ với số lượng hiển thị. Tuy nhiên, với một số bộ dữ liệu, các thanh đôi khi quá dài, khó so sánh và khiến người đọc không hiểu được nội dung mà biểu đồ muốn truyền tải. Do đó, biểu đồ điểm được sử dụng để thay thế biểu đồ thanh trong tình huống này.
Biểu đồ điểm là một biểu đồ hai chiều đơn giản được sử dụng để so sánh các giá trị của một biến trên nhiều danh mục. Một trục được sử dụng để tách từng danh mục và trục còn lại là trục mà giá trị được vẽ dọc theo. Nếu thứ tự của các danh mục không quan trọng (ví dụ: theo thứ tự thời gian), thông thường sẽ sắp xếp biểu đồ điểm theo các giá trị.
Như trong Hình 5b, bằng cách sử dụng biểu đồ điểm, ta có thể giới hạn phạm vi trục trong khoảng từ 7,6m đến 9,2m để biểu diễn rõ ràng hơn ý nghĩa của tập dữ liệu so với Hình 5a. Qua đó ta dễ nhận thấy vận động viên người Mỹ có thành tích nhảy xa nhất trong số tất cả các vận động viên của quốc gia khác. 3 nước Indonesia, Việt Nam, Philippines có thành tích nhảy xa thấp hơn nhiều so với các vận động viên của quốc gia khác. Ngoài ra, sự chênh lệch giữa các quốc gia như Iran, Ấn Độ, Nhật Bản, Nigeria cũng hiển thị rõ ràng và dễ nhận biết hơn so với biểu đồ thanh trong Hình 5a.
Bản đồ nhiệt là một kỹ thuật trực quan hóa thể hiện độ lớn của dữ liệu dưới dạng màu sắc trong hai chiều. Bản đồ nhiệt có lẽ được sử dụng phổ biến nhất để hiện thị một cái nhìn tổng quát hơn về các giá trị số. Điều này đặc biệt đúng khi xử lý khối lượng lớn dữ liệu, vì màu sắc dễ phân biệt và dễ hiểu hơn là các con số. Bản đồ nhiệt cực kỳ linh hoạt và hiệu quả trong việc thu hút sự chú ý đến các xu hướng và vì những lý do này mà chúng càng trở nên phổ biến trong cộng đồng phân tích. Hãy xem xét ví dụ dưới đây.
Bạn là một nhà phân tích cho một tập đoàn bán lẻ lớn, đa quốc gia điều hành một chuỗi các cửa hàng bách hóa lớn. Điều bạn quan tâm là xác định xem các tháng cụ thể mà mỗi cửa hàng bách hóa nhận được lưu lượng truy cập cao hơn để phân bổ tốt các tài nguyên (sản phẩm, nhân viên,…) đến các cửa hàng khác nhau. Bản đồ nhiệt sẽ giúp bạn!
Qua hình 6, ta thấy rõ ràng là các cửa hàng đều có doanh số cao từ tháng 10 đến tháng 2. Con số này từ từ tan biến cho đến tháng 9. Điều này có thể lặp lại hàng năm chỉ với sự khác biệt nhỏ giữa các tháng. Với những hiểu biết này, nhà bán lẻ có thể tối đa hóa hoạt động của họ bằng cách phân bổ tốt hơn các nguồn lực chính. Ví dụ, với những tháng cao điểm, các cửa hàng bách hóa sẽ lên lịch thuê cộng tác viên bán hàng bổ sung và lên lịch vận chuyển hàng trong kho đến cửa hàng để có đủ sản phẩm bán cho khách hàng.
Nhiều phần mềm đã áp dụng trực quan hóa dữ liệu để giúp tối ưu hiệu suất công việc, quản lý thời gian và hoàn thành dự án đúng hạn. Một trong những phần mềm quản lý công việc tốt nhất là digiiTeamW của Công ty Giải pháp Công nghệ OOC. digiiTeamW sử dụng 1 giao diện thống nhất cho các phương pháp, thể hiện các chỉ tiêu, mức độ hoàn thành công việc, … bằng các biểu đồ trực quan nhất, giúp cả nhân viên và quản lý có thể theo dõi tiến độ và đánh giá kết quả một cách nhanh chóng, dễ dàng.
You must be logged in to post a comment.