Hiển thị các bài đăng có nhãn biểu đồ. Hiển thị tất cả bài đăng
Hiển thị các bài đăng có nhãn biểu đồ. Hiển thị tất cả bài đăng

Thứ Sáu, 8 tháng 3, 2013

Biểu đồ trong bài báo khoa học 3: tỉ số dữ liệu trên mực in

http://www.infovis-wiki.net/images/thumb/5/55/DIR.jpg/600px-DIR.jpgChỉ số dối (lie factor) phản ảnh mức độ ảnh hưởng thể hiện trên biểu đồ so với mức độ ảnh hưởng thể hiện qua dữ liệu. Dĩ nhiên, đó chỉ là hiệu ứng thị giác, chứ trong thực tế thì con số vẫn là … con số, không thể thay đổi được. Một khía cạnh khác trong việc trình bày biểu đồ là lượng dữ liệu và lượng mực in. Một biểu đồ có quá nhiều mực in mà quá ít dữ liệu không chỉ là một sự phí phạm mà còn là một biểu đồ tồi. Để đo sự tương quan giữa lượng mực in và lượng mực dành cho biểu đồ, Edward Tufte đề nghị dùng chỉ số dữ liệu trên mực in (data – ink ratio). 



Để cảm nhận được vấn đề, chúng ta có thể xem qua biểu đồ dưới đây:



Biểu đồ trên mô tả mối liên hệ giữa hai biến số (thể hiện qua trục hoành và trục tung). Nhìn qua thì cũng không có vấn đề gì nghiêm trọng, nhưng nếu nhìn kĩ chúng ta dễ dàng thấy biểu đồ quá nghèo nàn. Tất cả biểu đồ thật ra chỉ có 2 số liệu. Nhưng những “thông số” của biểu đồ thì rất nhiều. Màu nền là màu xám, tốn rất nhiều mực. Biểu đồ có 8 lằn ngang, 13 chữ số cho trục tung và trục hoành. Nếu tính diện tích mực in của biểu đồ thì chắc cũng phải 60 cm^2! Ấy thế mà chỉ có 2 số liệu trên ngần ấy diện tích. Biểu đồ này có vấn đề.

Một nguyên tắc quan trọng trong thiết kế biểu đồ là sử dụng mực in để trình bày dữ liệu chứ không phải để trang trí cho biểu đồ. Do đó, Tufte đề nghị dùng tỉ số mực in dành cho dữ liệu trên tổng số lượng mực in để đánh giá một biểu đồ. Nói cách khác, gọi DIR (data-ink ratio) là tỉ số dữ liệu và mực in, DIR được định nghĩa như sau:

DIR = (số mực dùng cho dữ liệu) / (tổng số mực dùng trong biểu đồ)

Tỉ số này cũng có thể hiểu như là tỉ số của tín hiệu trên nhiễu (signal over noise ratio). Tỉ số này cũng nên gần bằng 1. Theo đó, nên xoá bỏ những mực in không dùng cho dữ liệu hay thừa thải. Để minh hoạ cho khái niệm DIR, chúng ta có thể xem qua biểu đồ dưới đây:

Hình 7: Thời gian cần thiết để làm xong một việc cho 4 nhóm tình nguyện viên 

Trong biểu đồ trên, chúng ta dễ dàng thấy có quá nhiều mực dành cho trang trí. Thứ nhất là màu nền (màu xám nhạt) là không cần thiết. Tại sao cần màu nền? Thứ hai là legend, “Time (min)”, cũng không cần thiết. Thứ ba là những đường ngang cũng không cần thiết. Ngay cả cách viết “Group A”, “Group B”, v.v. lặp lại chữ “Group” đến 4 lần! Biểu đồ trên có thể thiết kế lại như sau, bằng cách bỏ màu nền:  

Hình 8: Thời gian cần thiết để làm xong một việc cho 4 nhóm tình nguyện viên (vẽ lại) 

Thật ra, cách chọn biểu đồ thanh cũng có thể phải thảo luận thêm, bởi vì biểu đồ này không phản ảnh đầy đủ dữ liệu. Biểu đồ thanh trên đây chỉ phản ảnh có thể là số trung vị hay trung bình, và 4 chữ số này có thể mô tả bằng chữ chứ không cần đến biểu đồ. Tuy nhiên, nếu chọn biểu đồ, chúng ta cần phải chọn biểu đồ khác để thể hiện dữ liệu. Tôi nghĩ biểu đồ hộp sẽ thích hợp hơn. Với biểu đồ hộp, chúng ta có thể trình bày số trung bình, trung vị, cự li, độ lệch chuẩn, v.v. Do đó, ngay cả cách thiết kế trên cũng chưa tối ưu.

Dưới đây là một ví dụ về biểu đồ có quá nhiều mực cho trang trí:

Hình 9: Mối tương quan giữa hai biến số

Biểu đồ này có quá nhiều gridlines dễ làm cho người xem mất tập trung. Có thể đơn giản thành:


Hình 10: Mối tương quan giữa hai biến số (biên tập lần 1)

Thật ra, nếu mục tiêu là chỉ ra mối tương quan thì những đường ngang đó cũng không cần thiết, và biểu đồ có thể đơn giản hơn nữa:

Hình 11: Mối tương quan giữa hai biến số (biên tập lần 2)

Ngay cả những đường enclosed cũng không cần. Do đó, biểu đồ có thể cải tiến thành:

Hình 12: Mối tương quan giữa hai biến số (biên tập lần 3) 

Nói tóm lại, khi thiết kế biểu đồ, ngoài việc tối thiểu hoá chỉ số dối, tác giả cần phải tối đa hoá chỉ số dữ liệu trên lượng mực in. Để tối đa hoá chỉ số này, tác giả phải đặt câu hỏi “nếu tôi xoá bỏ những vết mực này, lượng thông tin có giảm không?” Nếu câu trả lời là không, thì tác giả có thể thẳng tay xoá bỏ những chỗ không cần thiết. Nên nhớ rằng dữ liệu là tín hiệu, và lượng mực không dùng cho dữ liệu là nhiễu; do đó, thiết kế biểu đồ chúng ta cần tối đa hoá lượng tín hiệu và tối thiểu hoá độ nhiễu.

(Còn tiếp …)

Biểu đồ trong bài báo khoa học 1: nguyên tắc

http://kang3935.files.wordpress.com/2013/01/picture-22.pngMột trong những vấn đề hay thấy trong các bài báo khoa học ở Việt Nam là cách trình bày dữ liệu bằng biểu đồ. Những biểu đồ được thiết kế quá đơn giản (phần lớn là cắt và dán từ các phần mềm máy tính) và vi phạm hầu như bất cứ nguyên tắc nào của trình bày dữ liệu mà có lẽ tác giả chưa làm quen. Trong loạt bài này, tôi sẽ bàn qua những nguyên tắc trình bày dữ liệu trong biểu đồ.


Biểu đồ có một lịch sử phát triển rất thú vị. Trước thế kỉ 18, dữ liệu khoa học thường được trình bày bằng bảng số liệu (tables), và biểu đồ được xem là vô dụng. Nhưng quan điểm này rất ư là sai lầm. Năm 1786, William Playfair (một nhà kinh tế chính trị học) sáng chế ra biểu đồ thanh (bar chart) và biểu đồ đường dây (line graph) mà chúng ta vẫn còn sử dụng cho đến ngày nay. Năm 1801, Playfair lại sáng chế ra biểu đồ bánh mà sau này trở nên rất thông dụng trong giới kinh tế học và xã hội học. Mãi đến năm 1832, nhà thiên văn học người Anh là Alenander S. Herche sáng chế ra biểu đồ tán xạ (scatter plot) và trở thành rất phổ biến trong khoa học thực nghiệm.

http://charts6.excelcharts.com/blog/wp-content/uploads/2011/12/william-playfair-wheat-excel.png
Hình 5: Một biểu đồ thanh và đường dây của William Playfair vào năm 1786

Ngày nay, trong khoa học, biểu đồ là một phương tiện khám phá. Đó không phải là một phát biểu thậm xưng, mà là sự thật. Đứng trước một rừng dữ liệu với hàng triệu mẫu từ DNA và con số, nếu không có biểu đồ thì không cách gì rút ra được những qui luật trong kho tàng dữ liệu, không thể nào tìm được những mối tương quan, thậm chí không thấy được xu hướng phân bố. Do đó, biểu đồ đóng vai trò cực kì quan trọng trong nghiên cứu khoa học.

Không chỉ là một phương tiện khám phá, biểu đồ còn là một phương tiện để truyền đạt khám phá. Một biểu đồ nếu được thiết kế cẩn thận sẽ có hiệu quả rất lớn. Sách giáo khoa thường có những biểu đồ nổi tiếng đến mức có thể xem là lịch sử. Tương tự, trong những buổi giảng của các chuyên gia, chúng ta thấy có nhiều biểu đồ được trình bày nhiều lần ở nhiều nơi, vì đó là những biểu đồ thể hiện những phát hiện quan trọng trong khoa học. Đó là những biểu đồ đi vào kho tàng tri thức nhân loại như là những icon.

Với sự phát triển của máy tính và các chương trình phân tích dữ liệu, việc soạn thảo các biểu đồ càng ngày càng dễ dàng hơn. Thật vậy, chỉ cần một chương trình phổ biến như Excel, hay cao hơn một chút là chương trình phân tích thống kê (như SAS chẳng hạn), các nhà khoa học có thể tạo ra những biểu đồ hấp dẫn và đa dạng. Thế nhưng, ngạc nhiên thay, trong thực tế vẫn còn rất nhiều biểu đồ trong bài báo khoa học được thiết kế một cách rất cẩu thả, chẳng theo một qui tắt nào cả, và làm cho thông điệp của bài báo trở nên khó hiểu.

Ở Việt Nam, người viết bài này đã đọc nhiều luận án và bài báo khoa học, mà trong đó có những biểu đồ quá kém. Đó là những biểu đồ thiết kế quá sơ sài, chủ yếu là cắt và dán từ các chương trình máy tính như Excel. Tác giả cũng tỏ ra chẳng đầu tư thời gian và suy nghĩ để chuyển tải một thông điệp nào, mà chủ yếu là … làm cho có. Thậm chí, có người làm để đủ số trang mà một qui định lạ lùng (nếu không muốn nói là quái gở) nào đó đề ra. Có lần ti đọc một luận án tiến sĩ, mà trong đó cứ mỗi biến số (như số bệnh nhân theo nhóm tuổi) tác giả trình bày qua 3 hình thức: bảng số liệu, biểu đồ, và chữ viết. Cả ba hình thức dĩ nhiên chỉ nói lên một điểm. Do đó, nếu có 10 biến thì tác giả có 10 trang để mô tả, mà trong thực tế có lẽ chỉ cần 0.5 trang là đủ! Tôi ngạc nhiên hỏi tại sao tác giả lại trình bày như thế, thì được biết lí do đơn giản là muốn làm luận án đủ số trang.

Để minh hoạ cho những vấn đề biểu đồ, chúng ta thử xem qua vài biểu đồ hay thấy trong các bài báo khoa học ở Việt Nam dưới đây.

Hình 1: Biểu đồ bánh về một kết quả nghiên cứu 

Trên đây là biểu đồ mô tả kết quả. Mỗi biểu đồ thật ra chỉ có 2 con số! Có thể nói là biểu đồ quá đơn giản, đơn giản đến nỗi người ta phải hỏi có cần đến một biểu đồ.


Hình 2: Biểu đồ bánh về hội chứng chuyển hoá 

Biểu đồ này chẳng những nghèo nàn về số liệu (chỉ có 3 số liệu), mà còn tốn khá nhiều mực in và cả màu.

Hình 3: Biểu đồ về tỉ lệ bệnh nhân chia theo nhóm có hay không có hội chứng chuyển hoá (hình trên) và theo nhóm tuổi (hình dưới)

Hai biểu đồ trên cũng nghèo nàn về số liệu và chẳng cung cấp thông gì gì quan trọng.


Hình 4: Biểu đồ thể hiện các biến số antiHBs

Biểu đồ này rất khó đọc, một phần là do phông chữ quá nhỏ, một phần là do chọn các bar để thể hiện dữ liệu. Toàn cảnh xem ra rất mù mờ.

Những biểu đồ như trình bày trên thật ra khá phổ biến trên các tập san khoa học trong nước. Có thể nói rằng phần lớn biểu đồ không cung cấp thông tin liên quan hay quan trọng cho thông điệp của bài báo. Đại đa số biểu đồ được soạn một cách hời hợt, làm cho người đọc cảm thấy tác giả hình như chẳng đầu tư vào việc suy nghĩ và thiết kế. Thật ra, trong thực tế, phần lớn các biểu đồ trên các tập san khoa học ở VN là cắt và dán trực tiếp từ các phần mềm như Excel hay phần mềm thống kê. Chính vì thế mà khi đọc những biểu đồ, có nhiều kí hiệu, cách diễn tả rất khó hiểu (lẫn lộn giữa tiếng Anh và tiếng Việt). Một bài báo khoa học với những biểu đồ như thế rất khó có cơ may được chấp nhận cho công bố trên các tập san quốc tế.

Nguyên tắc soạn biểu đồ
 
Biểu đồ là một cách trình bày dữ liệu khoa học rất hữu hiệu. Người Trung Hoa từng có câu một hình ảnh có giá trị tương đương với một vạn chữ. Thật vậy, đối phó với một rừng số liệu thu thập từ thí nghiệm, vấn đề đặt ra là làm sao khai thác những số liệu này một cách hữu hiệu nhất. Hữu hiệu ở đây phải hiểu là chuyển tải thông tin sao cho cho người xem cảm thấy dễ lĩnh hội nhất. Có ba cách để thể hiện dữ liệu khoa học: dùng chữ viết, bảng số liệu, và biểu đồ. Chữ viết chỉ có thể sử dụng cho những dữ liệu rất đơn giản, chứ không thể hiện được tất cả những xu hướng và dao động của dữ liệu. Bảng số liệu có thể sử dụng cho trường hợp tóm lược những thông tin mang tính chính xác cao. Nhưng biểu đồ có thể sử dụng để chuyển tải những thông điệp về mức độ ảnh hưởng và xu hướng biến thiên của dữ liệu. Do đó, đứng trước quyết định chọn hình thức để thể hiện dữ liệu, biểu đồ phải và nên xem là một hình thức số 1.

Để thiết kế biểu đồ một cách hữu hiệu, cần phải làm quen với cái tên Edward Tufte, vì ông là một guru về biểu đồ. Ông là giáo sư thống kê học của Đại học Yale, giáo sư chính trị học, và giáo sư khoa học máy tính (cũng tại Yale), là người đã có ảnh hưởng cực kì lớn đến lĩnh vực trình bày dữ liệu bằng biểu đồ, qua những công trình có thể nói là đặt nền tảng cho lĩnh vực này (có khi được đề cập đến như là data visualization). Ông là người dám thuế chấp căn nhà mình cho ngân hàng để vay một số tiền làm nghiên cứu và cho ra công trình về data visualization mà sau này ông không bao giờ hối hận (vì quá thành công về tài chính!) Báo New York Times gọi ông là Leonardo Da Vinci of Data. 

Edward Tufte đặt ra triết lí và 4 nguyên tắc trong trình bày dữ liệu bằng biểu đồ. Triết lí của thể hiện dữ liệu có thể tóm lược trong câu sau đây: “Graphical excellence is that which gives to the viewer the greatest number of ideas in the shortest time with the least ink in the smallest space” (tạm dịch: triết lí của trình bày dữ liệu bằng biểu đồ là cung cấp cho người xem một lượng thông tin cao nhất trong một thời lượng nhỏ nhất với lượng mực in thấp nhất trong một không gian nhỏ nhất). Như vậy, khi trình bày dữ liệu bằng biểu đồ, cần phải chú ý đến 4 khía cạnh: lượng thông tin, thời gian, lượng mực in, và không gian. Triết lí này có thể xem như là một triết lí hà tiện, tốn ít tài lực nhất để có nhiều thông tin nhất. Để đạt được triết lí đó, Tufte đặt ra 4 nguyên tắc: phản ảnh dữ liệu một cách đầy đủ, tối ưu hoá tỉ số dữ liệu trên mực in, tối ưu hoá mật độ dữ liệu, và trình bày dữ liệu chứ không phải trang trí biểu đồ.

http://ed-informatics.org/wp-content/uploads/2010/03/Tufte-Graphical-Excellence.jpg

Nói lên sự thật về dữ liệu. Mục tiêu của bất cứ biểu đồ nào cũng là chuyển tải thông tin đến người đọc, và do đó, biểu đồ cần phải nói lên sự thật của dữ liệu. Sự thật ở đây có nghĩa là những dao động của dữ liệu trong mỗi hay giữa các nhóm so sánh. Chẳng hạn như một biểu đồ thanh (bar chart) trình bày số trung bình về huyết áp giữa nhóm can thiệp và nhóm chứng là chưa phản ảnh sự thật của dữ liệu, bởi vì chúng ta biết rằng huyết áp của các cá nhân trong mỗi nhóm dao động khá lớn. Do đó, một biểu đồ có ý nghĩa hơn là biểu đồ hộp (box plot), hay tốt hơn nữa là biểu đồ hộp cộng với những số liệu cho từng cá nhân trong mỗi nhóm.

Tối đa hoá tỉ số dữ liệu trên mực in. Trong một biểu đồ có số liệu và mực in. Mục tiêu của nhà khoa học là trình bày dữ liệu càng nhiều càng tốt so với lượng mực in. Những biểu đồ bánh (pie chart) mà tôi vừa trình bày trên đây cho thấy số liệu rất ít so với lượng mực in (thậm chí có biểu đồ còn dùng cả hai màu!) Những biểu đồ này, vì thế, có tỉ số dữ liệu trên số mực in quá thấp.

Tối đa hoá mật độ dữ liệu. Mật độ dữ liệu có thể ước tính bằng cách lấy lượng số liệu chia cho diện tích của biểu đồ. Nguyên tắc quan trọng trong trình bày dữ liệu là phải tối đa hoá tỉ số này. Các biểu đồ trình bày trên đây có mật độ dữ liệu rất thấp, và do đó, chưa đạt yêu cầu của một biểu đồ có chất lượng cao.

Trình bày dữ liệu một cách đầy đủ, không phải trang trí biểu đồ. Có những biểu đồ mà tác giả trình bày số liệu qua những hình thức rất khác nhau. Biểu đồ sau cùng trong số 4 biểu đồ tôi lấy ra làm ví dụ trên đây cho thấy chỉ là một dữ liệu cho nhiều nhóm, nhưng tác giả cố gắng thể hiện mỗi nhóm một khác. Trong trường hợp này, có thể nói rằng tác giả chịu khó trang trí cho biểu đồ hơn là làm cho số liệu được phản ảnh một cách đầy đủ.

Trong phần sau đây, tôi sẽ bàn qua về những chỉ số phản ảnh 4 nguyên tắc trên. Đó là những chỉ số liên quan đến yếu tố gian dối (lie factor), tỉ số dữ liệu trên mực in, mật độ dữ liệu, và tính nhất quán trong cách trình bày. Tôi cũng sẽ lấy vài ví dụ để minh hoạ cho những loại biểu đồ mà Edward Tufte gọi là rác rưởi (junk chart) từ báo chí Việt Nam.

(còn tiếp …)

Tham khảo và đọc thêm: 

Wainer H. Graphical discovery: a trout in the milk and other visual adventures. Princeton, NJ: Princeton University Press, 1997.

Tufte ER. The visual display of quantitative information (2nd Ed). Cheshire, CT: Graphics Press, 2001. 

Tukey JW. Exploratory data analysis. Reading, MA: Addison-Wesley, 1977.