Bạn sinh ra là một nguyên bản. Đừng chết đi như một bản sao (Khuyết danh)

THỐNG KÊ VÀ BÁO CHÍ

image GS. NGUYỄN VĂN TUẤN – Viện Nghiên cứu y khoa Garvan, Úc

Giới báo chí Việt Nam có lẽ là một trong những nhóm thích dùng thống kê trong các bản tin nhất thế giới. Mở đầu cho bài viết “Tham nhũng học thuật”, phóng viên viết “Chỉ riêng vụ ‘luộc’ hai cuốn sách Nguyên lý bảo hiểm và Tài chính quốc tế của trường Đại học Kinh tế TPHCM, đã có tới 7 giảng viên của khoa Tài chính Ngân hàng trường Đại học Công nghiệp TPHCM can dự (chiếm 32% tổng số 22 giảng viên của khoa)”.

Mới đây, trong loạt bài phản ảnh về những trăn trở và khó khăn của du học sinh khi về làm việc ở Việt Nam, phóng viên cho biết: “83% du học sinh về nước không hài lòng với lương, thưởng”. Viết về nguyên nhân tử vong ở trẻ em, báo khẳng định: “50% trẻ em tử vong do đuối nước”. Có phóng viên còn chạy một cái tít chính xác đến 2 số thập phân như “31,48% sinh viên chưa nắm được thế nào là nghiên cứu khoa học”. Ít thấy báo chí nào trên thế giới chịu khó trình bày nhiều số phần trăm, mà có chính xác đến số lẻ, như báo chí ở nước ta.

Những con số thống kê thường được sử dụng để tạo sự quan tâm của công chúng về những vấn đề xã hội. Những con số thống kê vừa liệt kê trên được thu thập và tính toán với mục đích nói cho chúng ta biết rằng tình trạng “đạo sách” lan tràn trong giới khoa bảng, nhiều sinh viên chẳng biết nghiên cứu khoa học là gì, đa số du học sinh không hài lòng với lương bổng ở trong nước, và quan trọng hơn là đuối nước là nguyên nhân gây nên 50% tử vong ở trẻ em.

Những vấn đề mà phóng viên dùng số thống kê để nêu đúng là rất quan trọng, và công chúng khó có thể bỏ qua được. Nhìn như thế, chúng ta thấy con số thống kê quả là đóng vai trò quan trọng trong việc thuyết phục công chúng về các vấn đề xã hội.

Nhưng trước khi bị thuyết phục bởi những con số thống kê, chúng ta cần phải tìm hiểu bối cảnh ra đời của chúng, nói nhại theo một nhà xã hội học Mỹ, tôi nghĩ con số thống kê như là một cái áo dài của người phụ nữ, những gì nó tiết lộ thì thú vị đấy, nhưng những gì nó giấu giếm mới là quan trọng. Con số thống kê cũng vậy, nó là sản phẩm của xã hội, của con người, cho nên nó cũng chịu sự chi phối bởi tình cảm và chủ quan của tác giả tạo ra nó. Người đọc, do đó, cần phải tìm hiểu kỹ những bối cảnh này trước khi chấp nhận ý nghĩa của con số thống kê. Những khía cạnh cần tìm hiểu là vấn đề con số phản ảnh, phương pháp đo lường, nguồn gốc của dữ liệu, và cách diễn giải dữ liệu thống kê.

Con số phản ánh gì?

Trước hết là vấn đề mà con số thống kê phản ảnh. Chúng ta thử quay lại cái tít “31,48% sinh viên chưa nắm được thế nào là nghiên cứu khoa học”. Bản tin cho biết con số này xuất phát từ một cuộc phỏng vấn trên 1.000 sinh viên năm thứ ba thuộc Đại học Cần Thơ vào năm 2009. Nhưng vấn đề đặt ra là định nghĩa của “nghiên cứu khoa học” và thế nào là “hiểu chính xác”. Nghiên cứu khoa học là một quy trình, và quy trình này có thể thay đổi tùy theo lĩnh vực khoa học.

Vì thế làm thế nào mà hiểu chính xác được quy trình? Ở đây, chỉ có hiểu đúng và hiểu sai mà thôi, chứ tôi nghĩ không có hiểu chính xác được. Chú ý rằng tuy nghiên cứu được thực hiện ở Cần Thơ, nhưng cái tít thì lại hàm ý khái quát cho sinh viên của cả nước, thậm chí cả thế giới! Nếu mục tiêu là thu hút chú ý của bạn đọc thì cái tít đã thành công một mức độ nào đó, nhưng nếu mục tiêu là cung cấp thông tin chính xác cho người đọc, thì tôi e rằng bài báo chưa đạt được mục tiêu.

Đo lường ra sao?

Thứ hai là vấn đề đo lường. Một con số thống kê chỉ đáng tin cậy nếu phương pháp đo lường chính xác và có độ tin cậy cao. Chẳng hạn như trong trường hợp “50% trẻ em tử vong do đuối nước”, câu hỏi lặp tức đặt ra là định nghĩa thế nào là “đuối nước” và đo lường ra sao, ai là người báo cáo tử vong (chắc chắn trẻ em đã chết không báo cáo được!), và nếu thân nhân báo cáo thì độ tin cậy cỡ nào.

Trước đây, báo chí Mỹ rầm rộ đưa tin về một nghiên cứu cho thấy 80% con cái của những cặp cha mẹ ly dị không có vấn đề gì khi trưởng thành và thích nghi tốt với xã hội, nhưng khi được hỏi “thích nghi với xã hội,” hay “trưởng thành,” có nghĩa là gì thì giới báo chí không trả lời được. Tình trạng ly dị thì dễ trả lời và không thành vấn đề, bởi vì nó là một hồ sơ hay tình trạng mà phần lớn ai cũng có thể xác nhận khá chính xác. Nhưng làm sao để xác định và định nghĩa thế nào là thích nghi với xã hội mới là một vấn đề quan trọng trong chương trình nghiên cứu.

Đây là một phạm vi mang tính định tính (qualitative) mà nhà nghiên cứu khó có thể đo lường một cách chính xác và khách quan như trong trường hợp của huyết áp, chiều cao cơ thể, hay màu da, sắc áo. Người ta chắc sẽ không ngạc nhiên nếu một nghiên cứu phát hiện rằng một người nào đó hoàn toàn hài lòng với cuộc sống và thích nghi với xã hội, mặc dù anh ta đang nghiện rượu, hay đã trải qua nhiều lần ly dị trong đời, trong khi một nghiên cứu khác có thể phát hiện rằng một người nào đó hoàn toàn có một cuộc sống gương mẫu nhưng lại không hài lòng với cuộc sống hiện tại!

Dữ liệu từ đâu?

Thứ ba là vấn đề nguồn gốc dữ liệu. Quay trở lại bài báo “50% trẻ em tử vong do đuối nước” chúng ta chỉ biết “Đây là thông tin từ báo cáo tổng hợp về phòng chống tai nạn thương tích trẻ em tại Việt Nam do Bộ Lao động – Thương binh và Xã hội phối hợp với Quỹ Nhi đồng Liên hợp quốc” công bố. Nhưng chúng ta cần phải biết bối cảnh ra đời của con số này là gì. Một loạt câu hỏi đặt ra: đối tượng nghiên cứu là ai, ở đâu, vào thời gian nào?… Nhưng rất tiếc là bản tin hoàn toàn không cung cấp thêm thông tin nào về báo cáo này.

Cũng là vấn đề nguồn gốc, trong bài báo “83% du học sinh về nước không hài lòng với lương, thưởng”, phóng viên cho biết, “đối tượng khảo sát gồm các nhóm chính: du học sinh đã tốt nghiệp, đã và sẽ về nước làm việc; du học sinh đã tốt nghiệp, đã và sẽ ở lại làm việc tại nước sở tại và du học sinh chưa tốt nghiệp có nguyện vọng thực tập”. Chúng ta thấy rõ ràng có sự mâu thuẫn. Trong khi cái tít của bài báo đề cập đến du học sinh về nước, thì đối tượng nghiên cứu lại gồm du học sinh sắp về nước và sắp tốt nghiệp!

Thật ra, đọc kỹ bài báo thì thấy thông tin phức tạp hơn, và có thể tóm lược như sau: trong số 350 du học sinh được phỏng vấn, có một số đã tốt nghiệp và một số chưa tốt nghiệp, nhưng chúng ta không biết con số này. Trong số đã tốt nghiệp, 64% quyết định ở lại nước sở tại, và 36% về Việt Nam. Trong số đã tốt nghiệp và về Việt Nam, “83% chưa hài lòng về chuyện lương, thưởng”. (Phóng viên lấy con số này làm tiêu đề, nhưng chú ý trong tiêu đề thì viết là “không hài lòng” còn bài viết là “chưa hài lòng”!)

Giả dụ như có 50% sinh viên đã tốt nghiệp, thì con số đã về Việt Nam là 375*0.5*0.36 = 63 người. Trong số 63 người này, có 52 người (63*0.83) chưa hài lòng với lương bổng ở Việt Nam. Nếu 52 người mà phóng đại lên 83% thì tôi e rằng phạm vào lỗi khái quát hóa.

Diễn giải có đúng?

Thứ tư là vấn đề diễn giải dữ liệu. Quay trở lại tiêu đề “50% trẻ em tử vong do đuối nước” chúng ta có thể hiều rằng trong tổng số trẻ em tử vong, phân nửa là do đuối nước. Có thể nào tin rằng đuối nước gây ra phân nửa tử vong ở trẻ em ở Việt Nam? Thật ra, chưa có bất cứ một nghiên cứu nào nói như thế. Tôi có thể khẳng định rằng con số này chắc chắn đã được trình bày sai, hoặc trình bày đúng nhưng nghiên cứu sai, hoặc diễn giải sai số liệu.

Một trong những sai lầm phổ biến trong diễn giải dữ liệu là vượt ra ngoài dữ liệu quan sát. Chẳng hạn như nếu một phân tích về mối tương quan giữa tiểu đường và bệnh nhân có trọng lượng dưới 50 ki lô gam, thì kết quả không thể phát biểu cho người có trọng lượng trên 50 ki lô gam.

Con số phần trăm thường hay bị diễn giải sai. Con số phần trăm là kết quả của tử số chia cho mẫu số và nhân cho 100. Một trong những cái sai tiêu biểu và rất phổ biến là tính phần trăm cho mẫu số thấp hơn 100. Chẳng hạn như bài báo cho biết trong số 22 giảng viên của khoa Tài chính Ngân hàng trường Đại học Công nghiệp TPHCM, có 7 người can dự vào việc “luộc sách”, và phóng viên cho rằng 32% giảng viên luộc sách (tức lấy 7 chia cho 22 và nhân cho 100).

Vấn đề ở đây là chỉ số 22 giảng viên, nhưng nhà báo nhân lên thành 100 để cho có con số phần trăm, và đây là lỗi lầm về khái quát hóa ngoài dữ liệu cho phép. Đáng lẽ chỉ cần nói chính xác rằng 7 trong số 22 người bị nghi ngờ luộc sách là đủ, đâu cần gì phải nói đến con số 32%.

Một vấn đề khác là suy luận về bằng chứng, nguyên nhân và hậu quả. Ngay cả khi các dữ kiện được thu thập trong hai nhóm có đặc tính giống nhau hay tương đương nhau, nhà nghiên cứu vẫn chưa có thể phát biểu về mối liên hệ giữa nguyên nhân và hậu quả (cause and effect).

Thực ra, nhà nghiên cứu chỉ có thể phát biểu rằng dữ kiện [mà họ thu thập được] nhất quán (consistent) với giả thuyết. Nhưng kết quả của họ cũng có thể nhất quán với các giả thuyết khác nữa. Chẳng hạn như con số 50% trẻ em tử vong do đuối nước cũng có thể nhất quán với giả thuyết thuyền bè thiếu an toàn, và nếu không có dữ liệu về an toàn rất khó nói cái nào là nguyên nhân và cái nào là hệ quả.

Cần nhấn mạnh rằng những con số thống kê không chứng minh bất cứ một điều gì cả. Khoa học thống kê là một môn học bị lạm dụng quá nhiều nên môn học này có khi bị mang tiếng xấu, nhất là người ta hay gắn liền thống kê với câu nói của Benjamin Disrael. Tức là, người ta tin rằng thống kê có thể dùng để chứng minh bất cứ điều gì, kể cả nói láo.

Nhưng đó là một cách ngụy biện, chứ trong khoa học thì thống kê phải được dùng một cách thận trọng. Dù những con số thống kê có thể được trình bày và diễn dịch nhiều cách khác nhau, chúng không thể chứng minh bất cứ một điều gì cả. Điều mà thống kê có thể “chứng minh” được là bác bỏ những gì không chắc chắn, không có thực.

Nhà văn H. G. Wells từng nói rằng trong một xã hội hiện đại công dân cần thành thạo ba kỹ năng: đọc, viết, và thống kê. Giới báo chí, hơn ai hết, cần phải trang bị những kỹ năng về diễn giải và suy luận thống kê để tránh những hiểu lầm đáng tiếc có thể xảy ra trong tương lai.

SOURCE: THỜI BÁO KINH TẾ SÀI GÒN

Trích dẫn từ: http://www.thesaigontimes.vn/Home/diendan/ykien/33227/

Advertisements

Gửi phản hồi

Học luật để biết luật, hiểu luật, vận dụng luật và hoàn thiện luật
%d bloggers like this: