Ted Vu

Khi thống kê không còn "chính xác"

April 26th, 2024

Đây là bài viết đầu tiên của mình bằng tiếng Việt, trong tương lai mình có thể sẽ tách những blog post tiếng việt ra một phần riêng nhưng hiện tại mình để dưới phần 'blog'. Hôm nay mình muốn viết về một lĩnh vực mình thấy thú vị và đang tìm hiểu: đó là thống kê hay tiếng anh gọi là Statistics. Ở bài viết này mình xin đưa ra một số góc nhìn về thống kê cho thấy đôi khi thống kê có thể không "chính xác".

Trong hình dung mọi người thống kê chắc toàn những con số, vậy thì sao những con số có thể không chính xác được chứ chắc chỉ có thể là người làm thu nhập dữ liệu sai thôi. Nhưng ngoài ra còn có rất nhiều yếu số làm cho một "thống kê" không còn chính xác. Trong bài viết này mình xin đưa ra 1 ví dụ kinh điển trong xác suất:

Cách đưa ra kết luận từ thống kê không chính xác

Nghĩa là sau khi đã có đầy đủ số liệu, và ta hãy giả sử các số liệu này hoàn toàn chính xác thì việc tìm ra ý nghĩa hay đưa ra kết luận từ những thống kê này làm thống kê trở nên vô nghĩa. Mình đưa ra ví dụ kinh điển mà chắc bạn nào học về xác suất thống kê đều biết đó là nguyên lý "Survivor Bias". Cụ thể trong thế chiến thứ 2, một số máy bay chiến đấu của phe Đồng Minh trở về sống sót sau cuộc chiến với các máy bay phe Phát Xít với đầy các vết đạn trên thân. Các vết đạn này ở nhiều vị trí như 2 cánh, thân và phần đuôi, bên phía đồng minh cần đưa ra quyết định nên gia cố phần nào của máy bay vì họ có giới hạn về thời gian và nguồn lực.

survivor-bias

Vậy phe đồng minh nên gia cố phần nào ? Có phải những vết đạn bắn không ? Abraham Ward một nhà toán học gốc Do Thái-Hung cho rằng nên gia cố phần không bị bắn, lý luận của ông là các máy bay trở về được là do các máy bay đó đã không bị bắn ở những phần đó, còn các máy bay bị bắn hạ là do những chiếc máy bay đó đã bị bắn tại những phần không có vết đạn của các chiếc may bay trở về. Một quyết định có phần trái với cảm tính con người nhưng lý luận của ông rất chính xác và thú vị, đó cũng là ví dụ về survivor bias. Đôi khi ta hay dùng những dữ liệu 'ngoại vi' những 'outliers' để đại diện cho toàn thể, ví dụ như Bill Gates hay Steve Jobs - những tỉ phú đều bỏ học đại học giữa chừng nên mọi người nghĩ đa số các tỉ phú đều bỏ đại học hay hãy bỏ đại học để trở thành tỉ phú. Thực tế thì có rất nhiều 'chiếc máy bay không trở về' hay những người bỏ học không thể trở thành tỉ phú, và hầu hết các tỉ phú đều có bằng đại học. Qua ví dụ trên chắc các bạn đã thấy một nguyên nhân khiến cho thống kê không còn đúng nữa.

Và mình xin kết bài với một câu quote rất thú vị về xác suất-thống kê:

"There are three kinds of lies: Lies, damn lies and Statistics." -Colin White-

Created by Ted Vu, copyright 2024, proudly powered by GatsbyJS