Phần 1: NHỮNG LƯU Ý KHI ĐỌC PHẦN THỐNG KÊ TRONG MỘT BÀI BÁO
Khi sử dụng số liệu thống kê trong bài viết, hãy nhớ lại trải nghiệm của bản thân là người đọc số liệu thống kê. Đừng quên rằng bạn đã thất vọng như thế nào khi bắt gặp các số liệu thống kê không rõ ràng và bạn đã cảm kích như thế nào khi đọc những số liệu được trình bày tốt.
Khi bắt đầu viết, hãy ghi nhớ những điều sau. Đầu tiên, người đọc sẽ muốn biết câu trả lời cho những câu hỏi tương tự mà chúng tôi đã thảo luận ở phần 1. Thứ hai, bạn muốn trình bày số liệu thống kê của mình một cách rõ ràng, không giấu giếm. Dưới đây, bạn sẽ tìm thấy danh sách một số cạm bẫy phổ biến trong thống kê, cùng với các gợi ý để không phạm phải chúng.
1. Sai lầm của tay viết “trung bình”
Không ai muốn là kẻ trung bình. Hơn nữa, không ai muốn chỉ nhìn thấy mỗi từ “trung bình” trong một bài viết. Tại sao? Bởi vì không ai biết chính xác ý nghĩa của nó. Không chỉ có một, hay hai, mà là tới ba định nghĩa khác nhau về “trung bình” trong thống kê và khi bạn sử dụng từ này, người đọc của bạn chỉ có 33,3% cơ hội đoán đúng ý bạn.
Để giải thích các định nghĩa đó, chúng ta sẽ sử dụng bộ số này: 5, 5, 5, 8, 12, 14, 21, 33, 38
Trung bình cộng (Mean)
Đây có thể là định nghĩa “trung bình” nhất của trung bình (bất kể điều đó có nghĩa là gì). Đây là mức trung bình có trọng số — tổng tất cả các phần tử được bao gồm chia cho số lượng các phần tử được biểu thị. Do đó, giá trị trung bình của bộ số trên là 5 + 5 + 5 + 8 + 12 + 14 + 21 + 33 + 38, tất cả chia cho 9, và kết quả bằng 15,644444444444. Để bớt cồng kềnh mà vẫn không làm ảnh hưởng đến lập luận của bài viết, ta có thể rút gọn nó xuống 15.6.
Trung vị (Median)
Tùy thuộc vào việc tập hợp của bạn có lẻ hay chẵn phần tử, trung vị có thể là a) số ở giữa tập hợp số lẻ hoặc b) giá trị nằm giữa hai số ở giữa trong tập hợp chẵn. Với tập hợp trên (với 9 phần tử), trung vị sẽ là 12. (5, 5, 5, 8 <12 <14, 21, 33, 38)
Mốt (Mode)
Mốt là số hoặc giá trị xuất hiện thường xuyên nhất trong một chuỗi. Nếu, bởi một sự trớ trêu nào đó, hai hoặc nhiều giá trị xảy ra với cùng một tần suất, thì bạn lấy trung bình cộng của các giá trị đó. Đối với tập hợp của chúng ta, mốt sẽ bằng 5, vì nó xuất hiện 3 lần, trong khi tất cả các số khác chỉ xuất hiện một lần.
Như bạn thấy, có thể có sự chênh lệch đáng kể giữa các con số, cũng như ý nghĩa của chúng. Vì vậy, người viết phải luôn thông báo cho người đọc biết họ đang sử dụng giá trị trung bình nào. Nếu không, sự nhầm lẫn chắc chắn sẽ xảy ra.
2. Khớp các dẫn chứng với câu hỏi
Hãy đảm bảo rằng các số liệu thống kê của bạn sử dụng thực sự củng cố cho luận điểm mà bạn đang đưa ra. Quay trở lại cuộc thảo luận của chúng ta về giá trị trung bình, thì tùy thuộc vào câu hỏi bạn muốn trả lời, bạn nên sử dụng số liệu thống kê phù hợp.
Có lẽ một ví dụ sẽ giúp minh họa cho điều này. Giáo sư của bạn trả bài giữa kỳ. Điểm số được phân bố như sau:
Điểm | Số lượng (sinh viên) |
100 | 4 |
98 | 5 |
95 | 2 |
63 | 4 |
58 | 6 |
Vị giáo sư cảm thấy rằng bài kiểm tra chắc hẳn quá dễ, vì điểm trung bình (trung vị) là 95.
Khi một đồng nghiệp hỏi cô ấy về cách tính điểm giữa kỳ, do biết rằng mình đang mang tiếng là cho điểm “quá dễ”, cô ấy đã trả lời rằng điểm trung bình (trung bình cộng) của lớp là 80.
Khi cha mẹ bạn hỏi tội bạn tại sao điểm bài giữa kỳ của bạn lại thấp vbạn trả lời, “Đừng lo lắng về số điểm 63 đó. Nó không tệ như người ta nghĩ đâu. Điểm trung bình (mốt) là 58 cơ. ”
Tôi sẽ để bạn quyết định xem những lựa chọn trả lời này có phù hợp hay không. Việc lựa chọn các dữ kiện hoặc số liệu thống kê thích hợp sẽ giúp ích rất nhiều cho lập luận của bạn. Không chỉ củng cố quan điểm của bạn, chúng còn không làm suy yếu tính hợp pháp của vị trí của bạn. Hãy nghĩ xem bố mẹ bạn sẽ phản ứng như thế nào khi họ biết được từ giáo sư rằng điểm trung bình (trung vị) là 95! Cách tốt nhất để duy trì tính chính xác là chỉ rõ bạn đang sử dụng dạng nào trong ba dạng “trung bình”.
3. Cho thấy bức tranh toàn cảnh
Đôi khi, bạn có thể vô tình trình bày sai bằng chứng của mình mà không nhận ra. Tuy nhiên, những lần khác, việc trình bày sai có thể có mưu đồ nào đó. Điều này có thể được nhìn thấy dễ dàng nhất trong việc công cụ trực quan. Đừng định hình và “nắn bóp” các trình bày để nó “hỗ trợ tốt nhất” cho lập luận của bạn. Điều này có thể đạt được bằng cách trình bày biểu đồ/đồ thị theo nhiều cách khác nhau. Có thể bằng việc rút ngắn phạm vi (để cắt bỏ các điểm dữ liệu không phù hợp, ví dụ: chuỗi thời gian bắt đầu quá muộn hoặc kết thúc quá sớm) hoặc có thể điều chỉnh độ chia để các thay đổi nhỏ trông lớn hơn và ngược lại. Hơn nữa, đừng tí toáy với các tỷ lệ, dù ở trục tung hay trục hoành.



Các biểu đồ A, B và C đều sử dụng các điểm dữ liệu giống nhau, nhưng những câu chuyện mà chúng đang kể lại hoàn toàn khác nhau. Biểu đồ A cho thấy một mức tăng nhẹ, sau đó là một sự suy giảm chậm. Mặt khác, biểu đồ B cho thấy một bước nhảy vọt, với sự sụt giảm mạnh ngay sau đó. Ngược lại, biểu đồ C có vẻ cho thấy rằng hầu như không có sự thay đổi nào theo thời gian. Các biến thể này là sản phẩm của việc thay đổi độ chia của biểu đồ. Một cách để hạn chế vấn đề này là bổ sung các con số thực tế trong văn bản của bạn, bên cạnh các biểu đồ, với tinh thần không giấu diếm.
Một điểm đáng quan tâm khác có thể thấy trong biểu đồ D và E. Cả hai đều sử dụng dữ liệu giống như biểu đồ A, B và C cho những năm 1985-2000, nhưng chúng, với hai tập dữ liệu giả định, đã kéo mốc thời gian bắt đầu về tới 1965. Với các xu hướng khác nhau dẫn đến năm 1985, hãy xem các sự kiện gần đây có thể bị thay đổi đến mức nào. Ở biểu đồ D, xu hướng giảm từ 1990 đến 2000 đang đi ngược lại với xu hướng tăng dài hạn, trong khi với biểu đồ E, nó chỉ là sự tiếp tục của một xu hướng giảm sâu hơn sau đợt tăng ngắn hạn.


Một điểm khó khăn với công cụ trực quan là không có quy tắc cứng và nhanh chóng về việc cần sử dụng bao nhiêu và những gì cần loại trừ. Ta luôn phải sử dụng các phán đoán. Nói chung, hãy đảm bảo trình bày các công cụ trực quan của bạn để người đọc có thể tự rút ra kết luận từ các dẫn chứng và xác minh khẳng định của bạn. Nếu những gì bạn đã cắt bỏ có thể ảnh hưởng đến cách người đọc giải thích dữ liệu của bạn, thì có lẽ bạn cân nhắc giữ chúng lại.
4. Đặt tỉ lệ vào bối cảnh
Bởi vì tỷ lệ phần trăm luôn bắt nguồn từ một cơ số cụ thể, chúng sẽ vô nghĩa cho đến khi được liên kết với một cơ số. Vì vậy, ngay cả khi tôi nói với bạn rằng sau khi đọc tài liệu này, khả năng thuyết phục của bạn với tư cách là một tác giả sẽ tăng lên 23%, thì khẳng định đó không có nhiều ý nghĩa bởi vì bạn không biết nó dựa trên cái gì — thuyết phục hơn 23% so với cái gì?
Để xem cơ số hoạt động như thế nào, hãy thử nhìn vào tỷ lệ tội phạm. Giả sử chúng ta có hai thành phố, Springfield và Shelbyville. Ở Springfield, tỷ lệ giết người đã tăng 75%, trong khi ở Shelbyville, tỷ lệ chỉ tăng 10%. Thành phố nào đang có một vấn đề lớn hơn với tội phạm giết người? Chà, câu trả lời rất hiển nhiên, phải không? Đó phải là Springfield. Rốt cuộc, 75% lớn hơn 10%.
Chờ một chút, bởi vì điều này thực sự kém rõ ràng hơn nhiều so với vẻ ngoài của nó. Để thực sự biết vấn đề của thành phố nào tồi tệ hơn, chúng ta phải nhìn vào con số thực tế. Nếu tôi nói với bạn rằng Springfield có 4 vụ giết người vào năm ngoái và 7 vụ trong năm nay, và Shelbyville có 30 vụ giết người vào năm ngoái và 33 vụ giết người trong năm nay, bạn có thay đổi câu trả lời của mình không? Có lẽ, vì 33 vụ giết người nhiều hơn đáng kể so với 7, người ta chắc chắn sẽ cảm thấy an toàn hơn ở Springfield, phải không?
Đừng vội, bởi vì chúng ta vẫn chưa có tất cả các dữ kiện. Chúng tôi phải so sánh hai cơ số này dựa trên các tiêu chuẩn tương đương. Để làm được điều đó, chúng ta phải xem xét tỷ lệ bình quân đầu người (thường được tính theo tỷ lệ trên 100.000 người mỗi năm). Nếu Springfield có 700 cư dân trong khi Shelbyville có 3,3 triệu, thì Springfield có tỷ lệ giết người là 1.000 trên 100.000 người trong khi tỷ lệ của Shelbyville chỉ là 1 trên 100.000.
Tỷ lệ phần trăm thực sự không khác bất kỳ hình thức thống kê nào khác: chúng chỉ có ý nghĩa khi được đặt trong ngữ cảnh của chúng. Do đó, tỷ lệ phần trăm phải được trình bày theo ngữ cảnh để người đọc có thể tự rút ra kết luận khi bạn nhấn mạnh vào các dẫn chứng quan trọng đối với lập luận của mình. Hãy nhớ rằng, nếu số liệu thống kê của bạn thực sự hỗ trợ cho quan điểm của bạn, thì bạn không nên lo sợ về việc tiết lộ ngữ cảnh lớn hơn của chúng.
Một số câu hỏi quan trọng cần được hỏi (và giải đáp) về thống kê – Câu hỏi đang được hỏi có liên quan không? – Dữ liệu có đến từ các nguồn đáng tin cậy không? – Biên độ sai số/khoảng tin cậy — khi nào thì một thay đổi thực sự có ý nghĩa? – Tất cả dữ liệu đã được báo cáo, hay chỉ những phần tốt nhất/xấu nhất? – Dữ liệu có được trình bày trong ngữ cảnh không? – Dữ liệu đã được diễn giải chính xác chưa? – Tác giả có nhầm lẫn giữa tương quan với nhân quả không? |