fbpx

MỘT VÀI LỖI THỐNG KÊ THÔNG THƯỜNG CẦN LƯU Ý KHI VIẾT HOẶC ĐỌC DUYỆT BẢN THẢO

Lấy cảm hứng từ những nỗ lực lớn nhằm làm cho các kết luận của nghiên cứu khoa học trở nên chắc chắn hơn, hai tác giả Tamar R. Makin (biên tập viên của eLife; hiện đang công tác tại Viện Khoa học thần kinh Nhận thức, Đại học London, Anh) và Jean-Jacques Orban de Xivry (Nhóm nghiên cứu Kiểm soát chuyển động và Khả biến thần kinh, Khoa Khoa học Chuyển động; Viện Não bộ Leuven, Bỉ) đã biên soạn danh sách một số lỗi thống kê phổ biến nhất xuất hiện trong các tài liệu khoa học. Những lỗi này bắt nguồn từ việc thiết kế nghiên cứu không hiệu quả, sử dụng các phương pháp phân tích không phù hợp và/hoặc mắc lỗi lập luận. Dưới đây là một số gợi ý hai tác giả đưa ra giúp các tác giả, người phản biện và độc giả có thể xác định và xử lý các lỗi này và tránh không lặp lại chúng.

Tương quan giả

Nhận diện vấn đề

Tương quan (correlation) là một công cụ quan trọng trong khoa học để đánh giá mức độ liên hệ giữa hai biến số. Tuy nhiên, việc sử dụng các tương quan tham số, chẳng hạn như tham số R của Pearson cần dựa trên một tập hợp các giả định. Điều này là quan trọng bởi việc vi phạm các giả định có thể tạo ra các tương quan giả. Tương quan giả thường phát sinh nhiều nhất khi có một hoặc nhiều dữ liệu ngoại lai (outlier) xuất hiện đối với một trong hai biến. Như được minh họa ở hàng trên cùng của Hình 1, một giá trị đơn lẻ nằm ngoài đường phân phối có thể làm tăng hệ số tương quan (correlation coefficient). Tương quan giả cũng có thể phát sinh từ các cụm, ví dụ: nếu dữ liệu từ hai nhóm được gộp lại với nhau khi hai nhóm khác nhau về hai biến đó (như minh họa trong hàng dưới cùng của Hình 1).

Hình 1. Các tương quan giả: tác động của điểm ngoại lai đơn và của các nhóm lên hệ số tương quan Pearson

Điều quan trọng cần lưu ý là một giá trị ngoại lai rất có thể cung cấp một quan sát chân thực tuân theo quy luật của hiện tượng mà bạn đang cố gắng khám phá, nói cách khác – bản thân sự quan sát không nhất thiết là giả mạo. Do đó, việc loại bỏ các điểm dữ liệu “cực trị” này cũng cần được xem xét hết sức thận trọng. Nhưng nếu quan sát thực sự này có nguy cơ vi phạm các giả định trong kiểm định thống kê của bạn, thì nó sẽ trở thành một “thực tế không chính thức” (de facto) và do đó sẽ cần  một công cụ thống kê khác để xử lý.

Cách phát hiện lỗi

Người phản biện cần đặc biệt chú ý đến các tương quan được đưa ra nhưng không đi kèm với biểu đồ phân tán (scatterplot) và trong trường hợp tác giả quyết đỉnh bỏ các điểm ngoại lai thì họ có lý giải cho việc đó hay không. Ngoài ra, người phản biện cần khẳng định được sự khác biệt giữa các nhóm hoặc giữa các điều kiện được tính đến khi dữ liệu được tổng hợp lại với nhau.

Giải pháp cho các nhà nghiên cứu

Các phương pháp tương quan mạnh mẽ (ví dụ: lấy mẫu lại – bootstrapping, sàng lọc dữ liệu – data winsorizing, tương quan nhảy – skipped correlation) nên được ưu tiên trong hầu hết các trường hợp vì chúng ít nhạy cảm với các giá trị ngoại lai (Salibian-Barrera và Zamar, 2002). Điều này là do các kiểm định này có xem xét đến cấu trúc của dữ liệu (Wilcox, 2016). Khi sử dụng thống kê tham số, dữ liệu cần được sàng lọc để xem có vi phạm các giả định chính không, chẳng hạn như tính độc lập của các điểm dữ liệu, cũng như sự hiện diện của các giá trị ngoại lai.

Tài liệu đọc thêm

Những người quan tâm có thể đọc thêm về vấn đề này tại: Rousselet GA, Pernet CR (2012). Improving standards in brain-behavior correlation analyses. Frontiers in Human Neuroscience 6:119. https://doi.org/10.3389/fnhum.2012.00119

Diễn giải quá mức các kết quả không quan trọng

Nhận diện vấn đề

Khi sử dụng thống kê tần suất, các nhà khoa học áp dụng một ngưỡng thống kê (thường là alpha = 0,05) để tính ý nghĩa thống kê. Nhiều bài viết đã được viết về mức độ tùy tiện của ngưỡng này (Wasserstein và cộng sự, 2019) và các giải pháp thay thế đã được đề xuất (ví dụ: Colquhoun, 2014; Lakens và cộng sự, 2018; Benjamin và cộng sự, 2018). Ngoài những vấn đề đó, việc diễn giải sai kết quả của một kiểm định thống kê khi kết quả là không có ý nghĩa (non-significance) cũng là một vấn đề nghiêm trọng nhưng cực kỳ phổ biến. Điều này là do giá trị p không có ý nghĩa là không khác biệt giữa việc thiếu tác động do tác động là không có một cách khách quan (bằng chứng mâu thuẫn với giả thuyết) hoặc do dữ liệu không nhạy để cho phép các nhà nghiên cứu đánh giá các dự đoán một cách chặt chẽ (ví dụ: do thiếu sức mạnh thống kê, thiết kế thử nghiệm không phù hợp, v.v.). Nói một cách đơn giản – các tác động non-significance có thể có nghĩa đen rất khác nhau – một kết quả rỗng (null result) thực sự, một tác động thực sự kém hiệu quả hoặc một tác động không rõ ràng (xem ví dụ như Altman và Bland, 1995). Do đó, nếu các nhà nghiên cứu muốn giải thích một kết quả non-significance như một bằng chứng hỗ trợ phủ định giả thuyết, họ cần chứng minh rằng bằng chứng này có ý nghĩa. Bản thân giá trị p không đủ cho mục đích này. Sự nhầm lẫn này cũng có nghĩa là đôi khi các nhà nghiên cứu có thể bỏ qua một kết quả không đáp ứng ngưỡng p≤0,05, cho rằng nó là vô nghĩa trong khi thực tế nó cung cấp đầy đủ bằng chứng phủ định giả thuyết hoặc ít nhất là bằng chứng sơ bộ cần được chú ý thêm.

Cách phát hiện lỗi

Các nhà nghiên cứu có thể giải thích hoặc mô tả một giá trị p không có ý nghĩa để chỉ ra rằng không có tác động. Lỗi này rất phổ biến và cần được ghi nhận là có vấn đề.

Giải pháp cho các nhà nghiên cứu

Bước đầu tiên quan trọng là báo cáo hệ số ảnh hưởng (effect sizes) cùng với giá trị p để cung cấp thông tin về cường độ của tác động (Sullivan và Feinn, 2012), điều này cũng quan trọng đối với bất kỳ phân tích tổng hợp (meta-analyse) nào trong tương lai (Lakens, 2013; Weissgerber et al., 2018). Ví dụ, nếu một tác động non-significance trong một nghiên cứu với cỡ mẫu lớn cũng có độ lớn rất nhỏ, thì nó khó có ý nghĩa về mặt lý thuyết trong khi một tác động có cỡ ảnh hưởng vừa phải có thể đảm bảo nghiên cứu sâu thêm (Fethney, 2010). Khi có thể, các nhà nghiên cứu nên xem xét sử dụng các tiếp cận thống kê có khả năng phân biệt giữa bằng chứng không đầy đủ (hoặc không rõ ràng) và bằng chứng hỗ trợ giả thuyết không (null hypothesis) (ví dụ: thống kê Bayes; [Dienes, 2014] hoặc các phép thử tương đương [Lakens, 2017]). Ngoài ra, các nhà nghiên cứu có thể xác định trước xem liệu mình có đủ năng lực để xác định tác động mong muốn hay để xác định xem khoảng tin cậy (confidence intervals) của tác động trước này có chứa giá trị không (Dienes, 2014). Nếu không, các nhà nghiên cứu không nên diễn giải quá mức các kết quả non-significance và chỉ mô tả chúng là không có ý nghĩa.

Tài liệu đọc thêm

Những người quan tâm có thể đọc thêm về vấn đề này tại: 

Dienes Z (2014). Using Bayes to get the most out of non-significant results Frontiers in Psychology 5:781. https://doi.org/10.3389/fpsyg.2014.00781.

Tương quan và nhân quả

Nhận diện vấn đề

Đây có lẽ là lỗi lâu đời nhất và phổ biến nhất được thực hiện khi diễn giải kết quả thống kê (ví dụ: xem Schellenberg, 2019). Trong khoa học, các mối tương quan thường được sử dụng để khám phá mối quan hệ giữa hai biến số. Khi hai biến được phát hiện có tương quan đáng kể, người ta thường dễ cho rằng một biến là nguyên nhân của biến kia. Tuy nhiên, điều này không chính xác. Chỉ vì sự biến thiên của hai biến số dường như cùng xảy ra một cách tuyến tính không nhất thiết có nghĩa là có mối quan hệ nhân quả giữa chúng, ngay cả khi mối liên hệ như vậy là hợp lý. Ví dụ, mối tương quan có ý nghĩa quan sát được giữa lượng tiêu thụ sôcôla hàng năm và số người đoạt giải Nobel ở các quốc gia khác nhau (r (20) =. 79; p <0,001) đã dẫn đến gợi ý (không chính xác) rằng lượng sôcôla cung cấp nguồn dinh dưỡng cho việc “nảy mầm” những người đoạt giải Nobel (Maurage và cộng sự, 2013). Tương quan đơn độc không thể được sử dụng làm bằng chứng cho mối quan hệ nguyên nhân – kết quả. Các sự kiện có liên quan có thể phản ánh quan hệ nhân quả trực tiếp hoặc ngược lại, nhưng cũng có thể là do một nguyên nhân chung (chưa rõ), hoặc chúng có thể là kết quả của một sự trùng hợp đơn giản.

Cách phát hiện lỗi

Bất cứ khi nào nhà nghiên cứu báo cáo mối liên quan giữa hai hoặc nhiều biến không phải do thao tác và sử dụng ngôn ngữ nhân quả, chúng rất có thể là gây nhầm lẫn về mối tương quan và nhân quả. Các nhà nghiên cứu chỉ nên sử dụng ngôn ngữ nhân quả khi một biến được thao tác chính xác và ngay cả khi đó, họ cũng nên thận trọng về vai trò của các biến thứ ba hoặc các yếu tố gây nhiễu.

Giải pháp cho các nhà nghiên cứu

Nếu có thể, các nhà nghiên cứu nên cố gắng khám phá mối quan hệ với biến thứ ba để hỗ trợ thêm cho việc giải thích của họ, ví dụ: sử dụng mô hình phân cấp hoặc phân tích biến trung gian (nhưng chỉ khi nhà nghiên cứu có đủ năng lực phân tích thống kê), bằng cách thử nghiệm các mô hình cạnh tranh hoặc bằng cách thao tác trực tiếp biến quan tâm trong một thử nghiệm ngẫu nhiên có đối chứng (Pearl, 2009). Nếu không, nên tránh sử dụng ngôn ngữ nhân quả khi các bằng chứng có mối tương quan.

Tài liệu đọc thêm

Những người quan tâm có thể đọc thêm về vấn đề này tại: 

Pearl J (2009). Causal inference in statistics: An overview Statistics Surveys 3:96–146. https://doi.org/10.1214/09-SS057

Không có nhóm/ các điều kiện đối chứng phù hợp

Nhận diện vấn đề

Đo lường kết quả tại nhiều thời điểm là một phương pháp phổ biến trong khoa học để đánh giá hiệu quả của một can thiệp. Ví dụ, khi đánh giá hiệu quả của một chương trình đào tạo, người ta thường xem xét những thay đổi trong hành vi hoặc đo lường tâm sinh lý. Tuy nhiên, thực tế, những thay đổi có thể phát sinh do các yếu tố khác của nghiên cứu mà không liên quan trực tiếp đến quá trình can thiệp/đào tạo. Việc cho nhóm khách thể thực hiện lại tác vụ tương tự nhưng không trải qua quá trình can thiệp/đào tạo lại có thể vướng phải một số vấn đề khác như: người tham gia đã trở nên quen với môi trường thử nghiệm hoặc do những thay đổi khác liên quan đến thời gian. Do đó, đối với bất kỳ nghiên cứu nào xem xét tác động của một can thiệp nào đó lên một biến số theo thời gian, điều quan trọng là phải so sánh ảnh hưởng của quá trình can thiệp thực nghiệm này với một nhóm đối chứng khác.

Đôi khi một nghiên cứu có sử dụng nhóm/điều kiện đối chứng trong nghiên cứu nhưng lại thiết kế nhóm/điều kiện này một cách không đầy đủ. Ví dụ, nhóm đối chứng không nhận được một can thiệp “giả” hoặc những người tham gia thực nghiệm biết trước kết quả mong đợi của can thiệp sẽ góp phần làm sai lệch hệ số ảnh hưởng (effect sizes). Các sai lệch phổ biến khác có thể xuất hiện từ việc sử dụng nhóm đối chứng nhỏ, không đủ để lần theo dấu vết và phát hiện các thay đổi (xem hình bên dưới) hoặc nhóm đối chứng với các thang đo cơ bản khác (với thanh đo của nhóm thực nghiệm), dẫn đến các tương tác giả (Van Breukelen, 2006). Điều quan trọng nữa là nhóm đối chứng và nhóm thực nghiệm được lấy mẫu đồng thời và phân bổ ngẫu nhiên, để giảm thiểu mọi sai lệch. Về mặt lý tưởng, can thiệp đối chứng phải giống với can thiệp thử nghiệm về mặt thiết kế và sức mạnh kiểm định thống kê và chỉ khác về biến số hoặc chiều cạnh được can thiệp. Khi làm như vậy, các nhà nghiên cứu sẽ đảm bảo rằng tác động của can thiệp lên biến được theo dõi sẽ lớn hơn so với sự thay đổi theo thời gian vốn không được tính đến trong quá trình can thiệp đã được thiết kế. Do đó, người phản biện phải luôn yêu cầu các kiểm chứng khi một biến được so sánh theo thời gian.

Cách phát hiện lỗi

Các kết luận được rút ra trên cơ sở dữ liệu của một nhóm đơn lẻ, không có các điều kiện đối chứng đầy đủ. Điều kiện/nhóm đối chứng không giải thích được các đặc trưng chính của nhiệm vụ nằm trong quá trình can thiệp.

Giải pháp cho các nhà nghiên cứu

Nếu thiết kế thử nghiệm không cho phép tách biệt ảnh hưởng của thời gian khỏi ảnh hưởng của các can thiệp, thì các kết luận về tác động của can thiệp phải được trình bày dưới dạng tác động dự kiến.

Tài liệu đọc thêm

Những người quan tâm có thể đọc thêm về vấn đề này tại: Knapp TR (2016), Why is the one-group pretest-posttest design still used? Clinical Nursing Research 25:467–472. https://doi.org/10.1177/1054773816666280

Ngô Thị Thanh Tùng dịch

Nguồn

Makin, T. R., & de Xivry, J. J. O. (2019). Science forum: Ten common statistical mistakes to watch out for when writing or reviewing a manuscript. Elife8, e48175.

error: Content is protected !!

Để lại thông tin để nhận tư vấn