THỰC TRẠNG TỒN ĐỌNG “NGHIÊN CỨU RÁC” TRONG CÁC TÀI LIỆU KHOA HỌC

Một nghiên cứu cho thấy, các nghiên cứu khoa học vô nghĩa tạo nên bởi một phần mềm máy tính vẫn tồn tại trong nguồn tài liệu khoa học hàng năm trời sau lần đầu tiên chúng bị phát hiện. Một số nhà xuất bản đã thông cáo với tạp chí Nature rằng họ sẽ gỡ bỏ các nghiên cứu, với số lượng thu hồi có thể lên tới hơn 200 bài báo. 

Vấn đề trên bắt đầu từ năm 2005, khi 3 nghiên cứu sinh sáng lập nên SCIgen – một phần mềm tạo lập nghiên cứu – chỉ để giải trí, và cũng để chứng minh rằng nhiều hội thảo chấp nhận cả những bài báo vô nghĩa. Phần mềm sẽ “chắp vá” từ ngữ để sản xuất hàng loạt những bài báo với những tiêu đề, nội dung, và đồ thị ngẫu nhiên – những bài báo “rác” dễ nhận thấy bởi người đọc. Bất cứ ai cũng có thể tải và sử dụng SCIgen miễn phí.

Tranh: Augusto Zambonato/Behance | CC BY-NC-ND 4.0

Đến năm 2012, nhà khoa học máy tính Cyril Labbé đã phát hiện 85 bài báo rác SCIgen xuất hiện trong các kỷ yếu hội thảo của Hội Kỹ Sư Điện và Điện Tử (IEEE); Ông tiếp tục tìm thấy hơn 120 bài báo khác của SCIgen được công bố bởi IEEE và Springer. Tác giả và lý do sản xuất chúng vẫn là một ẩn số. Các bài báo bị thu hồi hoặc tiêu hủy ngay sau đó – và Labbé đã thiết kế một website cho phép bất kỳ ai tra cứu bản thảo xem có phải là sản phẩm của SCIgen hay không. Springer cũng tài trợ một dự án tiến sĩ nhằm phát hiện các bài báo SCIgen, dẫn tới sự ra đời của phần mềm miễn phí SciDetect (Springer hiện là thành viên của Springer Nature; Đội ngũ tin tức của Nature hoạt động độc lập khỏi nhà xuất bản).

Labbé, làm việc ở Đại Học Grenoble Alpes tại Pháp, ban đầu tìm kiếm trong nguồn tài liệu các từ ngữ trùng với vốn từ của SCIgen. Tuy nhiên, ông và một nhà khoa học máy tính khác, Guillaume Cabanac tại Đại học Toulouse, Pháp, sớm nảy ra một ý tưởng mới: tìm kiếm các cụm ngữ pháp then chốt thường thấy trong các sản phẩm của SCIgen. Vào tháng 5 năm ngoái, ông và Cabanac đã tra soát hàng triệu bài báo tại hệ thống dữ liệu Dimensions để tìm kiếm các cụm ngữ pháp trên. 

Sau khi lọc tay nguồn dữ liệu, các nhà nghiên cứu nhận diện 243 bài báo vô nghĩa được thiết kế một phần hoặc toàn phần bởi SCIgen. Kết quả này được họ báo cáo trong một nghiên cứu công bố ngày 26 tháng 5. Những bài báo này, xuất bản từ năm 2008 đến 2020 và hầu hết trong lĩnh vực khoa học máy tính, đã xuất hiện trên nhiều tạp chí, kỷ yếu hội nghị và các trang web lưu giữ nghiên cứu chưa qua bình duyệt. Một số xuất hiện trong các tạp chí truy cập mở; số khác yêu cầu tính phí. Bốn mươi sáu bài trong số đó đã được thu hồi hoặc bị gỡ bỏ khỏi các trang web nơi chúng xuất hiện lần đầu tiên.

Kể từ năm ngoái, các nhà nghiên cứu đã phát hiện thêm 20 bài báo khác, bao gồm các bài báo rác đến từ MATHgen (phần mềm tạo ra các bài báo toán học) và trình tạo đề xuất SBIR (tạo ra các đề xuất tài trợ vô nghĩa). Cabanac và Labbé đã đăng một số phát hiện của họ trên Twitter và trang web PubPeer cũng như đang trong quá trình công bố toàn bộ kết quả trực tuyến.

Đánh bóng CV

Tác giả của hầu hết loạt báo SCIgen gần đây là các nhà nghiên cứu đến từ Trung Quốc (64%) hoặc Ấn Độ (22%), mặc dù Labbé lưu ý rằng các bản thảo có thể được gửi dưới danh nghĩa của bất kỳ ai. Một tác giả của một số  bài báo nói với Labbé và Cabanac rằng anh ta đã gửi chúng như một trò đùa. Tuy nhiên, các bản thảo khác lại được chỉnh sửa với mục lục tham khảo trông rất chân thực, cho thấy chúng rất có thể được sản xuất nhằm “thổi phồng” số lượng trích dẫn của các nhà khoa học. Theo Labbé, “phần lớn bài báo được tạo ra để đánh bóng CV nhằm đáp ứng nhu cầu xuất bản khoa học.” 

Các nhà nghiên cứu chỉ tìm thấy hai bài báo SCIgen chưa được thu hồi bởi IEEE – và hai bài báo này cũng đang bị rà soát lại – và một ấn bản trên Springer bao gồm một phần văn bản MATHgen. Tuy nhiên, các nhà xuất bản khác lại không được may mắn đến vậy. IOP Publishing, một công ty con của Viện Vật lý có trụ sở tại London, cho biết họ đã rút lại mười bài báo “vì có bằng chứng rõ ràng rằng chúng đã được tạo ra bằng máy tính” và đang điều tra lý do chúng không bị phát hiện trong quá trình phản biện đồng nghiệp tại hội nghị nơi chúng được chấp nhận. Kim Eggleton, người quản lý tính toàn vẹn và chất lượng dữ liệu của nhà xuất bản cho biết: “Chúng tôi có đầy đủ bằng chứng cho thấy sự xâm phạm trong quy trình đánh giá đồng nghiệp đối với một số nghiên cứu trên.” 

Các nhà xuất bản đăng tải nhiều sản phẩm SCIgen nhất là Trans Tech Publications, một nhà xuất bản Thụy Sĩ đã xuất bản 57 bài báo SCIgen; Blue Eyes Intelligence Engineering and Sciences Publication (BEIESP), có trụ sở tại Ấn Độ, với 54 bài; và Atlantis Press, một nhà xuất bản của Pháp đã được Springer Nature mua lại vào tháng 3 năm nay, với 39 bài. Cả Trans Tech Publications và Atlantis đều thông báo với Nature rằng họ đang trong quá trình điều tra và  thu hồi các bài báo, nhưng phát ngôn viên của BEIESP cho biết họ chỉ xuất bản những nghiên cứu có nội dung gốc đã vượt qua quy trình phản biện đồng nghiệp “mù đôi” và hệ thống kiểm tra đạo văn.

Theo một nghiên cứu, máy chủ vô cùng phổ biến SSRN, nơi các bài báo được chia sẻ trước quá trình bình duyệt đồng đẳng, đã xuất bản 16 sản phẩm của SCIgen. Người phát ngôn của SSRN cho biết họ đang điều tra vấn đề này và lưu ý rằng họ đã cung cấp các cơ chế “sàng lọc hạn chế” cho các ấn phẩm tiền xuất bản (đi kèm với “sàng lọc nâng cao” cho các bản thảo liên quan tới lĩnh vực chăm sóc sức khỏe).

Cabanac quan ngại trước cơ chế không minh bạch trong cách một số nhà xuất bản xử lý các bài báo “rác” này. Ví dụ như IEEE đã gỡ bỏ một số các tài liệu SCIgen khỏi trang web của mình, nhưng vẫn giữ lại số khác chỉ với thông báo thu hồi. Cabanac cũng lưu ý rằng các tài liệu nghiên cứu chính thống – hoặc các phiên bản trước đó của chúng – đôi khi biến mất khỏi máy chủ SSRN mà không có một cơ chế ghi nhận thay đổi nào. 

Người phát ngôn của IEEE nói rằng chính sách của họ về việc loại bỏ hoặc thu hồi một bài báo còn “phụ thuộc vào kết quả đánh giá”; SSRN không đưa ra bất kì phát ngôn nào về chính sách trong thu hồi hoặc tiêu huỷ ấn phẩm. 

Các sản phẩm của SCIgen cũng không còn lại nhiều: Labbé và Cabanac ước tính rằng chúng chỉ chiếm 75 trên một triệu bài trong nguồn tài liệu khoa học máy tính. Đây là vấn đề nhỏ hơn rất nhiều so với, lấy làm ví dụ, những xưởng sản xuất bài báo khả nghi – nơi tạo ra các nghiên cứu giả cho giới học thuật – mánh khóe mà Labbé và Cabanac cũng góp phần lật tẩy. 

Tuy nhiên, theo Labbé, sự tồn tại của những nghiên cứu SCIgen là dấu hiệu cho thấy tác hại của văn hóa ‘xuất bản hoặc lụi tàn’, là một ví dụ về cách mà các nghiên cứu vô nghĩa vẫn có thể được chấp thuận vào kỷ yếu hội nghị hoặc tạp chí, và là “những thứ không bao giờ nên xuất hiện trong dữ liệu khoa học.” 

Nhật Quang dịch

Nguồn

Richard Van Noorden (May 28, 2021). Hundreds of gibberish papers still lurk in the scientific literature. Nature

Leave A Comment