CÁC “CỤM TỪ BIẾN DẠNG” GIÚP NGỤY TRANG ĐẠO VĂN TRONG CÁC NGHIÊN CỨU GIẢ MẠO

Tháng Tư năm 2021, một loạt các cụm từ kỳ lạ trong các tạp chí khoa học đã thu hút sự quan tâm của một nhóm các nhà khoa học máy tính. Các nhà nghiên cứu này không thể hiểu được tại sao các tác giả lại sử dụng những cụm từ như “counterfeit consciousness” (ý thức giả mạo), “profound neural organization” (tổ chức thần kinh sâu) và “colossal information” (thông tin khổng  lồ) thay cho những thuật ngữ đã được sử dụng rộng rãi như  “artificial intelligence” (trí tuệ nhân tạo), “deep neural network” (mạng lưới thần kinh sâu) and “big data” (dữ liệu lớn).

Tranh: Simone Altamura/Behance | CC BY-NC-ND 4.0

Những điều tra sâu hơn về các cụm từ kỳ lạ này – mà họ gọi bằng cái tên “các cụm từ biến dạng” (tortured phrases) – cho thấy đây có thể là thành phẩm của các phần mềm dịch thuật tự động có mục đích ngụy trang cho việc đạo văn. Và tình trạng này có vẻ như đang hoành hành trong lĩnh vực khoa học máy tính. 

Trong bài preprint đăng tải trên arXiv vào ngày 12 tháng 7 vừa rồi, nhóm nghiên cứu của Cabanac và các đồng nghiệp nhận định rằng phát hiện này của họ chỉ là phần nổi của một tảng băng chìm. Để ước lượng số bài báo đã bị ảnh hưởng, các nhà nghiên cứu đã tiến hành tìm kiếm các cụm từ biến dạng trong các tạp chí khoa học được chỉ mục ở cơ sở dữ liệu Dimensions. Họ tìm thấy hơn 860 công bố có bao gồm ít nhất 1 trong số các cụm từ biến dạng, và có tới 31 công bố như vậy được tìm thấy trong tạp chí: Microprocessors and Microsystems.

Nhóm nghiên cứu đặt ra nghi vấn rằng các cụm từ này là sản phẩm của một phần mềm dịch thuật tự động, do đó họ đã sử dụng một công cụ để xem xét một loạt các bản tóm tắt (abstract) trên các tạp chí này để kiểm tra xem liệu có phải chúng được tạo ra bởi công cụ trí tuệ nhân tạo GPT hay không. Họ nhận thấy rất nhiều lỗi nghiêm trọng khác trong các bài báo đăng tải trên tạp chí Microprocessors and Microsystems như các đoạn văn không có nghĩa, các đoạn văn và hình ảnh có dấu hiệu đạo văn. 

Để tìm hiểu sâu hơn, nhóm nghiên cứu đã tải về tất cả các bài báo được công bố trên tạp chí này trong khoảng từ 2018 – 2021, khoảng thời gian mà phiên bản nâng cấp của GPT được ra mắt. Cabanac và các đồng nghiệp đã nhận diện được khoảng 500 bài báo nghi vấn. Các phân tích cho thấy những bài báo được công bố sau tháng Hai năm 2021 có thời gian chấp nhận nhanh hơn 5 lần so với các bài báo được chấp nhận trước đó. Một tỉ lệ lớn các bài báo này đến từ các tác giả Trung Quốc. Thậm chí có một nhóm các bài báo có ngày nộp, chỉnh sửa và chấp nhận giống y hệt nhau, phần lớn cùng thuộc một số đặc biệt. 

Cuộc điều tra tập trung vào các số đặc biệt (special issue)

Trong khoảng thời gian mà Cabanac và các đồng nghiệp bắt đầu tìm hiểu về các cụm từ biến dạng, biên tập viên của tạp chí Microprocessors and Microsystems cũng bắt đầu có các quan ngại về tính liêm chính và nghiêm ngặt về hoạt động phản biện đồng nghiệp của một số các số đặc biệt của tạp chí.

Elsevier, nhà xuất bản của tạp chí đã tiến hành một cuộc điều tra. Cuộc điều tra này vẫn chưa đi tới hồi kết, nhưng giữa tháng 7 vừa rồi, nhà xuất bản đã đưa ra văn bản quan ngại đối với hơn 400 bài báo xuất hiện trên 6 số đặc biệt của tạp chí. 

Nhà xuất bản cho biết thêm rằng một “lỗi cấu hình trong hệ thống biên tập” tại tạp chí có nghĩa là cả tổng biên tập và biên tập viên được chỉ định xử lý các bài báo đều không nhận được chúng để phê duyệt như lẽ ra phải có. Thông báo cho biết: “Lỗi cấu hình này là sự cố tạm thời do di chuyển hệ thống và đã được khắc phục ngay sau khi nó được phát hiện.”

Một phát ngôn viên của Elsevier nói với Nature trong một tuyên bố rằng cuộc điều tra trên tạp chí Microprocessors and Microsystems đã phát hiện ra rằng các tác giả có thể đã sử dụng phần mềm dịch ngược để ngụy tạo hành vi đạo văn và đây có thể là nguồn gốc của các cụm từ biến dạng.

Cuộc điều tra cũng tiết lộ rằng 49 bài báo bị Cabanac và các đồng nghiệp đánh dấu đáng ngờ và được xuất bản trong các số tiêu chuẩn của tạp chí ban đầu vốn được nộp cho các số đặc biệt của tạp chí và được chấp nhận bởi các biên tập viên, “nhưng sau đó chúng lại đã được xuất bản trên các số báo bình thường theo “yêu cầu” của các tác giả”.

Elisabeth Bik, một nhà phân tích nghiên cứu về tính toàn vẹn ở California được biết đến với kỹ năng phát hiện các hình ảnh trùng lặp trong các bài báo khoa học, nói rằng những phát hiện trong nghiên cứu của Cabanac là vô cùng “gây sốc”. “Đây là một loại giả mạo nghiên cứu mới và đáng lo ngại,” cô nói thêm.

Jennifer Byrne, một nhà nghiên cứu ung thư học phân tử tại Đại học Sydney, Australia, người cũng làm công việc phát hiện các bài báo giả mạo, nói rằng đây có lẽ là chỉ là phần nổi của tảng băng chìm vì các nhà nghiên cứu chỉ xem xét chuyên sâu một tạp chí từ một nhà xuất bản. Byrne cho rằng còn rất nhiều bài báo được ra bởi AI khác khó phát hiện hơn nhiều bởi những trường hợp được phát hiện đều là những nghiên cứu có chất lượng rất thấp.

Linh Chi lược dịch

Nguồn

Holly Else. (August 5th, 2021). ‘Tortured phrases’ give away fabricated research papers. Nature.

Leave A Comment