fbpx

BỊ NHẤN CHÌM TRONG TÀI LIỆU VỀ COVID-19: LIỆU NHỮNG CÔNG CỤ MỚI CÓ HỖ TRỢ ĐƯỢC CÁC NHÀ NGHIÊN CỨU?

Timothy Sheahan, nhà virus học nghiên cứu về COVID-19, chia sẻ mong muốn về việc có thể bắt kịp được những thông tin khoa học mới về dịch bệnh và chủng virus mới này. Nhưng những thông tin cứ liên tục tràn đến với tốc độ chóng mặt, đối với Sheahan, dường như đó là một việc bất khả thi. 

Tình hình ngày càng trở nên cấp bách: Ước tính số lượng tài liệu về COVID-19 được xuất bản trong nửa đầu năm nay đã lên đến con số 23000 và đang tăng gấp đôi mỗi 20 ngày. Điều này đang tạo nên sự bùng nổ tài liệu khoa học lớn nhất từ trước đến nay. Với khối lượng đó, Kate Grabowski, nhà nghiên cứu bệnh truyền nhiễm tại Đại học John Hopkins, nhận định rằng “Mọi người không có đủ thời gian để đọc hết các bài nghiên cứu để tìm ra các con số và điểm mấu chốt, cũng như xem xét những hạn chế của các nghiên cứu.”

Tranh: Alejandro Ovalles/Behance | CC BY-NC-ND 4.0

Một đội ngũ các nhà khoa học, nhà phát triển phần mềm và nhà xuất bản đang nỗ lực để cải thiện tình hình này. Cùng với sự ủng hộ bởi các công ty công nghệ và Nhà trắng, họ đang cố gắng xây dựng một kho dự trữ mà trong đó bao gồm hàng nghìn tài liệu có thể hỗ trợ cho việc ngăn chặn dịch bệnh. Bên cạnh đó họ cũng đang phát triển những công cụ tìm kiếm và khai thác thông tin để giúp những nhà khoa học có thể tra cứu thông tin một cách nhanh chóng hơn. 

Ở thời điểm này, vẫn chưa ai tính toán được lợi ích mà những nỗ lực để hỗ trợ này mang lại, nhiều trong số chúng mới chỉ được khởi động trong vài tuần. Chẳng hạn như một dự án toàn cầu đã cố thuyết phục các nhà xuất bản cho phép bình duyệt và đăng tải các bài báo liên quan đến COVID-19 một cách nhanh chóng và miễn phí. Tuy nhiên nó đã gặp một số trở ngại và khoảng 20% đến 50% các bài báo vẫn yêu cầu mọi người trả tiền để có thể truy cập. 

Ngoài ra, một số công cụ tìm kiếm mới không được nhiều người biết đến trừ những người đã tạo ra nó. Sheahan đã không hề biết về sự tồn tại của những thuật toán tìm kiếm thông tin được đưa ra gần đây. Một số công cụ khác thì lại không có giao diện thân thiện với người dùng. 

Những phương pháp hỗ trợ trên đều dựa trên hai chiến lược cơ bản: tạo nên các kho dữ liệu có thể dễ dàng truy cập và xây dựng những công cụ sử dụng trí tuệ nhân tạo (AI) để làm cho việc tìm kiếm trở nên chính xác và cụ thể hơn..

Nhiều nhà khoa học vẫn đang ngờ vực rằng liệu những công cụ tìm kiếm này có đem về cho họ những thông tin họ cần? Liệu những công cụ này thực sự có tác dụng?

Kho dữ liệu khổng lồ

Những nỗ lực trong việc tạo ra những kho dữ liệu về COVID-19 đã nhận được trợ giúp từ văn phòng khoa học công nghệ thuộc Nhà Trắng. Họ làm việc với các nhà xuất bản và công ty công nghệ để vận hành CORD-19 – được coi như là cơ sở dữ liệu về COVID-19 lớn nhất cho đến nay. Trong đó, bao gồm hơn 59.000 bài báo đã xuất bản và preprint, bao gồm cả những bài viết về chủng virus corona từ những năm 1950.

Một số tổ chức chuyên về công nghệ đã tham gia vào công cuộc này. Google, quỹ Chan Zuckerberg Initiative và Viện nghiên cứu AI Allen hợp tác với Viện sức khỏe quốc gia cùng một số tổ chức khác để tìm kiếm và thu thập những bài viết bằng các phương pháp dựa vào các từ khóa chính của tài liệu để tìm các thuật ngữ và văn bản liên quan, trong đó có phương pháp xử lí ngôn ngữ tự nhiên (Natural Language Processing – NLP). 

Bên cạnh đó, những người tham gia còn chuyển các file PDF thành các dạng có thể đọc được bởi các thuật toán. Những nhà sáng lập mong đợi CORD-19 không chỉ giúp nhà khoa học tìm kiếm thông tin mà còn rút ra được những khám phá mới từ những thông tin đó.

Giovanni Colavizza, nhà thư mục lượng tại Đại học Amsterdam, gọi việc sáng lập CORD-19 là “việc làm tuyệt vời”. Nhưng những phân tích của ông và cộng sự cũng đã chỉ ra những điểm hạn chế. Ví dụ, hơn 60% bài viết của CORD-19 không đề cập đến các thuật ngữ mà nhà sáng lập đã cài đặt cho hệ thống – như “corona virus” và “SARS-CoV” hay chủng virut đã trực tiếp gây nên dịch bệnh – trong tiêu đề, tóm tắt hay cả những từ khóa. Điều này có nghĩa rằng những bài viết này không thực sự liên quan đến COVID-19. Thêm vào đó, nhóm nghiên cứu cũng tìm ra rằng chỉ 40.000 bài viết trong hệ thống là có bản toàn văn, điều này là quan trọng cho việc khai thác thông tin một cách toàn diện.

Một vấn đề khác là không phải tất cả các bài báo đều miễn phí. Để đáp lại lời kêu gọi kêu gọi từ các nhà tài trợ nghiên cứu và các cố vấn khoa học của chính phủ, các nhà khoa học đều hứa hẹn rằng những văn bản liên quan đến dịch bệnh đều sẽ được cấp quyền truy cập mở. 

Tuy vậy, một nghiên cứu gần đây chỉ ra 20% những bài viết được xuất bản trong năm nay vẫn yêu cầu trả phí. Và số những bài viết yêu cầu trả phí đang tăng nhanh hơn số được miễn phí. Những nhà nghiên cứu ước tính, việc này có thể gây khó khăn cho việc khai thác và tiếp cận thông tin của các nhà khoa học.

Chất lượng, không phải số lượng

Ở Đại học Johns Hopkins, nhóm nghiên cứu của Grabowski đang cố gắng thử một cách tiếp cận khác để tạo nên một tuyển tập các bài viết về COVID-19, tập trung vào chất lượng hơn số lượng. 

Trong nỗ lực để tạo nên 2019 Novel Coronavirus Research Compendium, một kho dữ liệu trực tuyến đã đi vào hoạt động từ ngày 17 tháng 4, 40 nhà khoa học đã nghiên cứu, chọn lọc và tóm tắt hơn 80 tài liệu tới từ 8 đề tài khác nhau mà họ cho là liên quan đến dịch bệnh, bao gồm vắc xin và các nghiên cứu thuốc. Đối tượng độc giả được hướng đến chủ yếu là nhân viên chăm sóc sức khỏe, các nhà hoạch định chính sách và các nhà nghiên cứu. 

Grabowski cho biết: “Chúng tôi đang cố gắng vá lỗ hổng mà chúng tôi đã tìm ra bởi vì có quá nhiều thông tin, nhưng nhiều nghiên cứu đã không được thực hiện chặt chẽ.” Nhóm nghiên cứu đã loại hầu hết các bài báo vì chúng chỉ chứa những lời bình luận, những mô hình nghiên cứu kém chất lượng, hoặc chứa những chứng cứ không kèm phát hiện chính gốc, Grabowski chia sẻ thêm.

Lo ngại về chất lượng ngày càng tăng khi mà một số nhà khoa học đã đăng tải những bài preprint chưa được phản biện để đưa những nghiên cứu của họ đến với cộng đồng nhanh hơn. Trái với nhận định của mọi người rằng preprint chỉ chiếm một phần nhỏ, theo như một nghiên cứu được thực hiện bởi nhóm của Robinson-Garcia, đến 14 tháng 4, khoảng 80% của hơn 11.000 bản thảo được đăng lên những tạp chí uy tín mà nghiên cứu này kiểm tra, đã xuất hiện trước đó dưới dạng các preprint.

Bên cạnh đó, con số trên cũng cho thấy nỗ lực của các nhà xuất bản trong việc đẩy nhanh việc phản biện các bài báo và quá trình xuất bản. Theo như nghiên cứu của Serge Horbach đến từ Đại học Radboud, từ lúc dịch bệnh bắt đầu diễn ra, một bài báo mất trung bình khoảng 60 ngày cho quá trình từ nộp bài đến xuất bản. Nhà nghiên cứu này cũng bày tỏ lo ngại rằng việc công bố diễn ra nhanh chóng như vậy có thể làm mất đi chất lượng của các nghiên cứu. 

Vẫn còn quá sớm để đánh giá chất lượng của các bài viết được phát hành trong đợt dịch này dựa trên việc trích dẫn và việc rút bài. Nhóm của Robinson-Garcia nhận thấy rằng các bài viết có tác động khác khi được đánh giá bằng một thước đo mới – sự đề cập trên mạng xã hội. Tài liệu về COVID-19 được xuất bản trong năm nay đang nhận số lượt tương tác trên mạng xã hội nhiều gấp 10 lần tất cả bài viết về khoa học được xuất bản 5 tháng đầu năm 2019, theo như chuyên trang phân tích Altmetric (nơi theo dõi Twitter, Facebook và các nền tảng khác, sau đó tổng hợp điểm tương tác cho mỗi bài viết). Thêm vào đó, 12 bài viết khoa học nhận nhiều tương tác nhất cho đến giờ đều viết về COVID-19.

Cuộc chạy đua xây dựng công cụ 

Nhằm chế ngự dòng chảy các bài viết, nhiều nhóm bắt đầu chuyển sang sử dụng các công cụ điện toán. Một trong những thành tựu đầu tiên về công cuộc khai thác thông tin là “bộ đánh giá tài liệu hoạt động bằng AI”. Các nhà nghiên cứu thu thập các dữ liệu cần thiết từ một bộ 783 tài liệu trong CORD-19 được chia thành 17 chủ đề. Sau đó, họ lập một trang web cho mỗi chủ đề để trình bày kết quả. Chẳng hạn, một trang chứa các dữ liệu về vấn đề bệnh tim là một yếu tố nguy cơ dẫn đến tử vong khi mắc COVID-19.

Người dùng có thể xem một bảng cho thấy mức nguy cơ này được báo cáo bởi các bài báo khác nhau dưới dạng tỉ lệ chênh lệch và còn có thể truy cập các đường link để xem bài viết gốc và tìm hiểu thêm, Tayab Waseem – Tiến sĩ về miễn dịch tại trường y Eastern Virginia – người điều hành dự án cho biết thêm.

Chúng ta còn cả chặng đường dài để đến được sự tự động hoàn hảo. Các thuật toán không phải lúc nào cũng chính xác. Các sinh viên y và các tình nguyện viên liên tục kiểm tra để đảm bảo sự xác thực của các nguồn thông tin. 

Một thách thức khác là cần làm cho các công cụ trở nên thân thiện với người sử dụng hơn. Mặc dù các nhà khoa học dữ liệu đã tốn hơn 20 năm để xây dựng các công cụ khai thác các chủ đề khoa học, họ dường như vẫn chậm trễ trong việc điều chỉnh để giúp người dùng dễ dàng tìm kiếm các bài báo nghiên cứu.

Karin Verspoor, nhà ngôn ngữ máy tính tại Đại học Melbourne nhận định: “Mọi người dường như chưa nhận ra sự cần thiết của những công cụ đó ít nhất là cho đến lúc này.” Dù điều đó có thể giúp thúc đẩy nhiều sự chú ý hơn đến việc xây dựng giao diện cho các nền tảng khai thác thông tin về COVID-19 cũng như các chủ đề nghiên cứu khác.

Jevin West, nhà khoa học dữ liệu đến từ Đại học Washington (Seattle), đang làm việc với các cộng sự để phát triển một công cụ tập trung vào người dùng tên là SciSight để khai thác CORD-19. SciSight cung cấp gợi ý các bài viết chứa các thuật ngữ liên quan để giúp đơn giản hóa quá trình tìm kiếm. Đồng thời nó cũng thể hiện sự liên quan giữa các bài báo dưới dạng các bản đồ để người dùng có thể nhanh chóng điểm qua các bài báo.

Tuy nhiên, những công cụ này chưa tiếp cận được tới với nhiều nhà khoa học. Một nửa các nhà khoa học được Science Insider liên hệ, họ nhận thấy những công cụ này nghe có vẻ triển vọng nhưng lại chưa từng được biết tới. Và một số cho biết rằng họ không có nhiều thời gian để dùng thử chúng.

Điều này lại cho thấy một trở ngại khác: làm sao để thay đổi thói quen của các nhà khoa học khi họ đã quá quen thuộc với cách tiếp cận và khám phá thông tin thông thường. “Kể cả bạn có một công cụ tuyệt vời thì vẫn sẽ rất khó khăn để có thể thay đổi cách tìm kiếm và khai thác thông tin của mọi người trong mùa dịch này” – West nói. Cần rất nhiều thời gian để mọi người thay đổi thói quen của họ.

Trong khi đó, nhiều nhà khoa học chia sẻ rằng họ đã quen với việc dựa vào các cách truyền thống để nhận dạng các tài liệu về COVID-19, bao gồm đọc các bản tin từ các cộng đồng khoa học và một vài tạp chí uy tín, cũng như lời truyền miệng – bao gồm cả những dòng tweet – từ những người đồng nghiệp mà họ tin cậy.

Sherry Chou là một nhà thần kinh học tại Đại học y tế Pittsburgh, người đã tổ chức một nhóm nghiên cứu quốc tế nghiên cứu các vấn đề về thần kinh liên quan đến COVID-19. “Bạn sẽ luôn làm những việc trong khả năng của mình… Luôn có nhiều kiến thức hơn mức mà mọi người có thể lĩnh hội hết. Lượng thông tin quá nhiều đang làm mọi người trở nên nản chí” – Sherry Chou chia sẻ – “lượng thông tin hiện tại tương đương với lượng thông tin đến từ một hội thảo y tế vẫn diễn ra hàng năm, nhưng giờ nó như đang diễn ra mỗi ngày vậy.”

Quang Huy, Phương Thục dịch

Nguồn: Jeffrey Brainard. (May 13, 2020). Scientists are drowning in COVID-19 papers. Can new tools keep them afloat?. Science. 

Đăng ký Nhận bản tin

error: Content is protected !!