fbpx

AI: MỔ XẺ VÀ CHẮT LỌC KHOA HỌC TRONG NHÁY MẮT

Trí tuệ nhân tạo có thể xác định bài báo nào có giá trị và tóm gọn nội dung, giúp tổng quan nghiên cứu dễ tiếp cận hơn.

Thời gian xuất bản một bài báo khoa học có thể mất hàng năm, hàng tháng, nhưng Sabine Louët chỉ mất vài giây để tạo ra một bản tóm tắt 300 từ của bài báo đó. Tuy nhiên, cô lại giao nhiệm vụ tư duy cho thuật toán trí tuệ nhân tạo (AI). AI sẽ phân tích thống kê nội dung bài báo, nhận diện các câu từ quan trọng và tổng hợp lại thành một đoạn văn cô đọng, dễ đọc. Louët, với tư cách là CEO của SciencePOD, một công ty truyền thông khoa học đặt tại Dublin, chia sẻ rằng, “Chúng tôi đang cố gắng để kể một câu chuyện, và nhiệm vụ của chúng tôi là khiến câu chuyện này dễ hiểu nhất có thể”. 

Với số lượng nghiên cứu ngày càng nhiều, các phần mềm xử lý ngôn ngữ tự nhiên với chức năng phân loại và tóm tắt bài báo khoa học đã trở nên tối quan trọng với các nhà xuất bản và nhà nghiên cứu, theo lời Markus Kaindl, quản lý cấp cao của bộ phận phát triển dữ liệu tại Springer Nature (nhà xuất bản của bảng xếp hạng khoa học Nature Index).   

Tranh: Mara Drozdova/Behance | CC BY-NC-ND 4.0

Nhà xuất bản này đã khuyến khích SciencePOD và những công ty tương tự khám phá khả năng của AI trong việc làm nội dung xuất bản thu hút và dễ tiếp cận hơn. Kaindl cho rằng, “Với các nhà xuất bản khoa học như chúng tôi, AI rất hữu ích trong việc tóm tắt thông tin, chuyển ngữ tới nhiều đối tượng độc giả hơn và tăng sức ảnh hưởng của khoa học”.

Anh lấy ví dụ từ thực trạng gần 2.000 bài báo xuất bản về đề tài COVID-19 hằng tuần. Đây là một con số ấn tượng có thể làm choáng ngợp bất kỳ ai muốn cập nhật những kết quả mới nhất. Anh nói, “Giống như một đại dương nội dung và những người dùng như đang chết chìm trong đó vậy. Chúng tôi có nhiệm vụ giúp đỡ họ cưỡi lên những con sóng đó”.

AI giúp nhận diện những bài báo phù hợp nhất với yêu cầu của người dùng. Ví dụ, nền tảng Semantic Scholar, được phát triển bởi Viện Khoa học Nhân tạo Allen tại Seattle, Washington, có thể xếp hạng các bài báo liên quan đến một truy vấn mà không chỉ đơn thuần dựa vào từ khóa. Kaindl tự tin rằng, “Đây là một nền tảng tuyệt vời bởi vì nó thực sự hiểu những bài báo đang đề cập đến vấn đề gì”. Springer Nature còn kỳ vọng sẽ cung cấp các bản tóm tắt và kết quả tìm kiếm được cá nhân hóa. “Nếu bạn hiện đang là nghiên cứu viên cấp cao, sau tiến sĩ hoặc người phụ trách chính (principal investigator), nhu cầu tìm kiếm bài báo hoặc chương sách của bạn có thể sẽ khác biệt hoàn toàn so với một người vừa mới vào nghề”. 

Tìm kiếm bài báo tất nhiên là bước quan trọng đầu tiên, nhưng công nghệ AI còn có thể giúp nhà nghiên cứu xác định liệu một bài báo có đáng đọc hay không, theo lời David Konopnicki, quản lý của nhóm Ngôn ngữ và Truy xuất tại Viện Nghiên cứu AI của IBM tại Haifa, Israel. Các nhà nghiên cứu trước đây thường dựa vào phần tổng quan (abstract) để đưa ra quyết định trên, nhưng giờ đây một bản tóm tắt ý chính thực hiện bằng máy tính có thể sẽ có ích hơn. “Nhiệm vụ của phần tổng quan là để thuyết phục bạn đọc bài báo, nhưng có thể đó không phải là thứ bạn muốn. Tôi muốn hiểu được mức độ ảnh hưởng của bài báo một cách nhanh nhất. Quả thực, đây là một việc rất khó”. 

Năm 2019, Konopnicki và đồng đội đã cho ra mắt IBM Science Summarizer (Tóm Tắt Khoa học IBM), một dịch vụ có thể “thái và xắt” những nghiên cứu có sẵn, giúp người dùng theo dõi những bài báo mới nhất trong ngành AI được đăng tải trên các trang tiền xuất bản như arXiv và ACL Anthology. Đó là một nguồn dữ liệu tham khảo bao gồm bài báo khoa học và tham luận hội thảo trong ngành xử lý ngôn ngữ tự nhiên và ngôn ngữ học tính toán. Dự án này phần nào hỗ trợ cho chính những người sáng lập, trong bối cảnh tăng vọt những nghiên cứu về xử lý ngôn ngữ tự nhiên, tạo tự động ngôn ngữ tự nhiên và truy tìm thông tin. “Hằng tuần, tôi cũng phải tìm những bài báo mới có liên quan tới công việc của chúng tôi. Trước đây tần suất chỉ là vài lần một năm”. Lệnh tìm kiếm sẽ nhận diện các bài báo dựa trên từ khoá, bộ dữ liệu hoặc tên tác giả. Công cụ Summarizer sẽ tóm gọn các mục chính của bài báo thành các đoạn văn ngắn dễ đọc.

Konopnicki giải thích rằng, dịch vụ Summarizer sử dụng các đoạn văn trích xuất, nghĩa là các từ và câu được lấy trực tiếp từ bài báo ra. “Chúng tôi không viết lại câu”. Điều thử thách ở đây là nhận diện câu văn và phân mục nào thật sự quan trọng. Trong giai đoạn phát triển công cụ này, Konopnicki và đồng nghiệp sử dụng các bài thuyết trình hội nghị để huấn luyện thuật toán cách tìm ra những phần quan trọng nhất của bài báo. Sau đó, các tác giả của các bài báo sẽ đánh giá kết quả và cho nhận xét. 

Đội ngũ IBM hiện đang khám phá khả năng nhân rộng dịch vụ Summarizer  sang các ngành khoa học khác, nhưng sự chuyển mình này sẽ tốn nhiều thời gian và công sức. “Mỗi ngành sẽ có những yêu cầu chi tiết riêng biệt. Bạn cần áp dụng các phương pháp khác nhau khi xử lý bài báo về Vật lý hay Toán học”.

Wiley, một nhà xuất bản hàng đầu khác, cũng lên kế hoạch sử dụng AI để tóm tắt các công bố trong một vài tháng tới, theo lời David Flanagan, giám đốc bộ phận khoa học dữ liệu của công ty tại Frankfurt, Đức. Những bản tóm tắt này sẽ không chỉ giúp các nhà khoa học đang cố gắng bám sát các lĩnh vực của họ,  mà còn giúp công chúng và các nhà tài trợ có thể hiểu hơn về các chủ đề khoa học. “Các nhà nghiên cứu là đối tượng chính của sản phẩm của chúng tôi, vì vậy chúng tôi luôn cố gắng tìm cách để dễ dàng lan toả các kết quả nghiên cứu của họ hơn”.

Wiley cũng sử dụng AI để gợi ý một số hướng đi cho các bài báo bị từ chối. “Điều này đã giúp không chỉ bản thân các tác giả mà còn có ích cho các nhà biên tập và nhà phản biện, cũng như rút ngắn thời gian xuất bản rất nhiều”, Flanagan nói. “Chúng tôi dự định sẽ tạo ra nhiều công cụ AI tương tự để hệ thống hoá quá trình xuất bản và nâng cao chất lượng nghiên cứu”. 

Cũng như các nhà xuất bản khác, Wiley mong muốn sẽ phát triển công cụ AI riêng để hỗ trợ các công nghệ khác. “Sản phẩm AI tiêu biểu của Wiley có thể là sự kết hợp của dữ liệu nội bộ, dữ liệu mở công cộng, công cụ nguồn mở và công cụ riêng của công ty chúng tôi”. Hiện tại công ty đang liên kết với UNSILO, một công ty AI đặt tại Aarhus, Đan Mạch để chế tạo một công cụ học máy có công dụng tự động xuất ra các bản báo cáo báo cáo về tính khả dụng của dữ liệu, nhằm đáp ứng yêu cầu của nhiều cơ quan tài trợ. Flanagan hi vọng trong tương lai AI được sử dụng để xác định  dữ liệu xấu hoặc hình ảnh đã bị thao túng trước khi được công bố. 

Louët nhận định rằng thuật toán của SciencePOD (phát triển cùng Đại học Avignon, Pháp) sẽ tiến hoá không ngừng để cho ra kết quả tìm kiếm hiệu quả hơn cho người đọc và các nhà nghiên cứu. “Công việc này đòi hỏi rất nhiều sự tỉ mỉ, trau chuốt. Ngoài kia có biết bao các công cụ tóm tắt khác được tạo ra nhờ ăn xổi trên các thuật toán có sẵn. Chúng tôi đang cố gắng phát triển các  thuật toán cách tìm ra những điểm mấu chốt”. 

Với sự phát triển ngày càng phức tạp của AI, những đoạn văn tạo bởi máy sẽ càng khác biệt so với những phiên bản viết bởi con người. Louët nói thêm, thuật toán của SciencePOD đã có khả năng tạo ra các bài khái quát khoa học theo văn phong báo chí. Tuy nhiên, các nhà báo không lo bị mất công việc, bởi con người vẫn cần thiết trong quá trình xuất bản báo chí—họ trau chuốt lại ngôn từ, phỏng vấn các chuyên gia và đặt khoa học vào bối cảnh hợp lý. 

Con đường để AI phát huy hết mức tiềm năng vẫn còn nhiều chông gai, nhưng tương lai gần lại khá khả quan, Kaindl chia sẻ. Trong đó, một tầm nhìn tham vọng là những công cụ tìm kiếm khoa học có thể tổng hợp thông tin từ nhiều nguồn tạp chí khác nhau. Kaindl giải thích, điều này nghĩa là các nhà khoa học có thể tìm ra kết quả chính xác nhất trong vô vàn các thí nghiệm hoặc các dữ kiện thông tin phức tạp.

“Hệ thống AI sẽ thông minh tới mức hiểu được bạn đang tìm kiếm điều gì và cho ra một bản tóm tắt, bằng cách đào sâu vào 13 triệu bài báo của Springer Nature. Sẽ tốn thêm vài năm nữa, nhưng đó là đích đến mà chúng ta đang hướng tới”. 

Phương Hà dịch

Nguồn:

Chris Woolston & Jeffrey M. Perkel. (December 09, 2020). Sliced, diced and digested: AI-generated science ready in minutes. Nature Index. 

Đăng ký Nhận bản tin

Bài viết liên quan

error: Content is protected !!

Để lại thông tin để nhận tư vấn