fbpx

NGHIÊN CỨU TRÍ TUỆ NHÂN TẠO ĐANG VẬT LỘN VỚI KHỦNG HOẢNG NHÂN RỘNG

Tháng 10 vừa rồi, 31 nhà khoa học đã công bố một thư phản hồi trên tạp chí Nature để bày tỏ sự quan ngại về tính minh bạch của một nghiên cứu thực hiện bởi nhóm Google Health được đăng trên Nature đầu năm nay.

Nghiên cứu đó báo cáo về các thử nghiệm thành công của Google trong việc sử dụng AI (Artificial Intelligence – Trí tuệ nhân tạo) trong việc nhận diện các dấu hiệu của ung thư vú từ các hình chụp y khoa.

Hình: Claire Merchlinsky/Behance | CC BY-NC-ND 4.0

Nhưng theo như các chỉ trích từ 31 nhà khoa học trên, nhóm Google lại cung cấp rất ít thông tin về việc cách thức mã hoá và thử nghiệm, khiến cho nghiên cứu trông giống như một bài quảng cáo cho công nghệ độc quyền của họ.

Benjamin Haibe-Kains, tác giả chính của bài phản hồi, hiện đang là nhà nghiên cứu gen học tính toán (computational genomics) tại Đại học Toronto chia sẻ rằng: “Chúng tôi lên tiếng không chỉ vì nghiên cứu cụ thể này, mà vì một xu hướng đang diễn ra trong nhiều năm gần đây. Bài báo vừa rồi của Google là một ví dụ của việc một tạp chí có uy tín cao xuất bản một nghiên cứu rất thú vị nhưng lại không liên quan gì tới khoa học.”

Các vấn đề trong việc nhân rộng nghiên cứu

Nghiên cứu khoa học đòi hỏi nhà nghiên cứu chia sẻ một cách chi tiết cách thức tiến hành nghiên cứu để các nghiên cứu về sau có thể tiến hành lại nghiên cứu và kiểm chứng kết quả. Việc lặp lại (replication) nghiên cứu giúp các nhà khoa học khác có thể tiếp tục phát triển các kết quả ban đầu. Trong khoảng chục năm trở lại đây, AI bắt đầu được sử dụng để tiến hành các thực nghiệm. Tuy vậy, như Joelle Pineau, nhà khoa học máy tính tại Facebook AI Research và Đại học McGill nhận định, nỗ lực làm minh bạch và rõ ràng các phương pháp luận đang bị tụt lại phía sau so với tham vọng tiến hành các thử nghiệm.

Vấn đề không chỉ xuất hiện trong giới học thuật, việc thiếu tính minh bạch về phương pháp cũng làm cản trở việc đánh giá tính an toàn, độ bền và nguy cơ định kiến của các mô hình và kỹ thuật AI mới.

“Chúng tôi lên tiếng không chỉ vì nghiên cứu cụ thể này, mà vì một xu hướng đang diễn ra trong nhiều năm gần đây.”

Các nghiên cứu về AI được ứng dụng vào đời sống rất nhanh, ảnh hưởng trực tiếp tới cuộc sống con người. Nhưng các mô hình học máy (machine-learning) tuy hoạt động hiệu quả trong phòng thí nghiệm, vẫn tiềm ẩn nhiều nguy cơ thất bại trong thế giới thực, do đó, việc thực hiện các nghiên cứu tái lặp ở các bối cảnh khác nhau bởi nhiều nhà nghiên cứu khác nhau sẽ giúp nhận thấy các vấn đề sớm hơn, từ đó giảm thiểu các nguy cơ gây hại.

AI đã vướng phải vấn đề hộp đen: chỉ ra được chính xác làm thế nào một mô hình học máy có thể tạo ra được những kết quả như nó đang làm là một việc không thể. Thiếu đi sự minh bạch trong nghiên cứu càng làm vấn đề này trở nên tồi tệ hơn. Thiếu truy cập vào bộ mã, dữ liệuphần cứng đang là lý do lớn nhất cản trở việc thực hiện lại các nghiên cứu AI. Theo báo cáo năm 2020 của State of AI – một phân tích hàng năm uy tín trong lĩnh vực này – chỉ có 15% nghiên cứu AI chia sẻ bộ mã của mình. Báo cáo này không ngại chỉ đích danh những tập đoàn công nghệ tư nhân là nguyên nhân chính của kết quả hạn chế trên.

Trong khi đó, dữ liệu thường mang tính độc quyền, chẳng hạn như thông tin mà Facebook thu thập được từ người dùng của nó; hoặc nhạy cảm, ví dụ như hồ sơ y tế cá nhân. Và những ông lớn công nghệ thì ngày càng tiến hành nhiều nghiên cứu khổng lồ sử dụng các cụm máy tính đắt tiền mà rất ít trường đại học hoặc các công ty nhỏ có nguồn lực để tiếp cận.

Những nỗ lực sơ khởi

Số lượng bài báo được xuất bản gia tăng một cách chóng mặt, nhưng khi mà các nhà nghiên cứu vẫn không biết phải tin tưởng vào đâu, lĩnh vực này không thể phát triển. “Càng ngày càng khó để nói được rằng kết quả nào là đáng tin cậy,” Pineau chia sẻ. Năm ngoái cô đã giúp phát triển một danh sách những thông tin mà các nhà nghiên cứu phải cung cấp khi nộp bài tới hội thảo NeurIPS, một trong những hội thảo về AI lớn nhất. Những thông tin này bao gồm bộ mã và mô tả chi tiết cách thức tiến hành thực nghiệm.

Việc thiếu các khuyến khích, hỗ trợ cho các nghiên cứu tái lặp cũng là một rào cản để các nhà nghiên cứu tham gia thực hiện các nghiên cứu như vậy, trong khi lại tốn rất nhiều công sức và nỗ lực. Pineau cùng các đồng nghiệp đang đặt ra các thử thách tái lặp nghiên cứu ở các hội thảo lớn về AI và ở các nhóm nghiên cứu sinh mà họ hướng dẫn.

Một nỗ lực thúc đẩy tính minh bạch nữa là dự án Papers with Code của nhà nghiên cứu về AI Robert Stojnic. Ban đầu, nó là một trang web độc lập mà ở đó các nhà nghiên cứu có thể kết nối đường link bài nghiên cứu của mình tới đường link của bộ data đăng tải ở đó. Năm nay, dự án này đã bắt đầu hợp tác với arXiv và kết quả là từ tháng 10, tất cả các bài nghiên cứu học máy trên arXiv đều đi kèm với một phần Papers with Code, kết nối thẳng tới bộ mã mà các tác giả muốn công khai. Mục tiêu của hợp tác này là để biến sự chia sẻ trở thành tiêu chuẩn.

Những nỗ lực này đã mang tới nhiều chuyển biến tích cực, như là số bài nộp tới NeurIPS mà có chia sẻ bộ mã đã tăng lên hơn 25% so với năm trước, hay số lượng người tham gia các thử thách tái lặp ngày càng tăng. Mặc dù vậy, đây vẫn chỉ là bước khởi đầu, xây dựng một mô hình AI cần rất nhiều những chi tiết nhỏ. Những thay đổi dù chỉ nhỏ nhất cũng có thể tạo ra các khác biệt về kết quả. Nếu không có những siêu dữ liệu (metadata) mô tả cách thức các mô hình đó được đào tạo và điều chỉnh như thế nào thì bộ mã cũng trở nên vô dụng. “Thứ ác quỷ nhất thật sự nằm ở những chi tiết nhỏ”, Haibe-Kains nhận định. 

Ảnh: Hội thảo NeurIPS 2019 tại Vancouver, Canada | Khari Johnson / VentureBeat

Phần cứng cũng là một vấn đề lớn. Nhưng những công ty công nghệ lớn như DeepMind khẳng định rằng những nghiên cứu của họ hay những phòng nghiên cứu giàu có khác sẽ có lợi cho tất cả mọi người. AI trong giai đoạn đầu sẽ rất khó để truy cập vì nó yêu cầu nhiều công suất tính toán, nhưng trong quá trình phát triển thì nó sẽ trở nên hiệu quả hơn và dễ tiếp cận hơn cho các nhà nghiên cứu khác. Tức là, xét về lý thuyết, việc lặp lại các nghiên cứu là có thể, chỉ là sẽ bị trì hoãn. 

Nhiều nỗ lực cũng đã được tiến hành để thay đổi tình trạng nhiều phần cứng đắt đỏ được kiểm soát và sở hữu bởi các công ty, doanh nghiệp tư nhân. Một số công ty như Facebook đã cho phép các trường đại học truy cập vào phần cứng của họ. Hay có một nhóm tên là Compute Canada đang gom lại các cụm máy tính để hỗ trợ các trường đại học thực hiện các thực nghiệm AI lớn.

Tương lai của nghiên cứu AI

Nhưng Haibe-Kains vẫn chưa thấy thuyết phục. Nhóm Google Health khi phản hồi lại những chỉ trích của nhóm 31 nhà khoa học đã liên tục nói rằng họ không thể tiết lộ nhiều hơn vì mô hình AI đó vẫn cần thử nghiệm thêm, bên cạnh đó, các dữ liệu được sử dụng là hồ sơ y tế của cá nhân nên họ không có quyền chia sẻ. Haibe-Kains cho rằng anh hiểu việc họ không muốn tiết lộ thông tin bởi đang phát triển sản phẩm kinh doanh, nhưng một khi đã công bố các kết quả trên các tạp chí hay hội thảo khoa học, nhóm nghiên cứu có nghĩa vụ phải chia sẻ bộ mã để người khác có thể kiểm chứng, kể cả đó là phiên bản không đủ dữ liệu hoặc sử dụng phần cứng rẻ tiền hơn. 

Các công ty công nghệ lớn thu được rất nhiều lợi ích từ việc tham gia vào các cộng đồng nghiên cứu. Tất cả các dự án AI lớn ở các phòng thí nghiệm tư đều được xây dựng trên các lớp lang nghiên cứu công cộng. Khi mà ngày càng có nhiều nghiên cứu được thực hiện ở các công ty công nghệ lớn, việc có các đánh đổi giữa các nhu cầu cạnh tranh của kinh doanh và nghiên cứu sẽ trở nên không thể tránh khỏi. Quan trọng là các nhà nghiên cứu sẽ điều hướng việc này như thế nào.

Chìa khoá sẽ nằm ở việc đảm bảo gia tăng cơ hội tham gia cho số đông

Liệu các thực hành mà Pineau và các đồng nghiệp của cô giới thiệu có mang lại các thay đổi lâu dài không? Các thói quen nghiên cứu và chia sẻ thông tin liệu sẽ có biến chuyển? Xu hướng phát triển các mô hình lớn và thu thập các dữ liệu ngày càng lớn hơn sẽ tiếp tục khiến phần đông các nhà khoa học không thể tiếp cận tới những phát triển bậc cao của AI. Mặc khác, những kỹ thuật mới như model compression hay few-shot learning có thể giúp đảo ngược xu hướng này và cho phép các nhà nghiên cứu làm việc với những AI nhỏ hơn, hiệu quả hơn.

Dù thế nào, nghiên cứu AI chắc chắn vẫn sẽ bị thống trị bởi các tập đoàn lớn. Nếu việc này được kiểm soát đúng cách, nó cũng sẽ không phải là điều gì tệ. “AI đang thay đổi cuộc đối thoại về việc các phòng thí nghiệm công nghiệp được vận hành như thế nào.”, Pineau nhận định. Chìa khoá sẽ nằm ở việc đảm bảo gia tăng cơ hội tham gia cho số đông. Bởi vì độ tin cậy của AI bắt đầu ở chính giai đoạn phát triển bậc cao của nó.

Linh Chi lược dịch

Nguồn:

Will Douglas Heaven. (November 12, 2020). AI is wrestling with a replication crisis. MIT Technology Review.

error: Content is protected !!

Để lại thông tin để nhận tư vấn