人工智能是否可以审阅理解科学文献?

人工智能可能帮助迅速总结研究成果,但也伴随着风险。2024年12月13日自然杂志Nature刊文发表了一篇题目为《Can AI review the scientific literature — and figure out what it all means?》的文章做了人工智能处理科学文献的可行性研究。
当Sam Rodriques还是神经生物学研究生时,他被科学的一项基本局限性深深打动。即使研究人员已经产生了理解人类细胞或大脑所需的所有信息,他也表示,“我不确定我们会知道这些,因为没有人类能够阅读所有文献并获得全面的视角。”
五年后,Rodriques表示他正在通过人工智能(AI)接近解决这个问题。今年9月,他和他在美国初创公司FutureHouse的团队宣布,他们开发的基于AI的系统能够在几分钟内生成比维基百科页面更准确的科学知识汇总。团队迅速生成了大约17,000个人类基因的维基百科风格条目,其中大部分之前没有详细页面。
Rodriques并不是唯一一个试图利用AI帮助综合科学知识的人。数十年来,学者们一直在努力加速将大量研究成果编写成综述的繁重任务。 “这些综述太长,写起来极其繁琐,而且在完成时往往已经过时,”伦敦国王学院的研究综合专家Iain Marshall表示。大型语言模型(LLM)的兴起,尤其是像ChatGPT这样的生成型AI程序,促使人们对自动化这一任务充满了新的兴趣。
一些较新的AI驱动的科学搜索引擎,已经能够帮助人们编写叙述性的文献综述——这是一种概述研究的写作方式,借助AI工具来寻找、排序并总结出版物。但目前它们还无法独立生成高质量的综述。最具挑战性的任务是“金标准”系统性综述,它涉及严格的程序来检索和评估文献,并通常包括荟萃分析来综合结果。大多数研究人员认为,这些任务距离完全自动化还有很长的路要走。 “我确信我们最终会做到,”澳大利亚黄金海岸邦德大学的证据和系统性综述专家Paul Glasziou表示,“我只是无法告诉你,这是十年后还是一百年后。”
然而,研究人员也担心,AI工具可能导致更多草率、不准确或误导性的综述污染文献。“担心的是,多年来积累的关于如何做好证据综合的研究,可能会因此受到破坏,”伦敦大学学院的证据综合研究专家James Thomas表示。
计算机辅助的综述
几十年来,计算机软件一直在帮助研究人员搜索和解析科学文献。早在LLM出现之前,科学家们就已经在使用机器学习和其他算法来帮助识别特定研究,或者快速提取论文中的发现。然而,随着ChatGPT等系统的出现,人们对通过将LLM与其他软件结合使用来加速这一过程的兴趣激增。
如果让ChatGPT——或其他任何AI聊天机器人——直接从头写一篇学术文献综述,研究人员认为那是极其天真的做法。这些LLM通过在大量写作上进行训练来生成文本,但大多数商业AI公司并不透露它们训练模型时使用的数据。如果要求LLM审阅某一主题的研究,它可能会借鉴可信的学术研究、无效的博客文章和其他无法预料的资料,Marshall说。“它不会评估哪些文献是最相关的、最有价值的,”他说。而且,由于LLM通过反复生成统计上合理的单词来回应查询,它们会给出不同的答案,并且经常会产生错误——包括著名的虚假学术引用。“研究综合中被认为是好实践的过程并没有发生,”Marshall说。
更为复杂的做法是,将一批预先选定的论文上传到LLM,并要求它从中提取见解,回答仅基于这些研究的问题。这种“检索增强生成”似乎减少了“幻觉”的发生,尽管并不能完全避免。这个过程还可以设置,让LLM引用它所依赖的来源。
这正是像Consensus和Elicit等专门的AI驱动科学搜索引擎的工作原理。大多数公司不透露其系统的具体工作方式。但它们通常会将用户的问题转化为在学术数据库(如Semantic Scholar和PubMed)中进行计算机化搜索,并返回最相关的结果。
然后,LLM会总结每一篇研究,并将它们合成为一个答案,引用其信息来源;用户可以选择筛选他们想要包含的工作。 “这些工具首先是搜索引擎,”新加坡管理大学数据服务负责人Aaron Tay说。他表示:“至少,它们引用的文献肯定是真实的。”
这些工具“确实能使您的综述和写作过程更加高效,”南丹麦大学的博士后研究员Mushtaq Bilal表示,他还培训学者使用AI工具,并设计了自己的工具,名为Research Kick。另一个叫做Scite的系统,可以快速生成支持或反驳某一观点的论文的详细分类。Elicit和其他系统也可以提取不同部分的论文见解——例如方法、结论等。Bilal说:“你可以外包大量的劳动。”

但Bilal表示,大多数AI科学搜索引擎还无法自主生成准确的文献综述。它们的输出更像是一位熬夜的本科生,快速从几篇论文中提取出主要观点。他认为,研究人员最好是使用这些工具来优化综述过程的某些环节。Elicit的工程负责人James Brady表示,使用其系统的用户在审阅过程中的各个步骤上已经取得了良好的效果。
另一个限制是,一些工具(包括Elicit)只能搜索开放获取的论文和摘要,而不能访问完整的文章。(Elicit在加州奥克兰搜索大约1.25亿篇论文;Consensus在波士顿搜索超过2亿篇论文。)Bilal指出,许多研究文献是付费墙内的,搜索大量全文需要消耗大量计算资源。 “让一个AI应用程序处理几百万篇文章的全文将花费大量时间,而且成本可能变得不可承受,”他说。
全文搜索
对Rodriques来说,资金相对充裕,因为FutureHouse是一个位于加利福尼亚旧金山的非营利组织,得到前谷歌首席执行官Eric Schmidt和其他资助人的支持。FutureHouse成立于2023年,旨在使用AI自动化研究任务。
今年9月,Rodriques和他的团队揭示了PaperQA2,FutureHouse的开源原型AI系统。当它接收到一个查询时,PaperQA2会在多个学术数据库中搜索相关论文,并尝试访问开放获取和付费墙内的内容。(Rodriques表示,团队通过成员的学术隶属关系可以访问许多付费墙内的论文。)系统然后识别并总结出最相关的内容。由于PaperQA2需要处理论文的完整文本,因此运行成本较高,Rodriques表示。
FutureHouse团队通过使用PaperQA2生成关于人类基因的维基百科风格条目进行测试。接着,他们将几百个由AI生成的条目与真实(人工编写的)维基百科条目放在一起,交给一组盲测的博士后和博士生生物学家进行评估。评审小组发现,人类编写的文章包含的“推理错误”是AI工具的两倍——即文章中的声明没有得到适当的引用支持。由于AI工具在这一方面的表现更好,因此他们将论文标题定为《语言代理实现了科学知识的超人类综合》。
Tay表示,PaperQA2和另一个名为Undermind的工具,比传统的搜索引擎返回结果的时间更长——是几分钟,而不是几秒钟——因为它们进行更复杂的搜索,利用初步搜索的结果去追踪其他引用和关键词。例如,“这些都加起来让搜索质量大大提高,尽管速度较慢,但给出的结果要更高质量,”他说。
系统性挑战
叙述性综述已经够困难了,但系统性综述更为复杂。它们可能需要数个月甚至数年的时间才能完成。
系统性综述涉及至少25个细致的步骤,根据Glasziou团队的分析。在浏览完文献后,研究人员必须筛选出最相关的论文,然后提取数据,筛查研究中的潜在偏倚,并综合结果。(许多步骤需要另一名研究人员重复进行,以检查是否存在不一致。)这种严格、透明且可重复的方法在医学等领域被认为非常重要,因为临床医生使用这些结果来指导患者治疗决策。
2019年,在ChatGPT问世之前,Glasziou和他的同事们致力于创造一个科学界的世界纪录——在两周内完成一篇系统性综述。他们开发了多个计算机工具,以减少这一过程所需的时间。例如,RobotSearch是一个AI工具,能够通过机器学习模型帮助快速筛选和评估随机对照试验。他们预计,这种工具将大幅减少文献筛选所需的时间。
尽管如此,Glasziou表示,AI仍无法完全代替人工操作。AI可以帮助做很多事情——例如文献筛选、数据提取、偏倚评估——但目前还无法完全独立执行整个系统性综述的过程。
AI的优点和隐患
尽管AI可以加速综述过程,但也会带来新的挑战和风险。Thomas表示:“如果AI能生成不准确的结果,最终生成的结果可能会有问题,并且可能会影响最终的结论。”在某些情况下,AI可能会促进不严谨和草率的研究方法。
尽管如此,专家们表示,AI在未来可能会在系统性综述中发挥越来越重要的作用——尤其是在提取数据和进行筛选等任务中。未来的发展可能会使AI逐渐能够帮助加速文献综述过程,但仍然需要研究人员的监督,以确保最终的综述质量。