人工智能搜索引擎整理学术文献

作者照片
编辑: 老夏

对于一个如此专注于过去的研究者,Mushtaq Bilal花了大量的时间沉浸在明天的技术中。作为丹麦南部大学在奥登塞的博士后研究员,Bilal研究19世纪文学中小说的演变。然而,他最为人所知的是他的在线教程,在其中,他作为学术界与利用人工智能(AI)的搜索工具迅速扩展宇宙之间的非正式大使。

从他的文学学者背景出发,Bilal多年来一直在解构学术写作的过程,但他的工作现在采取了新的方向。“当ChatGPT在去年11月出现在舞台上时,我意识到可以使用不同的AI应用程序自动化许多步骤,”他说。

这一新一代的搜索引擎,由机器学习和大型语言模型驱动,正在超越关键字搜索,从科学文献的错综复杂的网络中提取连接。一些程序,如Consensus,为是或否的问题提供研究支持的答案;其他程序,如Semantic Scholar、Elicit和Iris,充当数字助手——整理参考书目、建议新论文并生成研究摘要。总的来说,这些平台促进了写作过程的许多早期步骤。然而,批评者指出,这些程序仍然相对未经测试,并且存在在学术出版过程中延续现有偏见的风险。

这些工具背后的团队表示,他们建立这些工具是为了对抗“信息过载”,并释放科学家们的创造力。据位于华盛顿州西雅图的艾伦人工智能研究所的Daniel Weld和Semantic Scholar的首席科学家说,科学知识正在如此迅速地增长,以至于几乎不可能跟上最新的研究。“大多数搜索引擎帮助你找到论文,但然后你自己尝试摄取它们,”他说。通过将论文提炼为关键点,AI工具有助于使这些信息变得易于访问,Weld说。“我们都是Google Scholar的忠实粉丝,我仍然觉得它很有帮助,但我们认为,我们可以做得更好。”

这些搜索引擎还容易受到与其人类创作者相同的偏见。研究一再记录了学术出版和搜索引擎如何损害某些群体,包括妇女和有色人种,这些相同的趋势也出现在基于AI的工具中。例如,名字中包含有重音字符的科学家描述了在Semantic Scholar中创建统一作者档案的困难。此外,由于这些引擎,包括Semantic Scholar和Consensus,使用诸如引文计数和影响因子之类的指标来确定排名,因此在著名的期刊中发表的工作或被大肆宣传的工作不可避免地会被提到最前面,超过可能更相关的研究,这创造了Weld称之为“富人变得更富”的效应。

总之,这些AI平台为学术界提供了一个新的、强大的工具,但它们并不是完美的,仍然存在偏见和局限性。科学家和研究者在使用这些工具时应该保持警惕,确保他们的研究是准确和公正的。

原文链接:https://www.nature.com/articles/d41586-023-01907-z

发表评论