量子位 7小时前
14%论文都有AI代写?Nature:每7篇就有1篇藏有ChatGPT特征词
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

"unparalleled"、"invaluable"、"heighten" ……

小心!这些词可能会偷偷暴露你的论文是 AI 帮忙写的,一年之内14%使用 LLM 的生物医学论文就是这样被发现滴……

Nature最新报道,研究发现在 2024 年PubMed上发表的 150 万篇生物医学研究摘要中,其中超过 20 万篇都频繁出现 LLM 特征词。

这些词汇大多都是多余的风格性动词形容词,只改变了文体,并不影响内容。

在部分国家和学科中,AI 辅助写作的比例也已经超过五分之一,而这一趋势还在不断上升。

与此同时,部分作者也注意到这点,开始引导 LLM 规避明显的 AI 痕迹,这也让我们现在难以得知 LLM 对学术产出的影响究竟有多深……

日益深化的 LLM 学术影响力

自从 ChatGPT 首次实现在学术领域生成接近人类水平的文本,许多作者开始将 LLM 融入日常写作,甚至与 LLM 一起合作撰写论文。

但雇佣 LLM 代笔,未必如想象中隐秘。

和人类作者一样,LLM 也喜欢在论文中留下自己独特的写作印记,雁过留痕,恰好这些也成为了发现 LLM 的途径。

实验发现,在 2024 年以前,类似 "coronavirus" 的名词被超额使用;2024 年之后,则以 "intricate"、"notably" 等与研究内容无关的风格词为主,其中 66% 都是动词(如 "delving"、"emphasizing"),16% 为形容词(如 "crucial"、"pivotal")。

好家伙,原来 LLM 你小汁喜欢华丽风哇,喜欢怎么夸张怎么来。

Σ ( ° △ ° ||| ) ︴

例如,LLM 喜欢酱紫:

通过仔细研究连接 [ … ] 和 [ … ] 的错综复杂的网络,本章深入探讨了他们的参与作为 [ … ] 的重要风险因素。

全面掌握 [ … ] 和 [ … ] 之间错综复杂的相互作用对于有效的治疗策略至关重要。

最初,我们深入研究了 [ … ] 的复杂性,强调了它在细胞生理学中不可或缺的地位,控制其通量的酶迷宫,以及关键的 [ … ] 机制。

嘶,听起来是不是相当熟悉,现在人类写作风格也逐渐被 LLM 影响,打开一篇论文铺天盖地都是 " 深入研究了 "、" 极具潜力的 "、" 至关重要的 "、" 无与伦比的 " ……

部分词汇的频繁出现,让使用 LLM 的论文极易被察觉,通过将 222 个低频风格词和 10 个高频风格词组合计算,研究人员发现在 2024 年的论文中至少10%-11%的摘要中使用了 LLM,部分子语料库中这一比例甚至高达30%

另外,研究还发现,在不同学科、地域和期刊中 LLM 的使用也存在显著差异

在计算领域、生物信息学等学科中,由于行业技术日新月异,而研究者需要迅速掌握新技术,依赖 LLM 协助,约占20%

在中国、韩国等非英语国家中,由于需要 LLM 辅助英语写作,LLM 使用率可达15%,相比之下,像英国、澳大利亚等英语国家的 LLM 使用率相对较低。

一些低门槛的开放获取期刊,如 MDPI 旗下的《Sensors》,LLM 可达24%,而像《Nature》、《Science》等顶刊只有 6% 到 8%,研究人员推测,可能是由于前者审稿流程相对简化,而作者需要依赖 LLM 快速成文。

所以原来不知不觉,LLM 已经影响我们如此之深?

不够透明的 LLM 使用

然而在 2024 年底,研究人员对arXiv已发表和已撤回的论文摘要再次进行统计分析,以月为单位计算词汇频率,并对每 1 万篇摘要进行标准化处理。

研究发现,一些像 "delve"、"intricate" 这类已经被明确指出是ChatGPT的常用词汇,自 2024 年 4 月起使用频率显著下降。

而 ChatGPT 喜欢的另一些较为常见的词汇,如 "significant"、"additionally" ,使用率反而持续上升。

该现象表明,在使用 LLM 时,论文作者现在会主动调整输出,避免使用典型的 LLM 特征词,而一些常用词因为本身普遍使用,且相关研究讨论度较低,单独出现也并不容易被发现。

这一点研究人员在实验中也得以证明,他们分别通过以下两种提示词,让GPT-4o-mini处理文本:

直接修改句子。

禁止使用 LLM 特征词并修改句子。

对比原始文本和修改后的摘要,发现使用提示词 1 后,LLM 特征词频率上升,而使用提示词 2 后,相关词频出现下降,不过并未完全消除,说明人为干预可以调整部分输出,但无法完全规避

再将原始摘要、LLM 生成摘要、经过提示词修改后的摘要依次投入Binoculars这一 MGT(机器生成文本)检测器中。

与词频分析得出的结果不同,检测器并未显示出明显的真实摘要和 LLM 生成摘要的得分差异,但提示词处理确实会在一定程度上影响 MGT 检测器的结果。

所以 MGT 检测器也并非完全准确,准确度受不同 LLM 模型和文本类型影响,且作者们现在使用特定提示词修改文本,都让检测器难以准确判断论文与 LLM 关系。

但研究人员也表示,未来他们将通过统计大量文本中常见词汇的频率来进一步估计 AI 对学术文献的影响,而不仅仅只针对单个短文本进行检测。

总而言之,LLM 在科研工作中的影响力日益增长的同时,也亟需逐步完善其在学术论文中占比的量化分析,如何更好地让 AI 参与学术写作、AI 使用的边界在哪里等等,这些问题也许都值得我们重新思考。

参考链接:

[ 1 ] https://www.nature.com/articles/d41586-025-02097-6

[ 2 ] https://www.science.org/doi/10.1126/sciadv.adt3813

[ 3 ] https://arxiv.org/abs/2502.09606

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

专属 AI 产品从业者的实名社群,只聊 AI 产品最落地的真问题   扫码添加小助手,发送「姓名 + 公司 + 职位」申请入群~

进群后,你将直接获得:

  最新最专业的 AI 产品信息及分析  

   不定期发放的热门产品内测码

   内部专属内容与专业讨论

点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 生物
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论