GPT-4「荣升」AI顶会同行评审专家？斯坦福最新研究：ICLR/NeurIPS等竟有16.9%评审是ChatGPT生成 | 人人都是产品经理

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

注册 | 登录

GPT-4「荣升」AI顶会同行评审专家？斯坦福最新研究：ICLR/NeurIPS等竟有16.9%评审是ChatGPT生成

2024-03-25

0 评论 2213 浏览 0 收藏

产品经理的不可取代的价值是能够准确发现和满足用户需求，把需求转化为产品，并协调资源推动产品落地，创造商业价值。

斯坦福的一篇案例研究表示，提交给AI会议的同行评审文本中，有6.5%到16.9%可能是由LLM大幅修改的，而这些趋势可能在个体级别上难以察觉。

LLM在飞速进步的同时，人类也越来越难以区分LLM生成的文本与人工编写的内容，甚至分辨能力与随机器不相上下。

这加大了未经证实的生成文本可以伪装成权威、基于证据的写作的风险。

尽管在个例上难以察觉，但由于LLM的输出趋于一致性，这种趋势可能会放大语料库级别的偏见。

基于这一点，一支来自斯坦福的团队提出一种方法，以此来对包含不确定量的AI生成文本的真实世界数据集进行可比较的评估，并在AI会议的同行评审文本中验证。

论文地址：https://arxiv.org/abs/2403.07183

一、AI会议的同行评审可能是AI？

同行评审是一种学术论文发表前的质量评估机制。

这些同行评审者通常具有相关领域的专业知识，他们会对论文的原创性、方法学、数据分析、结果解释等进行评价，以确保论文的科学性和可信度。

斯坦福团队研究的AI会议包括ICLR 2024、NeurIPS 2023、CoRL 2023和EMNLP 2023，他们的研究发生在ChatGPT发布之后，实验观察估计LLM可能会显著修改或生成的大语料库中的文本比例。

B端产品经理的能力模型与学习提升

B端产品经理面临的第一大挑战，是如何正确的分析诊断业务问题。这也是最难的部分，产品设计知识对这部分工作基本没有帮助，如果想做好业务分析诊断，必须具备扎实 ...

结果显示，有6.5%到16.9%可能是由LLM大幅修改的，即超出了拼写检查或微小写作更新的范围。

在下图中，可以看到ICLR 2024同行评审中，某些形容词的频率发生了显著变化，例如「值得称赞的」、「细致的」和「复杂的」，它们在出现在句子中的概率分别增加了9.8倍、34.7倍和11.2倍。而这些词大概率是由人工智能生成的。

同时研究还发现，在报告较低自信度、接近截稿时间以及不太可能回应作者反驳的评论中，LLM生成文本的估计比例较高。

二、最大似然让LLM现形

因为LLM检测器的性能不稳定，所以比起尝试对语料库中的每个文档进行分类并计算总数，研究人员采用了最大似然的方法。

研究方法主要分成四个步骤：

1. 收集（人类）作者的写作指导——在这个情况下是同行评审指导。将这些指导作为提示输入到一个LLM中，生成相应的AI生成文档的语料库。

2. 使用人类和AI文档语料库，估算参考标记使用分布P和Q。

3. 在已知正确比例的AI生成文档的合成目标语料库上验证方法的性能。

4. 基于对P和Q的这些估计，使用最大似然法估算目标语料库中AI生成或修改文档的比例α。

上图对方法进行了流程可视化。

研究人员首先生成一个具有已知科学家或AI作者身份的文档语料库。利用这些历史数据，我们可以估算科学家撰写的文本和AI文本的分布P和Q，并验证我们方法在留存数据上的性能。最后，使用估算的P和Q来估算目标语料库中 AI 生成文本的比例。

在验证集中，该方法在LLM生成反馈比例方面表现出高精度，预测误差不到2.4％。同时，团队对鲁棒性也进行了验证。

另外，一位审稿人可能会分两个不同阶段起草他们的审稿意见：首先，在阅读论文时创建审稿的简要大纲，然后使用LLM扩展这个大纲以形成详细、全面的审稿意见。

在这种场景的验证中，算法仍旧表现出色，能够检测到LLM用于大幅扩展由人提供的审稿大纲的情况。

实验结果中还发现了什么

首先，团队将AI会议的同行评审和Nature Portfolio期刊的α进行了比较。

与AI会议相反，Nature Portfolio期刊在ChatGPT发布后没有显示出估计α值的显著增加，ChatGPT发布前后的α估计值仍在α = 0验证实验的误差范围内。

这种一致性表明，在与机器学习专业领域相比，广泛的科学学科对AI工具的反应有明显的不同。

除了发现同行评审文本中，有6.5%到16.9%来自于LLM的手笔之外，该研究还发现了一些有意思的用户行为，在四个AI会议里保持一致：

1. 截至日期效应：在审稿截止日期前3天内提交的评审往往更倾向于用GPT

2. 参考文献效应：包含「et al.」一词的评审，即有学术引用的评审，更不会用GPT

3. 回复率降低效应：审稿讨论期间，审稿人回复数量越多，评审更不会用GPT

4. 同质化效应：与同论文其他审稿意见越相似的评审，越可能用GPT

5. 低置信度效应：自评置信度在5分制度中为2分或以下的评审与较高置信度（3分或以上）的评审相比，更可能用了GPT

尽管这项研究存在一定的局限性，比如只涉及了四个会议、仅使用了GPT-4来生成AI文本，并且可能存在其他误差来源，比如由于主题和审稿人的变化而导致的模型时间分布的偏差。

但是，研究的结论启示了LLM可能对科学界产生的潜在影响，这有助于激发进一步的社会分析和思考。希望这些研究结果能够促进对于LLM在未来信息生态系统中应该如何使用以及可能带来的影响的深入探讨，从而推动出台更加明智的政策决策。

参考资料：

https://arxiv.org/abs/2403.07183

编辑：Mindy

来源公众号：新智元（ID：AI_era），“智能+”中国主平台，致力于推动中国从“互联网+”迈向“智能+”。

本文由人人都是产品经理合作媒体 @新智元授权发布，未经许可，禁止转载。

题图来自 Unsplash，基于 CC0 协议

该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务。

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

"智能+"中国主平台，致力于推动中国从"互联网+"迈向"智能+"

139篇作品 316128总阅读量

月赚百万，外卖商家疯狂内卷，带火这门新生意

08-09914 浏览

月赚百万，外卖商家疯狂内卷，带火这门新生意

数据驱动下B端产品迭代的关键点

11-211847 浏览

数据驱动下B端产品迭代的关键点

成功B端产品经理的年终总结秘诀：掌握这几个技巧！

刚刚

微信阿里合作搞钱，就问抖音怕不怕

09-282165 浏览

微信阿里合作搞钱，就问抖音怕不怕

究竟是什么，在决定用户体验的走向？

02-064667 浏览

究竟是什么，在决定用户体验的走向？

“茅台+”是茅台的万能绝招吗？

09-201724 浏览

“茅台+”是茅台的万能绝招吗？

评论

目前还没评论，等你发挥！

转岗产品经理的求职难题，你遇到过吗？

13742人已学习12篇文章

如何做节日营销？

追热点蹭热点是互联网相关从业人员的一种潜意识，尤其是运营岗、市场岗。本专题的文章分享了如何做节日营销。

43610人已学习20篇文章

内容付费的玩法你知多少？

内容付费的现状、趋势和未来。

13360人已学习11篇文章

内容管理系统（CMS）的设计指南

内容管理系统是一种位于WEB 前端（Web 服务器）和后端办公系统或流程（内容创作、编辑）之间的软件系统。本专题的文章分享了内容管理系统（CMS）的设计指南。

16318人已学习12篇文章

如何做好团队管理？

有效的团队管理对于一个企业来说十分重要。本专题的文章分享了团队管理的方法。

14994人已学习13篇文章

小红书营销指南

本专题的文章分享了小红书营销指南。

12592人已学习12篇文章

产品经理如何写简历？

关于如何写简历、简历上些什么的文章大家看了很多。那么细分到产品经理这个岗位来说，写简历又有什么需要注意的呢？本专题的文章分享了产品经理如何写简历。