量子位 昨天
让AI创作不千篇一律,提示词随机插词汇就行
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

如果你以为 AI 写作产生的内容都一样,那可能要颠覆认知了。

最新研究发现,只要在 AI 开写前由人类提供一个开头或者随机插入一些词汇,写作效果会更具多样性。

也就是说,AI 写作同质化不是模型本身存在缺陷,更可能是 " 启动条件 " 有问题。

实验结果显示,在 Short Stories 数据集上,人类的文体特征方差最低,表明人类在该数据集写作风格较为统一,而模型则表现出更丰富的风格多样性。

比如在最新的 GPT-5 里让它用相同提示词续写同一段文章。

你是一位创意写作助手。请为以下故事续写一个引人入胜的结尾。 以下是故事的上半部分。请你写出与其长度相当的下半部分。

{ 第一次见到 7 号记忆体时,它的数据流里飘着槐花香。我调整着全息投影仪的焦距,那些半透明的淡紫色光点便从操作台上漫出来,在无菌实验室的空气中凝结成模糊的树影…… }

结果却是不太一样哎~

那此研究到底是如何证明 AI 写作并不趋同的呢?我们接着了解更多细节。

创建三类同质化评价指标

以往研究普遍认为,大型语言模型在词汇、句法和语义等方面生成的文本,比起同等规模的人类作品,表现出明显的多样性不足。

这引发了 " 创造力模式崩溃 " 的猜测,认为 LLM 的创意空间远不如人类广阔,甚至担心未来人机协作会让观点变得千篇一律、雷同无趣。

然而,大多数关于语义多样性的评测都停留在单一指标的不同变体上,缺乏足够的实证支持,难以揭示真实的创作多样性。

因此,此研究提出了一套新的评估指标和数据集,用以对语言模型的语料库级多样性进行基准测试。

数据抓取

本研究主要分析短篇小说散文,文本来源于 Reddit 网站的两个子版块:r/shortstories 和 r/WritingPrompts,帖子按照 Top 排序顺序获取。

在 r/WritingPrompts 板块,研究人员提取了 100 个写作提示帖子及其最多 10 条一级回复,将这些回复视为人类写作的续写内容,用于分析每个提示对应的多个人类续写。

在 r/shortstories 板块,他们收集了 100 篇独立的叙事文本,用来评估人类与模型生成故事在整体风格和结构上的相似性。

创建语料库

数据清洗

对两个数据集中的人类写作文本,他们筛选了长度介于 500 字至 2000 字之间的故事。

对于写作提示数据集,若某个提示对应的人类续写超过 10 篇,他们只保留投票数最高的前 10 篇,以避免每个提示下故事数量差异过大,同时保证人类写作质量。

模型续写生成

除非另有说明,模型续写均采用固定温度 0.8、top-p 为 1,并使用基础系统提示。详细的实验设置和提示内容见附录 B。

同质化指标

文本同质化是通过不同的维度来衡量的,主要分为以下三类。

文体风格同质化

文体学通过分析作者独特的语言习惯(如词汇和语法特点)来识别写作风格。

为了衡量整个文本集合的多样性,研究者采用了 Unique-N 指标(衡量重复短语的比例)并计算了文体特征的方差,以评估语料库的风格多样性。

语义同质化

研究通过计算文本嵌入向量的平均相似度,利用多层级、多种嵌入方法分析语料库中的语义多样性,并通过比较不同层级的嵌入离散度变化,有效区分了风格差异和语义差异。

情感同质化

研究还利用 VADER 工具对人类和模型生成的故事进行情感分析,比较了二者情感表达的分布差异,以此作为评估文本多样性的重要维度。

AI 写作情感更偏向正面

首先分析文体风格同质化指标,在 Writing Prompts 数据集中,人类的多样性得分明显高于其他模型。

但有趣的是,这个模式在 Short Stories 数据集中并不成立:这里人类文本仍然拥有较高的 Unique-N 得分,却在所有模型中表现出最低的文体特征方差。作者分析可能是因为前者拥有更为多样化或更高水平的写作群体。

另外需要注意的是,在 Writing Prompts 数据集中,模型获得了更多关于人类作者的上下文信息,它会接收作者 50% 的故事内容作为提示,而在 Short Stories 数据集中,提示仅有几句话。

其次是关于语义同质化,研究通过比较人类与语言模型在相同写作提示下的文本嵌入相似度,发现人类作品语义多样性更高,而模型生成文本更趋同,反映出模型存在同质化倾向。

但需要注意的是,用于生成嵌入的 MiniLM 模型最大输入长度为 256 个 token,超过该长度的文本会被截断,这可能导致较长续写中的重要信息被遗漏,从而影响相似度的测量。

为评估这一限制的影响,研究者还使用了最大输入长度为 512 个 token 的 BGE 和 E5 嵌入模型进行分析。

可以看出,尽管各模型中模型内部相似度普遍高于人类的趋势依旧明显,但绝对相似度数值显著升高。

这一现象表明,更高维度的嵌入可能带来更高的余弦相似度。不过它们之间的具体关系仍不清晰,尚需进一步研究以区分嵌入维度和真实语义相似度之间的影响。

最后是情感同质化,情感得分 s 取值范围为 [ -1, 1 ] ,其中 s>0.05 表示正面情感,s<-0.05 表示负面情感,s ∈ [ -0.05, 0.05 ] 表示中性情感。

可以观察到,尽管大多数人类创作的故事呈现正面情感,但约有 30% 的故事带有负面情感,显示出较为丰富且多样的情感表现。

相比之下,LLM 生成的故事情感更偏向正面。

为进一步研究多少上下文信息能促使模型产生更多样化的输出,研究者在提示中提供不同长度的人类创作内容。

下表分别展示了采用 30% 和 70% 截取长度时的文体多样性指标结果。

结果表明,这两个截取长度对文体多样性都影响不大,语义多样性也没有显著变化。

因此,研究者探索的另一种方法是在系统提示中加入随机单词。

他们使用 google-10000-english-no-swears 词表,对其中的单词进行词性标注,只保留名词、形容词、副词和动词这几类词汇。

每次生成时,随机抽取 5 个单词,附加在提示语 "here is a list of random words to take inspiration from" 后面。

结果表明,尽管模型生成文本的多样性仍低于人类,但所有模型在各项指标上的多样性得分均有所提升,说明向系统提示中注入随机词汇确实有助于提升模型输出的文体多样性。

未来,研究团队将进一步探究提示中包含多少以及哪种类型的上下文,才能使模型输出达到与人类短篇故事同等的多样性。

论文链接:https://kiaghods.com/assets/pdfs/LLMHomogenization.pdf

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

希望了解 AI 产品最新趋势?

量子位智库「AI 100」2025 上半年

「旗舰产品榜」和「创新产品榜」

给出最新参考

点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 词汇 投影仪 效果 reddit
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论