在泛滥的信息洪流中,我们总以为 " 口味 " 是一种难以被量化的东西:对哲学的偏爱、对小众导演的欣赏,甚至是小时候追过的动漫……这些构成了我们的精神指纹,也构成了我们相信 "AI 永远学不会人类品味 " 的底气。
但这真的是现实吗?
在生成式 AI 技术突飞猛进的 2025 年,前内容平台创始人 Edmar Ferreira 决定用自己过去 6 个月的真实浏览数据做一个实验。他想知道,AI 是否真的能预测我们的喜好?是否能理解 " 我喜欢的东西 " 背后的复杂线索?
这篇文章,是他的一份自我实验报告,也是一份关于 "AI 理解人类 " 边界的反思:
如果加入一段 " 我喜欢什么 " 的描述,AI 的预测准确率竟然能提升至 80%;
AI 比我们以为的更懂我们,而 " 最后那 20% 不可预测性 ",正藏着我们最真实的自我。
以下为文章完整编译:
AI 能预测我的口味吗?我用六个月的浏览数据做了一场实验
作者:Edmar Ferreira|编译:周华香|原文发表于 Every.to
https://every.to/source-code/has-ai-gotten-good-enough-to-predict-my-taste-i-had-to-know
我曾无数次思考:我的喜好是否可以被预测?
我一直觉得自己的兴趣很特别——喜欢的音乐、电影、哲学话题,甚至那些源自童年的动漫痕迹,像是我独有的精神指纹。我们大多数人或许都带着这样的自我认知:我们塑造了自己的品味,但它终究是模糊的、难以被捕捉的。没有哪台机器能还原这份复杂,无法复制我们独特的世界体验。
可如果这种独特,并不像我们想的那么特别呢?如果我们的口味,其实早已在 AI 的预测能力之内?
我从业早期,就在一家为电商开发推荐系统的公司工作。那时,我对 " 内容发现引擎 " 着了迷:一种与你主动搜索相反的机制,它能在你尚未意识到前,就递来你会喜欢的东西。
这类引擎的诞生将彻底改变我们与信息的关系。不是 " 还行 " 的推荐,而是精准匹配心灵共鸣的电影;不是随机刷到一首歌,而是每首都让你感同身受。这将是一种令人深度满足的内容体验,也是一片尚未开发的商业蓝海。
随着生成式 AI 的爆发,我越来越想知道——如今的机器,是否已经聪明到可以读懂并预测 " 人类的口味 "?为了回答这个问题,我决定对自己下手:用我的浏览历史,做一场实验。
一、品味,真的能被 " 自动化 " 吗?
要开始实验,首先得面对一个问题:我们能不能 " 数字化 " 人的品味?
许多聪明人,包括 Every 的 CEO Dan Shipper,都认为:品味,是人类区分于机器最后的堡垒。因为真正的喜好往往藏在暗处——我们会看不点赞,会喜欢不分享。最了解我们的平台守着数据如同巨龙守宝。而 " 品味 " 本身也不稳定,它跟随经验变幻流动:一位厨师的味觉,不是算法演算出来的,而是无数次失败与灵感之后,与情绪和记忆交织而成。
我们的喜好并非静止不变,它们会随着人生阶段、文化接触和环境迁移而演化。比如曾排斥电子乐的人,可能因为一场震撼的现场表演,从此爱上它;原本偏爱小说的读者,在经历情感转折后,也可能突然爱上散文。
这些因素似乎让 " 自动化品味 " 看起来几乎不可能。但正是因为品味如此个体化、流动性强、扎根于经验——也许才正好为新一代 AI 提供了结构化理解的切口。
二、为什么大模型能看见 Netflix 看不见的东西?
传统推荐系统的逻辑很简单,像个懒散的媒人:" 你看过科幻片?那就再给你来几部。"Netflix 也许知道你最近连看三部科幻片,但它不知道你究竟是被其中的哲学深度吸引,还是单纯喜欢演员的脸。Facebook 也可能推给你点赞过的文章,但它根本区分不了你是感动点赞,还是顺手一点。
真正的口味,是微妙的,具有深层语义与美学逻辑的。
这正是大语言模型(LLMs)与传统推荐算法的分水岭。LLMs 拥有数十亿参数,能理解上下文、文化语境与概念之间的微妙联系。传统协同过滤模型顶多知道 " 喜欢 A 的人也喜欢 B",而 LLM 能理解:"A 和 B 都带有黑色电影美学、都是道德灰色主角、都受到德国表现主义影响 "。
这层上下文理解的能力,意味着 LLM 在理论上,具备更强的个性化推荐能力。
于是,我决定验证它:LLM 能不能预测我在日常刷网页时,哪篇内容能吸引我驻足?
三、实验开始:我把自己的行为数据交给了 AI
为了测试 AI 是否能预测我的口味,我收集了自己在线行为的两份数据集:
一份是我过去六个月在 Hacker News 上点赞的记录,包括我点赞的帖子和我滑过未点赞的内容。
另一份是我的 Readwise Reader Shortlist,它分为两层:第一层是我保存下来 " 打算日后阅读 " 的内容;第二层是真正被我打开阅读的文章。
这两组数据捕捉了我内容消费中的 " 偏好判断 "。而且我发现,在这两种情境下,我 " 真正喜欢 " 的内容比例都不到 10%。这说明,人的品味确实很挑剔。
1. 没有上下文,AI 就像在瞎猜
我首先让模型在完全没有背景信息的前提下,预测我是否会喜欢某篇文章。
在 Readwise 的数据上,GPT-4.1-mini 仅有 50.7% 的准确率,GPT-4.1 则是 52.2%,几乎跟掷硬币没区别。这说明:如果不了解你这个人,AI 很难判断你会对什么感兴趣。
Hacker News 的数据表现稍好,准确率为 65.5%,可能因为内容风格更统一,模式更容易被识别。
2. 添加一段 " 品味提示 ",准确率大幅提升
我将自己所有喜欢的文章整理出来,并结合我与 ChatGPT 的聊天记录,写出了一段我称为 " 品味准则 "(taste rubric)的描述,告诉 AI:我对什么感兴趣、对什么没兴趣。
给模型加入这段上下文后,它的表现跃升:
GPT-4.1-mini 在 Readwise 数据上从 56.7% 提升到 67.2%
GPT-4.1 从 52.2% 提升到 70.1%
OpenAI 的 o3 模型达到 70.2%
Hacker News 数据中,GPT-4.1 提升至 76.2%
也就是说,哪怕只是一段文字介绍,模型就能更准确地模拟我做判断的逻辑。这就像让人随便给你推荐一部电影,和提前告诉他 " 我喜欢哲学类的科幻片,但讨厌无脑打斗片 " 之间的差别。
Graphs courtesy of Every.
3. 微小提示优化,也能带来提升
我用了一种叫 DSPy 的方法,通过提示工程优化提示语,进一步微调模型行为。
提升虽然不大,但稳定有效:
Readwise 准确率从 70.1% 提升至 73.9%
Hacker News 从 76.2% 升至 78.6%
这说明提示设计的细节,哪怕是很小的改动,也能帮助模型更精准地理解 " 我想要什么 "。
4. 相对判断,比绝对判断更有效
我尝试不再让模型判断 " 这篇文章我喜欢吗 ",而是改问:" 这两篇文章中,我更喜欢哪一篇?"
这种更接近人类真实选择方式的问题结构,效果明显:
没有背景信息时,准确率只有 49.1%
加入品味准则后提升至 62.3%
加入 DSPy 优化后,提升至 62.9%
而在 Hacker News 的 " 二选一 " 判断中:
无上下文时为 58.7%
加入品味提示提升至 77.3%
DSPy 优化后更是达到了 80.9% ——这是本次所有实验中准确率最高的一组。
这种相对判断方式,可能揭示了人类与 AI 在偏好决策上都更擅长比较,而非判断绝对值。
四、80% 的准确率,是奇迹,还是隐忧?
实验结果验证了我的一个猜想:LLMs 可以理解、编码并应用个体偏好。
但也显露出一些深层差异:
加入 " 品味准则 " 能将准确率提升近 18%;
" 二选一 " 判断方式更接近人类的行为逻辑;
在 Hacker News 这样的统一场景下,AI 更容易预测,而面对 Readwise 这种包含哲学、小说、深度文章等多元内容时,准确率明显下降。
这也提醒我们:当人类已经对某些内容 " 筛过一轮 " 后,AI 要在这些 " 我都感兴趣 " 的选项中选出 " 我最感兴趣的 ",变得更加困难。
五、预测与不可预测之间
这场实验让我既感到震撼,也隐隐不安。
基础模型在没有上下文的情况下,几乎等于乱猜。这说明人的兴趣判断是极为私密的,是非共识的——你觉得有趣的,别人不一定能感同身受。
但一旦加入那段描述我的 " 品味 " 的提示,模型就能以超过 80% 的准确率预测我的点击行为。它不需要成千上万条样本数据,只要一段短短的文本。
这是令人震惊的:我们自认为高度个体化的行为,居然能被一句话浓缩、被机器复制。
尤其在 Readwise 的实验中,AI 发现我 " 感兴趣 " 的主题没问题,比如我对意识研究、哲学家的兴趣,但它无法准确判断:哪一篇能真正吸引我读完,哪一篇我可能看两段就放弃了。
AI 的确在快速接近我们,但真正的 " 味道 " ——那些细腻的感知、偶然的共鸣、理性之外的喜欢——仍然保留在人类身上。
那是机器还碰不到的 20%。但我感觉,这 20%,也许已经没那么远了。
登录后才可以发布评论哦
打开小程序可以发布评论哦