作者|Hayward
原创首发|蓝字计划
过去半年, AI 行业可谓是群芳争艳。
DeepSeek R1 横空出世成了明日之星,腾讯元宝、豆包、夸克等也搭上了 DeepSeek 的便车吃香喝辣,还有誓要在技术上和 DeepSeek R1 的一较高下的阿里通义千问捷报频频…
唯独去年的投放王者,铺天盖地出现在各个广告位的 kimi,好像一下子没了消息。
而就在这几天,我们终于等到了 kimi 的 " 大动作 "。4 月 28 日,kimi 宣布和财新传媒达成合作,当用户使用 Kimi 提问财经相关内容时,Kimi " 将结合财新传媒旗下专业报道内容,通过模型生成答案,为你提供及时、可信、可证的高质量财经信息 "。
好家伙,当我们以为 kimi 已经摆烂躺平的时候,原来还是有在暗地里偷偷努力的。
选择和财新网合作发力财经垂直领域, kimi 的确对 AI 工具的发展路线有了一些自己的新思考。
毕竟只比模型能力, kimi 肯定不如能免费接入的 DeepSeek ,但与专业财经媒体强强联合,甚至日后拓展到和更多垂直领域的专业媒体合作提供信源,能增强 kimi 在特定垂直领域的公信力,长期来看大有可为。
不过在 kimi 发布了合作消息后,我就第一时间测试了拥抱新功能的 kimi。从测试结果来看,我有点想收回上面划线的这段话……
向AI 幻觉开刀
kimi这波和财新网的合作,长期来看是能给其他 AI 工具带来一些启发的。
自 2025 年初 AI 大爆发以来,各式各样的 AI 工具不仅给我们带来了便利,也带来了一些问题,最严重的要数 "AI 幻觉 "。
简单来说,AI 幻觉指由 AI 生成的看似合理但实际错误的信息。这些信息可能是一段文字里的部分数据、可能是不同场景的张冠李戴,甚至可以是某个论断全是无中生有的。
这很容易会给 AI 的使用者带来全方位的不安全感,这就意味着不仅你用 AI 来查数据容易得出错误的信息,甚至一些学术概念、对某些事物的定义都可能是 AI 自己编造出来的。
目前业界对于 AI 幻觉的成因还没有一个统一且准确的答案,但普遍认为 AI 幻觉和训练 AI 的数据缺陷、模型或训练机制缺陷、生成和推理缺陷和外部环境与验证的缺失等有关。
这几个原因中,数据缺陷最为关键。如果在训练 AI 时喂养了错误或过时的数据,输出时就容易给出错误的答案,可以理解为 AI 被 " 教坏了 "。
而数据又是 AI 输出答案的 " 源头 ",一开始的数据就错了,无论后期模型结构和训练数据的方式如何调整、生成和推理过程怎么优化,都很难输出正确的答案。
特别是财经领域的内容,权威数据、专业论断是底色,确保 AI 所引用的数据来源的权威性这件事的确非常重要。
相比过去一些 AI 工具用各种方式筛选可靠信源的做法,kimi 的确算得上 " 简单粗暴 ",直接和权威的信源合作,更加细化地限定了 AI 资料来源的范围,理论上的确能在数据来源层面降低 kimi 出现 AI 幻觉的可能性。
那 Kimi 和财新网合作之后到底效果怎么样?咱们直接来实测看看。
不尽人意
刚好 4 月 29 日瑞幸发布了 2025 年第一季的的财报,当前对财报进行分析的媒体还不多,这是个测试 kimi 能不能胜任财报分析工具的好机会。
在 kimi 的问题窗口中我选中「长思考」增强大模型的逻辑推理能力,提示词为 " 分析一下瑞幸的最新财报 ",可以看到 kimi 的确能识别到所谓的 " 最新财报 " 是指 2025 年第一季度财报。
在关键的数据抓取方面,总净收入、营业利润与利润率还有 GMV 等没有出现数据错误的问题,对于瑞幸大家比较关心的门店数量、扩张情况还有成本等信息,kimi 也能给到了。
不过,kimi 的这份 " 财报分析 ",更像是一种数据的提取和汇总,对于瑞幸业务的整体趋势、变化与增长,没有太详细的见解。
而且更令人无语的是,问 kimi 这个问题,我根本不知道和财新网合作给 kimi 带来了多少助力:因为整个回答的内容引用,根本没见到财新网的影子。
难道是财新网根本没有写瑞幸最新财报的分析?No No No,4 月 30 日财新才新鲜出炉了一篇针对瑞幸最新财报的分析,标题为《瑞幸咖啡一季度同店销售额重回增长 黎辉接任公司董事长》。
如果你想在让 kimi 和财新网的内容联结起来,得把提示词换成 " 结合财新网的内容,对瑞幸最新的财报进行分析 "。
这时,在数据来源这一块终于能看到带有小蓝标的财新网了。除了上面提到的财新网最新的财报分析外,还引用了不少财新网之前为瑞幸撰写的文章,同时 kimi 也会参考第三方财经平台的内容,对瑞幸的财报进行分析。
内容方面,调整了提示词后新的内容的确更加扎实,在数据之外还会对内容进行进一步的概括和总结,比如在谈及瑞幸的财务数据时,会结合历史同期的数据,总结出 " 盈利能力正在不断增强 " 的观点。
另外,由于财新网的文章重点提到了瑞幸的管理层变更及后续影响,kimi 的财报分析也在最后段落增加了相关内容,让分析的段落格式和财新的内容基本保持一致。
客观来说,加入了财新网的关键词后的确能提高整篇财报的可读性,特别是部分段落融入了财新网的观点后,让文章内容更加丰满,能帮助财经小白更容易看穿冷冰冰数字背后的深意。
只是,依然尴尬的点是,调整提示词后的财报分析,只有最开始的一段数据来源是财新网,后续内容的数据依然是来自第三方网站,理想中的 " 财新网为 kimi 背书 " 的作用有限。
特别是如果不添加提示词,kimi 大概率不会主动抓取财新网的内容作为数据来源,这对用户的学习成本就有点高了。而且哪怕添加了专门的提示词后来自财新的内容也不多,这毫无疑问会削弱 kimi 在财经这一垂直领域的 " 专业 " 印象。
再者,对比 kimi 输出的内容和财新原版的内容,kimi 更多只在做提取部分内容进行总结、加工的工作,从内容专业度、权威性来考虑,可能还不如直接看财新网的报道更加简单直接。
不过考虑到想看财新网的全部内容需要付费订阅,或者 kimi 的意义就在于作为一个免费渠道看财新网的付费新闻?
但财新网自身的价值就在于付费订阅业务,于情于理都不可能答应的,而 Kimi 的最终目的肯定也不止于此。
所以目前看来 kimi 看似和财新是 " 强强联合 ",但根本没有发挥出这次合作应有的价值。
Kimi 的根本问题在于,即便有权威媒体作为信源,但依然没有能力在 AI 生成方面结合数据生成独特的、有价值的答案来。
这里再浅浅对比一下 DeepSeek R1,同样的 " 分析一下瑞幸的最新财报 " 提示词,DeepSeek 给出的财报分析十分详细,除了常规的财务表现、门店表现、成本和市场战略等数据外,还主动提到了董事会调整、股权结构变化的关键信息。
最后的瑞幸财报所体现的风险和未来展望,更是 kimi 的财报分析中没有的。
在分析的细致程度上也是 DeepSeek 更胜一筹。比如在分析成本压力时,DeepSeek 会提到和咖啡豆的成本上涨有关,而 kimi 只用一句 " 成本有所上升 " 简单带过。
你看,不需要接入专业、权威信源的 DeepSeek,照样能输出和 kimi 不相伯仲的内容来。
你很难说 kimi 选择的这条路线没意义,但 kimi 的阿喀琉斯之踵,依然是大模型性能。
算力是一切
引用优质数据源,只是对付 AI 幻觉、提升体验最基础的第一步。除此之外还需要更先进的 LLM、匹配更高算力、更强大算法并对内容进行审核检验等,多个步骤协同进化,提升大模型的整体性能,才能将 AI 幻觉降到最低。
所以你可以看到哪怕 DeepSeek 没有像 kimi 和专业的数据源合作,也能提供更优秀的内容,这背后是 DeepSeek 在 LLM 层面、算力 / 算法层面全面领先的证据。
Kimi 和 DeepSeek 模型能力的差距,已经是引入权威信源都无法弥补的了。
同时这也揭露了当前 AI 工具领域的一个残酷事实:算力就是一切。
大公司或技术领先公司,能拿到更多算力、能更高效运用算力、能更好的发挥算法优势,最终训练出更加先进、聪明的大模型,模型能力的差距能抹平一切 " 弯道超车 " 的手段。
" 力大砖飞 ",可能才是 AI 的唯一出路。
其实在测试之前,我对 kimi 还是保有很高期待的。众所周知财经问题对数据的准确性非常高,一些事实判断也需要非常高的专业度,这些都是使用 AI 工具咨询财经问题时最怕出现幻觉的痛点。
本以为 kimi 和财新的合作是一次颠覆,但至少目前看来,kimi 想要开辟出一条全新的道路还 " 任重道远 "。
或许,AI 幻觉问题还是只能交给万众期待的 DeepSeek R2 来解决了?
历史文章
Review
登录后才可以发布评论哦
打开小程序可以发布评论哦