IT时报 04-09
测评百度文心4.5和X1 进化后达到“智商”新高度了吗?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

搜索、解读视频和图片," 智商 " 在线

作者/   IT 时报记者   潘少颖

编辑/  潘少颖   孙妍

所有玩家从来没有放弃和停止在大模型领域的努力,最近,AI 搜索貌似又进入了新一轮赛跑,前有夸克打造了 "AI 超级框 ",紧接着,百度宣布发布文心大模型 4.5 及文心大模型 X1,在文心一言官网可免费使用。

之前,《IT 时报》记者在测试夸克的过程中,最大的感受是的确 " 聪明 " 了不少,不仅仅是一个简单的搜索工具,整理提炼材料、做 PPT、文生图等都 " 在行 ",当然,也需要不断调校。

此次,文心大模型 4.5 及文心大模型 X1 有拿得出手的 " 本领 " 吗?据介绍,文心大模型 4.5 的多项基准测试成绩优于 GPT4.5、DeepSeek-V3 等,在多模态理解能力上显著提升,不仅有图形推理、图表分析的 " 高智商 ",还具备理解梗图、漫画、歌曲、电影等多模态内容的 " 高情商 ",擅长中文知识问答、文学创作、逻辑推理等。

听上去像一个 " 全能手 ",不妨来测试一下 " 进化 " 后,文心一言的 " 智商 " 提升得怎么样。

搜索起家

用 X1 深度思考

作为从搜索起家的大模型,升级后的文心一言在搜索上有什么亮眼的表现?进入文心一言首页,选择 " 文心 4.5 模型 ",即可开始测试。

" 韵达快递为什么被立案调查 ",这是近日的一条新闻,文心一言搜索了 10 个来源,总结了这条新闻的前因后果,大量消费者反映收到韵达快递寄送的 " 诈骗小卡片 ",诱导消费者陷入诈骗圈套。通过新闻事实,文心一言分析了原因,是因为 " 上海韵达货运对加盟商管理缺位,负有未按规定履行安全保障统一管理责任 "。从回答来说,没有问题,但也没有惊喜,和其他大模型给出的答案差不多。

不过,当《IT 时报》记者把模型调为 " 文心 X1" 后,给出的答案就详细多了,分别从直接原因、行业背景和事件警示进行分析,比如在 " 直接原因 " 中,除了提到 " 韵达部分加盟企业在协议客户安全管理上存在严重疏漏,未对寄递物品进行严格筛查,导致大量涉诈骗宣传品通过快递渠道流入市场 " 之外,还给出了相关案例:湖南长沙消费者因扫描快递内的诈骗卡片损失 68 万元,以及浙江义乌截获超 1.7 万票涉诈快件。

《IT 时报》记者在其他平台上搜索这两个案例的真实性,在湖南长沙的案例中,虽然的确有消费者收到过韵达快递包裹中的诈骗卡片并遭受损失,但 68 万元这个数据并未得到确切证实,文心一言也并没有给出消息来源。随后,《IT 时报》记者追问文心一言 " 损失 68 万元的出处 ",文心一言表示诈骗事件确实存在,但具体金额需结合一些信息综合判断,文心一言给出了国家邮政局官方通报、多起案件累计损失等各种信息,建议记者根据这些信息综合判断损失金额,也就是之前文心一言给出 68 万元可能是它的一个 " 幻觉 "。

不过,文心一言能给出行业背景、事件影响等相关信息还是非常不错的,分析得也比较有条理,比如在 " 行业背景 " 的分析中,文心一言提到韵达采用 " 枢纽自营 + 末端加盟 " 模式,加盟制虽助力快速扩张,但管理失控问题凸显,包括利润挤压安全投入、技术滞后、责任转嫁等,可以让用户更深层地理解这个新闻事件。

如果想要详细的搜索结果,建议使用文心 X1 模型,当然,如果对数据、素材的准确性要求非常高,最好根据搜索结果再核实一下。

解读视频和图画  

" 智商 " 在线   

之前,《IT 时报》记者很少测试大模型对图表、视频的理解能力,既然图形推理、图表分析是文心一言的强项,这次必须考考它。

目前,文心 X1 模型还不支持上传视频,只支持上传文档和图片,文心 4.5 支持上传视频,常见的视频格式都兼容,单个视频文件大小不超过 20M。

《IT 时报》记者上传了一段此前在测试某餐厅小程序是否强制索取用户地理位置信息的视频,这段视频时长接近 1 分钟。" 这个视频主要讲了什么 ",很快,文心一言便给出了答案," 这段视频主要展示了用户在使用手机微信小程序时遇到的定位问题 ",大方向是对的。随后,文心一言几乎对每个画面都进行了讲解," 视频切换到一个名为‘ XXX ’的小程序界面,提示用户未授权定位服务,无法获取附近餐厅的位置,并提供‘获取位置’的按钮。接着,视频展示了手机设置中的定位服务选项,用户尝试开启定位权限但遇到了问题…… "

虽然很详细,但也讲解了不少无效画面,并没有概括出这个视频的主要内容,无法让用户迅速了解关键点。" 这个视频主要想展现什么问题 ",文心一言的概括是 " 在某些情况下,用户可能会因为定位权限的设置问题而无法正常使用某些需要地理位置信息的小程序功能 ",这个答案只能说对了一半,只看懂了表象,这个视频最想展示的是小程序强制索取用户地理位置信息的问题,这个点文心一言没有 get 到。

随后《IT 时报》记者上传了一张新闻漫画,这张漫画上,一只拿着放大镜的手,照在一沓纸上,纸上写着 " 毕业论文 " 和 "AI" 几个字,除此之外,再无其他提示。《IT 时报》记者分别用文心 4.5 和文心 X1,要求文心一言说出这张漫画想表达什么。两个大模型的回答都给出了几个不同的方向,比如 " 主要强调人工智能在学术研究中的应用广泛 " 等,但也都提到了这张图真正的含义:使用 AI 辅助写论文是否会影响学术诚信和原创性。的确,最近部分高校为 AI 使用立规,维护学术诚信,这张漫画灵感正来源于此。

总体来说,文心一言对视频和漫画的理解还是比较到位的,但仍然有进步的空间。

" 拎清 " 题意

画技 " 拖后腿 "

在文心一言首页的菜单栏里,有创意写作、阅读分析、智慧绘图等功能,每个功能都有诸多细分功能,比如 " 创意写作 " 中包括深度写作、改写、扩写等,还有不同的体裁可供选择。

在 " 智慧绘图 " 中,有文案配图、LOGO 设计、活动海报等。不少功能比较实用,比如手抄报,能根据输入的主题快速生成丰富多样的版式模板。" 生成五一劳动节手抄报模板 ",文心一言很快生成了几张,但不是每张手抄报都能用,有的手抄报上有非正规的文字;有的手抄报有手或笔在作画的样子,看上去就像一张图片;有的手抄报上的图 " 不太走心 ",无法拿来即用。

" 生成一张完整的关于五一劳动节的手抄报,有图片、主题、具体内容 ",对于这个要求,文心一言也未能较好地完成,生成的依然是模板,没有具体内容。

升级后,文心一言的画图功能有何长进?

之前,《IT 时报》记者让夸克根据 " 垂緌饮清露,流响出疏桐 " 作一幅画,夸克做了 3 次才达到满意的效果。同样,《IT 时报》记者把这首诗给文心一言,它画了一只挂在绿色柳树枝上的蝉,虽然画得没有夸克的第三次效果好,但对诗句的理解并没有错。

这是一张写实图片,随后,《IT 时报》记者让文心一言把这幅画改成水墨画、中国风,文心一言把柳树变成了竹叶,有点水墨的感觉,但蝉看上去非常不真实。根据整幅图的比例以及柳树的大小来看,这是一只硕大的蝉,蝉翼的颜色也和普通蝉不一样,感觉不是一只现实世界中的蝉。

文心一言还提供工具性功能,比如背景替换、局部重绘、一键消除等,但需要 VIP 才能使用。

页面提示,接下去这些功能也会免费开放。

排版/  季嘉颖

图片/  文心一言

来源/《IT 时报》公众号 vittimes

E N D

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

百度 ai 智商
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论