钛媒体 12-03
刚刚!字节跳动豆包上线图片理解,大模型走向多模态
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

(图片来源:林志佳拍摄)

国内活跃度最高的 AI 大模型应用正走向 " 多元化 "。

12 月 3 日消息,钛媒体 AGI 获悉,字节跳动豆包日前上线了一项实用功能——图片理解。目前,豆包 APP 及豆包 PC 新增照片及相机按钮,上传图片后可识别图片内容。

相比普通的 OCR 识别(光学字符识别)技术,豆包的 " 图片理解 " 并非识别文字,而是识别图片信息。比如,问一个景点在哪里,问动漫人物是谁,豆包都能流畅进行回答。

再比如,早前,马斯克创立的人工智能公司 xAI 宣布为 Grok 增加了图像理解功能,而马斯克本人也出来官宣了,并发布以下图片,称 "Grok 现在能够理解图像了,甚至还可以解释笑话 "。

这是一幅四格漫画,内容是一个关于物理学家和牛顿的笑话。把这个四格漫画发给豆包,也能看到它对这个笑话的解析。

1. 第一格:文字:"HOW DO WE KNOW IF THEY'RE ACTUALLY DEAD OR JUST PRETENDING"(我们怎么知道他们是真的死了还是只是假装?)图像:两个人站在战场上,周围有许多倒地的士兵。

2. 第二格:文字:"PHYSICISTS"(物理学家),图像:两个人开始观察和思考。

3. 第三格:文字:"Discovered"(发现了),图像:两个人似乎有了某种发现,表情变得兴奋。

4. 第四格:文字:"Isaac Newton invented gravity"(艾萨克 · 牛顿发明了重力),图像:两个人得出结论,表情满意。

笑话解析:这个笑话讽刺了物理学家有时会提出一些看似荒谬但却基于科学理论的解释。漫画中的两个人在战场上看到士兵倒地,他们没有考虑士兵是死是活,而是思考这背后的科学原理。最后,他们得出结论是牛顿发明了重力,暗示士兵是因为重力而倒地。这种思维方式幽默地表现了物理学家对科学原理的执着和有时不切实际的思考方式。

你认为,上述这个解析结果怎么样?符合事实吗?

事实上,随着 AI 大模型狂飙两年,企业越来越多瞄向更实用的落地场景," 图片理解 " 就是其中一项,它可以解决一些搜索、查找评估、文本写作等场景的需求,这使得大模型更加贴近实用场景需求。

QuestMobile 最新数据显示,2024 年 10 月,AI 原生应用行业月活跃用户规模达到 8976 万,同比增长 373.0%。用于情感陪伴、职场办公、趣味休闲、文案写作、教育学习、生活助手、图像生成、行业顾问等场景中。

公开资料显示,字节跳动的豆包 App 已经成为中国日活用户最高的 AI 大模型产品。

同时,截止到 2024 年 10 月,在网页端访问量方面,Kimi 智能助手、文心一言、豆包、通义千问分别达到 2863 万、2111 万、1688 万、1012 万;在移动端 AI 原生应用方面,行业月活规模总数达到 8976 万,同比增长 373%,其中,豆包、Kimi 智能助手、文小言月活跃用户分别为 4839 万、1650 万、1179 万。

随着 AI 浪潮的兴起,各大厂商都在积极探索与 AI 大模型融合发展的新契机,AI 有望引领全球新一轮科技创新周期,从而促使效率进一步增长。

据 Statista 数据显示,预计到 2030 年,全球 AI 领域规模将超过 1.8 万亿美元。

(本文首发于钛媒体 App,作者|林志佳,编辑|胡润峰)

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

逗玩.AI

逗玩.AI

ZAKER旗下AI智能创作平台

相关标签

牛顿 ai 马斯克 字节跳动 物理学家
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论