钛媒体 8小时前
这一次,OpenAI干掉了90%人类设计师
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

文 | 硅基星芒

Sam Altman 那个著名的梗,这次应验在所有人身上了。

去年宣传 GPT-5 的时候,这位 OpenAI 的 CEO 说了一句后来被全网玩坏的话:" 那种感觉,就像看到原子弹爆炸,整个人眩晕瘫坐。" 此后每逢 AI 圈发布新品、配上夸张文案,这个梗就被拉出来反复鞭尸。

但前天深夜,眩晕瘫坐的可不是奥特曼。这回成了所有盯着屏幕等 OpenAI 出牌的用户。

奥特曼照例故作神秘,发了一条推文:" 我们准备了一些有趣的东西。"

到了凌晨三点,GPT-Image 2 落地。全球 AI 界直接炸场。

"Images are a language, not decoration."

这是 OpenAI 写在发布页上的第一句话。翻译过来就一个意思:从今天起,图像不再是装饰品,它本身就是语言。这是对整个计算机视觉行业发出的代际跃迁宣言。

过去一整年,AI 绘图还困在 " 画得像不像 " 的审美泥潭里。GPT-Image 2 一出现,直接按下了切换键——AI 生图正式进入 " 逻辑对不对 " 的智力考场。

这款模型的精度,用 " 恐怖 " 来形容不过分。

在 Artificial Analysis 的文生图和图像编辑排行榜上双双登顶,实战表现更是碾压级的。

那种感觉,就像视频生成领域 Seedance 2.0 降临时一样,它早就不当人类的辅助工具了,它在定义新的行业标准。

注:本文的图片全部由 GPT-Image 2 生成,图片内容纯属虚构。

01   思维引擎的觉醒

过去,人们评判一个图像模型好不好,第一标准是像不像真人、像不像参照物。

在 GPT-Image 2 这个怪物面前,这套标准过时了。彻底过时。

新模型最核心的突破点在这儿:它是一个支持思考模式的图像模型。

什么意思?用户输入提示词之后,模型不再简单去噪、拼接像素。它先在后台完成一次思维建模,再动笔。

Linux.do 社区流出的一张实测图最能说明问题。模型模拟了雷军直播跑步的画面:

图源:https://cdn3.linux.do/original/4X/0/f/3/0f37c8bc968e3d563cc6100d8e7f80ee305661ff.jpeg

这张图让不少开发者倒吸一口凉气。雷总面部特征精准还原——简直像照片——图中还赫然显示着:直播目标 1313km、已跑里程 425.7km、剩余里程 887.3km。更绝的是,当前海拔标着 3658m。

3658m 是什么概念?从北京到拉萨,进入藏区的典型海拔,恰好就是这个数。

在人类眼里,这不过是简单的数学加减法和地理常识。但请你想一想:对于一个图像模型来说,数学逻辑 + 地理常识 + UI 规范的三重统一,意味着什么?

结论很直接:在生成第一个像素之前,GPT-Image 2 已经完成了一轮推理。它理解了 " 里程 " 的含义,理解了加减法的逻辑关系,也理解了高海拔地区的视觉特征。

这哪里是画画。这是思考。

02   从玩具到生产力

在这种能力面前,所有人对图像模型的态度,该变一变了。

它早就不是你拿来画头像、做壁纸的玩具了。一脚迈过 " 可用 " 门槛,直接冲进 " 好用 " 区间——一个能扔进商业场景直接干活的工具。

拿海报设计来说。GPT-Image 2 的构图审美、光影处理、对品牌调性的拿捏,毫无疑问达到了绝大多数普通人类设计师难以企及的高度。

图源:https://cdn3.linux.do/original/4X/7/a/1/7a12ccd6b745be5ad8828eb0ac225d218fb43cbc.jpeg

在人类社会中,聘请一位高级美工设计一张商业级海报,沟通成本、时间成本和上千元的设计报酬往往对中小企业来说是沉重的负担。

然而,有了 GPT-Image 2,即使效果不满意调整几十次,成本也不过是几美元的级别。

在海报设计、营销素材、插画配图这些领域,用户在乎的根本不是 " 真不真 ",在乎的是 " 好不好看、准不准 "。正因如此,AI 的替代效率是毁灭性的

在同步更新的开发者文档中,还隐藏着一个令人兴奋的细节:示例代码中频繁出现了 model:   "gpt-5.4"。

思考模式加上旗舰模型,这个组合暗示了一件事:GPT-Image 2 绝非孤立产品。它是为下一代大语言模型而生的视觉终端。

通过新的 Responses API,生图过程会像和大语言模型聊天一般自然地交互。模型新增了允许多轮对话修改的功能,首次生图结束后,用户可以提出各种让乙方头疼的指令进行修改。

通过新的 Responses API,生图过程会像和大语言模型聊天一样自然交互。模型新增了多轮对话修改功能,第一版生成后,用户可以提出各种让乙方设计师血压飙升的指令:" 背景再暗一点。""Logo 往旁边挪几个像素。"

这些交互式实时修改需求,恰恰是设计师日常工作中最繁琐、最消耗耐心的部分。现在,迎刃而解。

03   中文渲染的巅峰

GPT-Image 2 虽然是国外的模型,国内用户却一边倒地叫好。

原因只有一个:它对汉字的支持,堪称完美。

在社区的实测返图中,你能看到罗永浩和王自如的名场面辩论:

图源:https://cdn3.linux.do/original/4X/0/9/7/097ed46991d2464442aebc6b1076a292cc839fec.jpeg

能看到马斯克直播带货老干妈:

图源:https://cdn3.linux.do/original/4X/2/f/a/2fa77cf040e6337643829df4ec5ca6467d2866b2.jpeg

甚至能看到医生写的药方:

图源:https://cdn3.linux.do/original/4X/9/f/f/9ffeab83675648b43116cd0763f6c8b560611ae6.jpeg

这些图片中的文字,早已不再是歪七扭八、胡乱拼凑的 " 伪汉字 ",而是具备书法韵味、字体层次感和排版艺术的成熟设计稿。

显然,OpenAI 在训练集里灌入了海量中文语料图像,做了针对性强训

和前代模型比起来,GPT-Image 2 的强大得以更加淋漓尽致地体现。

在对比测试中,前代模型 1.5 版本虽然能画出像菜谱的东西,但仔细一看,文字几乎全是乱码。

图源:https://cdn3.linux.do/optimized/4X/2/b/3/2b38f3c1a134515d564f07f81661c0bd9578c6b9_2_750x750.jpeg

但 GPT-Image 2 生成的相同菜谱,却让人看到了文字清晰度和审美已经有了里程碑式的突破。

图源:https://cdn3.linux.do/original/4X/0/2/5/02513b10135d824ccb1c22bd0c7eb441f1e34455.jpeg

对于上百个中文字符的提示词,五个步骤仍然清晰可见,图文一致性令人满意。这不仅是一张图,还是一套可复现的实操方案。

不过,这里也带出一个有趣的技术问题:图像模型真的彻底解决了乱码问题吗?

我的判断是:恐怕没有。

大语言模型生成 token,靠的是语义逻辑。强化学习阶段以概率为依据,高质量语料越多,逻辑越合理。但图像模型的本质,终究是像素生成。像素之间的逻辑关系,跟文字之间的逻辑关系,根本不是一回事。

换句话说,强大如 GPT-Image 2,也并没有真正 " 理解 " 文字的规律。它只是死记硬背了文字在像素层面上的长相。

一张与奥特曼谈生意的图暴露了这一点:两箱饮料包装上大大的 " 蒙牛 " 和 " 王老吉 " 写得极其完美,底下的小字却依然是模糊的色块。

图源:https://cdn3.linux.do/original/4X/d/7/c/d7c4fb063202bcbf56b9ca0623aa0ce6fc26e542.jpeg

在现有技术范式下,生成逻辑还是 " 按像素排布 ",离 " 按字符渲染 " 差着本质的一步。极细微处的乱码,可能永远无法彻底根除。

但话说回来,对 90% 以上的商业应用场景而言,这已经足够了。

04   尚未封神的缺陷与边界

即便已经坐上世界第一的宝座,GPT-Image 2 也有它笨拙的一面。

实测中发现,由于思考模式会调用联网搜索并进行逻辑推演,在处理极其复杂的虚构任务时,模型偶尔会陷入逻辑怪圈——思考了接近 40 分钟,仍然无法作答。

与此同时,API 宣称的支持 2K 甚至 4K 分辨率,意味着极高的 token 消耗和延迟。

对于普通用户来说,如何在极致画质和响应速度之间取得平衡,是未来使用中的必修课。

在技术领域,强大的能力永远是一把双刃剑。

无论是图像模型还是视频模型,都不可避免地要面对深度伪造的伦理挑战。

目前的大部分实测案例中,AI 生成的都是知名人物,但若是将他们换成各种社交媒体上发布过照片的普通人,在不认识本人的情况下已经极难分辨出真假。

除了背景中偶尔出现的乱码可能会让 AI 露馅,人体本身已经没有任何破绽。

因此,那些曾经必须由真人完成的领域,正在面临着前所未有的信任危机。

GPT-Image 2 的发布,让生图模型从玩具走向了生产力工具。

过去人们用 AI 提供灵感,而如今的 AI 开始尝试接管从构思、计算、排版到成品的全流程。

对于设计从业者来说,这是一个充满 FOMO 的时代。

但对于那些善于利用工具、具备产品审美和逻辑思维的人来说,这又是一个最好的时代。

图像开始学会思考,文字不再是像素的杂音。

人们距离那个所思即所得的视觉奇点,可能真的只有一步之遥了。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

奥特曼 雷军 眩晕 计算机视觉 翻译
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论