日前,谷歌旗下 AI 研究团队 DeepMind 发布了一款名为 GameNGen 的 AI 游戏引擎。据悉,这也是首个完全由神经网络模型驱动的游戏引擎,能够实时生成游戏画面、并且每一帧都由扩散模型预测。
据 DeepMind 方面透露,GameNGen 能够根据玩家操作和环境的交互,在单个 TPU 上以每秒超过 20 帧的速度实时预测、生成高质量且复杂的游戏画面。以经典射击游戏《毁灭战士(DOOM)》为例,GameNGen 所生成的画面质量与真实游戏非常接近,并且完全不需要游戏引擎的常规组件,其下一帧预测的峰值信噪比(PSNR)为 29.4、可与有损 JPEG 压缩相当。
据悉,GameNGen 的训练分为 2 个阶段,即首先通过一个 RL-agent(强化学习)代码学习如何玩游戏、并记录训练过程中的动作和结果。再通过训练一个小型的扩散模型(如 Stable Diffusion v1.4)、以过去帧和动作序列为条件来生成下一帧。随后在训练过程中向上下帧添加高斯噪声,从而使得模型能够在长时间生成过程中保持视觉稳定性。
对此有观点认为,除了节省成本和时间之外,AI 驱动的游戏引擎可能会促生全新的游戏类型,其中的环境、叙事和游戏机制会根据玩家的行为动态发展,这一创新可能会重塑游戏市场的格局,从而使得该行业从 " 以大片为核心 " 的模式、转向更加多样化的生态。
但同时也有业内人士表示,当前的 GameNGen 是针对特定游戏(即 DOOM)量身定制,开发能够运行多个游戏、更通用的 AI 游戏引擎可能仍然需要更强大的算力做支撑持。
此外,英伟达高级科学家 Jim Fan 也指出了 GameNGen 存在的一些限制,例如 " 在单个游戏上过拟合到了极致 "、" 无法想象新场景,无法合成新的游戏或交互机制 ",以及 " 无法实现用提示词创作可玩世界,或用世界模型训练更好的具身 AI" 等。
但 Jim Fan 也补充到," 不管怎么说,GameNGen 仍是一个非常出色的概念验证。至少我们现在知道,9 亿帧是将高分辨率 DOOM 压缩到神经网络中的上限 "。
【本文图片来自网络】
登录后才可以发布评论哦
打开小程序可以发布评论哦