黄仁勋预言步入现实谷歌展示实时游戏生成AI模型GameNGen

原创

2024-08-29 11:11 星期四

财联社史正丞

①通过机器学习，研究人员让GameNGen模型成功实时生成90时代的第一人称射击游戏《毁灭战士》；
②虽然成品仍显粗糙，该研究进一步展现出未来AI生成游戏的前景；
③英伟达CEO黄仁勋曾预言，大概在5-10年内就能看到完全由AI生成的游戏。

财联社8月29日讯（编辑史正丞）由AI模型实时生成游戏的时代，已经悄然来到了我们身边。

本周来自谷歌公司和特拉维夫大学的研究人员发表了一篇名为《Diffusion模型是实时游戏引擎》的论文，介绍了计算机历史上第一个完全由神经网络模型支持的游戏引擎GameNGen。

（来源：Github）

研究人员在论文中写道：“今天，电子游戏是由人类编程的，GameNGen是游戏引擎新范式的部分概念验证——游戏将会变成神经模型的权重，而不是代码行。”

换一种更容易理解的说法，目前所有的电子游戏都是预先设计好的，开发者需要编写代码、准备游戏文本和贴图模型，然后放置在游戏地图上——游戏画面的渲染和状态更新取决于手动编辑的规则。但GameNGen模型打开了一个完全不同的思路：使用AI生成模型，根据玩家的动作和反应，实时演算和生成游戏画面。

在演示中，研究人员通过机器学习，让GameNGen模型成功实时生成90时代的第一人称射击游戏《毁灭战士》。视频显示，在AI生成的游戏中，玩家可以在场景中转弯、发射武器，同时能够准确反映剩余的子弹数量、遭到攻击后的剩余血量，以及是否满足打开下一个关卡所需的条件。

（来源：演示视频）

需要注意的是，上面看到的一系列画面，完全是AI实时生成的图像。最新的进展也显示，AI模型继成功生成文字、图像、音频和短视频后，可能存在生成游戏场景的能力，这对逻辑性、连贯性和实时交互的要求明显高出一大截。

他们是怎么做到的？

研究团队介绍称，为了训练这个能实时生成游戏的AI，首先需要训练一个强化学习（RL）代理来玩游戏，然后使用录制下来的片段来训练生成扩散模型，根据过去的画面和玩家动作来预测接下来的画面，这也是为什么AI生成的游戏能够展现生命值和弹药的变化，以及敌人受到攻击的动画。

更大的挑战在于让AI生成的图像保持时间和逻辑上的连贯性。为了减轻推理过程中的自回归漂移，研究人员在训练期间通过向编码帧添加高斯噪声破坏上下文帧，允许AI更正前几帧中采样的信息，从而长时间保持图像生成的稳定性。

（来源：研究论文）

研究人员披露，跑这个模型只需要单个TPU（谷歌自研AI处理器），就能实现每秒20帧的生成速度。

当然，上面这几段话也展现出GameNGen的局限性：这个AI必须依靠输入已有的游戏（或文字、图片等材料）来生成游戏。

英伟达高级研究经理&具身智能集团主管Jim Fan博士在社交媒体上评论称，GameNGen更像是一个神经辐射场（NeRF），而不是一个视频生成模型。神经辐射场通过从不同角度拍摄场景的图像，从而生成场景的3D展示。但这也意味着模型不具备泛化能力，无法“想象”新的场景。这也是GameNGen与Sora的不同点：它无法生成新的场景或交互机制。