一个 AI 玩 41 个游戏,谷歌最新多游戏决策 Transformer 综合表现分是 DQN 的两倍
谷歌 AI 宣布,在多任务学习上取得了巨大进展:他们搞出一个会玩 41 款雅达利游戏的 AI,而且采用的新训练方法比起其他算法,训练效率大大提升!

此前会玩星际争霸的 CherryPi 和火出圈的 AlphaGo 都属于单游戏智能体(Agent),也就是说,一个 AI 只会玩一种游戏。多游戏智能体这边,现有的训练算法屈指可数:主要包括时间差分学习算法(Temporal Difference Learning,TD)和行为克隆(Behavioral Cloning,BC)等。
不过为了让一个智能体同时学会玩多款游戏,之前的这些方法的训练过程都很漫长。
现在,谷歌采用了一个新决策 Transformer 架构来训练智能体,能够在少量的新游戏数据上迅速进行微调,使训练速度变得更快,而且训练效果也是杠杠的 —— 该多游戏智能体玩 41 款游戏的表现综合得分,是 DQN 等其他多游戏智能体的 2 倍左右,甚至可以和只在单个游戏上训练的智能体媲美。

△ 100% 表示每款游戏的人类平均水平,灰色条代表单游戏智能体,蓝色条代表多游戏智能体
下面就来看看这个性能优秀的多游戏智能体。
新决策 Transformer 三大亮点
这个处理多款游戏学习的 Transformer,采用了一个将强化学习(Reinforcement Learning,RL)问题视为条件序列建模的架构,它根据智能体和环境之间过去的互动以及预期收益,来指导智能体的下一步活动。
说到强化学习,其讨论的主要问题是:在训练过程中,一个面对复杂环境的智能体,如何通过在每个 Time Step 里感知当前状态和 Reward 来指导下一步动作,以最终最大化累计收益(Return)。

传统的深度 RL 智能体(如 DQN、SimPLe、Dreamer 等)会学习一个策略梯度(Policy Gradient),让高 Reward 的轨迹出现概率变大,低 Reward 的轨迹出现概率变小。
这就导致它出现一些问题:即需要手动定义一个信息量很大的标量值范围,包含针对于每个特定游戏的适当信息。这是个相当浩大的工程,而且拓展性较差。
为了解决这个问题,谷歌团队提出了一个新方法。
训练纳入数据更多样化
谷歌的这个新决策 Transformer,把从入门玩家到高级玩家的经验数据都映射到相应的收益量级(Return Magnitude)中。开发者们认为,这样可以让 AI 模型更全面地“了解”游戏,从而让其更稳定并提高其玩游戏的水平。
他们根据智能体在训练期间与环境的互动,建立了一个收益的大小分布模型。在这个智能体玩游戏时,只需添加一个优化偏差来提升高 Reward 出现的概率。
此外,为了在训练期间更全面地捕捉智能体与环境互动的时空模式,开发者还将输入的全局图像改成了像素块,这样模型就可以关注局部动态,以掌握游戏相关的更多细节信息。

△ 决策 Transformer 基本架构示意图
可视化智能体训练过程
此外,开发者们还别出心裁地将智能体的行为可视化。然后他们发现,这个多游戏决策智能体一直都在关注着包含关键环境特征等重要信息的区域,而且它还可以“一心多用”:即同时关注多个重点。

△ 红色越亮表示智能体对那块像素的关注度越高
这种多样化注意力分配也提高了模型的性能。
拓展性更好
如今规模已成为许多机器学习相关突破的重要驱动力之一,而规模拓展一般是通过增加 Transformer 模型中的参数数量来实现的。研究者发现,这个多游戏决策 Transformer 也是类似的:随着规模扩大,和其他模型相比,其性能提升显著。

Facebook 也在研究决策 Transformer
谷歌 AI 使用决策 Transformer 不仅提高了 AI 玩多个游戏的水平,还提升了多游戏智能体的扩展性。
除此之外,据谷歌大脑、加州大学伯克利分校和 Facebook AI Research 合作的一篇论文介绍,决策 Transformer 架构在强化学习研究平台 OpenAI Gym 和 Key-to-Door 任务上也表现出色。

或许决策 Transformer 正是通用人工智能(AGI)发展的关键因素之一。
对了,谷歌 AI 表示,相关代码和 Checkpoint 会在 GitHub 上陆续开源,感兴趣的小伙伴们可以去看看~
传送门:
https://github.com/google-research/google-research/tree/master/multi_game_dt
参考链接:
[1]https://twitter.com/GoogleAI/status/1550260410686644224
[2]https://ai.googleblog.com/2022/07/training-generalist-agents-with-multi.html
[3]https://arxiv.org/abs/2106.01345
[4]https://zhuanlan.zhihu.com/p/354618420
相关文章
- 微软新专利获批:Win11 剪贴板集成 Copilot AI,复制粘贴变智能处理
- 微软 2026 年 Win11 游戏硬件指南发布!分档推荐更清晰
- 微软 11 月可选更新 KB5070311 修复任务栏崩溃与游戏卡顿
- Epic 喜加一:手绘风格科幻冒险游戏《出售宇宙》免费领取
- AMD 最新显卡驱动 25.10.2 版本发布!更新内容一览
- Win10游戏专用版下载-游戏玩家专用Windows10系统下载推荐
- Win10日志文件srttrail.txt无法开机使用命令行修复方法
- Win11无法连接Airpods的解决方法
- Win11 24H2关闭Recall AI回顾功能的方法
- win10怎么关闭防火墙提示打游戏?win10关闭防火墙提示打游戏教程
系统下载排行榜71011xp
【纯净之家】Windows7 64位 全新纯净版
2番茄花园 Win7 64位 快速稳定版
3【纯净之家】Windows7 32位 全新纯净版
4【纯净之家】Win7 64位 Office2007 办公旗舰版
5【雨林木风】Windows7 64位 装机旗舰版
6【纯净之家】Windows7 SP1 32位 全补丁旗舰版
7【电脑公司】Windows7 64位 免费旗舰版
8JUJUMAO Win7 64位旗舰纯净版
9【深度技术】Windows7 64位 官方旗舰版
10【游戏专用】Windows7 64位 装机旗舰版
【纯净之家】Windows10 22H2 64位 游戏优化版
2【纯净之家】Windows10 22H2 64位 专业工作站版
3【纯净之家】Windows10 企业版 LTSC 2021
4【纯净之家】Windows10企业版LTSC 2021 纯净版
5【深度技术】Windows10 64位 专业精简版
6【纯净之家】Windows10 22H2 64位 企业版
7【雨林木风】Windows10 64位 专业精简版
8JUJUMAO Win10 X64 极速精简版
9【深度技术】 Win10 64位国庆特别版
10【纯净之家】Windows10 32位 官方正式版
【纯净之家】Windows11 23H2 64位 游戏优化版
2【纯净之家】Windows11 23H2 64位 专业工作站版
3【纯净之家】Windows11 23H2 64位 纯净专业版
4风林火山Windows11下载中文版(24H2)
5【纯净之家】Windows11 23H2 64位 企业版
6【纯净之家】Windows11 23H2 64位 中文家庭版
7JUJUMAO Win11 24H2 64位 专业版镜像
8【纯净之家】Windows11 23H2 64位专业精简版
9【纯净之家】Windows11 23H2 64位 纯净家庭版
10JUJUMAO Win11 24H2 64位 精简版镜像
深度技术 GHOST XP SP3 电脑专用版 V2017.03
2深度技术 GGHOST XP SP3 电脑专用版 V2017.02
3萝卜家园 GHOST XP SP3 万能装机版 V2017.03
4Win7系统下载 PCOS技术Ghost WinXP SP3 2017 夏季装机版
5番茄花园 GHOST XP SP3 极速体验版 V2017.03
6雨林木风 GHOST XP SP3 官方旗舰版 V2017.03
7电脑公司 GHOST XP SP3 经典旗舰版 V2017.03
8雨林木风GHOST XP SP3完美纯净版【V201710】已激活
9萝卜家园 GHOST XP SP3 完美装机版 V2016.10
10雨林木风 GHOST XP SP3 精英装机版 V2017.04
热门教程
装机必备 更多+
重装工具