当前位置：纯净之家 > 电脑教程 > IT资讯 > 一个 AI 玩 41 个游戏，谷歌最新多游戏决策 Transformer 综合表现分是 DQN 的两倍

一个 AI 玩 41 个游戏，谷歌最新多游戏决策 Transformer 综合表现分是 DQN 的两倍

时间：2022-07-23 15:18:40

作者：admin

　　谷歌 AI 宣布，在多任务学习上取得了巨大进展：他们搞出一个会玩 41 款雅达利游戏的 AI，而且采用的新训练方法比起其他算法，训练效率大大提升！

一个 AI 玩 41 个游戏，谷歌最新多游戏决策 Transformer 综合表现分是 DQN 的两倍

　　此前会玩星际争霸的 CherryPi 和火出圈的 AlphaGo 都属于单游戏智能体（Agent），也就是说，一个 AI 只会玩一种游戏。多游戏智能体这边，现有的训练算法屈指可数：主要包括时间差分学习算法（Temporal Difference Learning，TD）和行为克隆（Behavioral Cloning，BC）等。

　　不过为了让一个智能体同时学会玩多款游戏，之前的这些方法的训练过程都很漫长。

　　现在，谷歌采用了一个新决策 Transformer 架构来训练智能体，能够在少量的新游戏数据上迅速进行微调，使训练速度变得更快，而且训练效果也是杠杠的 —— 该多游戏智能体玩 41 款游戏的表现综合得分，是 DQN 等其他多游戏智能体的 2 倍左右，甚至可以和只在单个游戏上训练的智能体媲美。

　　△ 100% 表示每款游戏的人类平均水平，灰色条代表单游戏智能体，蓝色条代表多游戏智能体

　　下面就来看看这个性能优秀的多游戏智能体。

　　新决策 Transformer 三大亮点

　　这个处理多款游戏学习的 Transformer，采用了一个将强化学习（Reinforcement Learning，RL）问题视为条件序列建模的架构，它根据智能体和环境之间过去的互动以及预期收益，来指导智能体的下一步活动。

　　说到强化学习，其讨论的主要问题是：在训练过程中，一个面对复杂环境的智能体，如何通过在每个 Time Step 里感知当前状态和 Reward 来指导下一步动作，以最终最大化累计收益（Return）。

　　传统的深度 RL 智能体（如 DQN、SimPLe、Dreamer 等）会学习一个策略梯度（Policy Gradient），让高 Reward 的轨迹出现概率变大，低 Reward 的轨迹出现概率变小。

　　这就导致它出现一些问题：即需要手动定义一个信息量很大的标量值范围，包含针对于每个特定游戏的适当信息。这是个相当浩大的工程，而且拓展性较差。

　　为了解决这个问题，谷歌团队提出了一个新方法。

　　训练纳入数据更多样化

　　谷歌的这个新决策 Transformer，把从入门玩家到高级玩家的经验数据都映射到相应的收益量级（Return Magnitude）中。开发者们认为，这样可以让 AI 模型更全面地“了解”游戏，从而让其更稳定并提高其玩游戏的水平。

　　他们根据智能体在训练期间与环境的互动，建立了一个收益的大小分布模型。在这个智能体玩游戏时，只需添加一个优化偏差来提升高 Reward 出现的概率。

　　此外，为了在训练期间更全面地捕捉智能体与环境互动的时空模式，开发者还将输入的全局图像改成了像素块，这样模型就可以关注局部动态，以掌握游戏相关的更多细节信息。

　　△ 决策 Transformer 基本架构示意图

　　可视化智能体训练过程

　　此外，开发者们还别出心裁地将智能体的行为可视化。然后他们发现，这个多游戏决策智能体一直都在关注着包含关键环境特征等重要信息的区域，而且它还可以“一心多用”：即同时关注多个重点。

　　△ 红色越亮表示智能体对那块像素的关注度越高

　　这种多样化注意力分配也提高了模型的性能。

　　拓展性更好

　　如今规模已成为许多机器学习相关突破的重要驱动力之一，而规模拓展一般是通过增加 Transformer 模型中的参数数量来实现的。研究者发现，这个多游戏决策 Transformer 也是类似的：随着规模扩大，和其他模型相比，其性能提升显著。

　　Facebook 也在研究决策 Transformer

　　谷歌 AI 使用决策 Transformer 不仅提高了 AI 玩多个游戏的水平，还提升了多游戏智能体的扩展性。

　　除此之外，据谷歌大脑、加州大学伯克利分校和 Facebook AI Research 合作的一篇论文介绍，决策 Transformer 架构在强化学习研究平台 OpenAI Gym 和 Key-to-Door 任务上也表现出色。

　　或许决策 Transformer 正是通用人工智能（AGI）发展的关键因素之一。

　　对了，谷歌 AI 表示，相关代码和 Checkpoint 会在 GitHub 上陆续开源，感兴趣的小伙伴们可以去看看~

　　传送门：

　　https://github.com/google-research/google-research/tree/master/multi_game_dt

　　参考链接：

　　[1]https://twitter.com/GoogleAI/status/1550260410686644224

　　[2]https://ai.googleblog.com/2022/07/training-generalist-agents-with-multi.html

　　[3]https://arxiv.org/abs/2106.01345

　　[4]https://zhuanlan.zhihu.com/p/354618420

系统下载排行榜71011xp

【番茄花园】Win7 64位快速稳定版

【纯净之家】Windows7 32位全新纯净版

【雨林木风】Windows7 64位装机旗舰版

【纯净之家】Win7 64位 Office2007 办公旗舰版

JUJUMAO Win7 64位旗舰纯净版

【电脑公司】Windows7 64位免费旗舰版

【游戏专用】Windows7 64位装机旗舰版

【深度技术】Windows7 64位官方旗舰版

【纯净之家】Windows7 SP1 32位全补丁旗舰版

【番茄花园】Windows7 64位旗舰装机版

【纯净之家】Windows10 22H2 64位企业版

【纯净之家】Windows10 32位官方正式版

【雨林木风】Windows10 64位稳定版系统

【技术员】Windows10 64位纯净版iso镜像

【技术员】Windows10 64位系统纯净版

JUJUMAO Win10 64位纯净版镜像

【番茄花园】Windows10 64位专业版镜像

【技术员】Windows10 64位纯净装机版

【雨林木风】Windows10 64位官方专业版

【雨林木风】Windows10 64位中文精简版

【纯净之家】Windows11 23H2 64位纯净专业版

【纯净之家】Windows11 23H2 64位游戏优化版

【纯净之家】Windows11 23H2 64位中文家庭版

【纯净之家】Windows11 23H2 64位企业版系统

雨林木风 Win11 25H2 超级纯净版系统

风林火山Windows11下载中文版(24H2)

萝卜家园 Win11 25H2 专业版镜像

JUJUMAO Win11 24H2 64位精简版镜像

JUJUMAO Win11 24H2 64位专业版镜像

【纯净之家】Windows11 23H2 64位纯净家庭版

深度技术 GHOST XP SP3 电脑专用版 V2017.03

深度技术 GGHOST XP SP3 电脑专用版 V2017.02

萝卜家园 GHOST XP SP3 万能装机版 V2017.03

番茄花园 GHOST XP SP3 极速体验版 V2017.03

雨林木风 GHOST XP SP3 官方旗舰版 V2017.03

Win7系统下载 PCOS技术Ghost WinXP SP3 2017 夏季装机版

萝卜家园 GHOST XP SP3 完美装机版 V2016.10

电脑公司 GHOST XP SP3 经典旗舰版 V2017.03

雨林木风GHOST XP SP3完美纯净版【V201710】已激活

雨林木风 GHOST XP SP3 精英装机版 V2017.04

热门教程

Photoshop网页在线制作_Photoshop网页版入口地址分享

Win10系统激活提示“无法连接到你组织的激活服务器”怎么办

罗技鼠标驱动怎么下载

夸克网盘网页入口是什么？夸克网盘网页版网址分享

键盘测试工具有哪些

快手网页版入口是什么？快手网页版地址分享

QQ音乐网页版在线听歌_QQ音乐网页版网址链接分享

Win11弹出tesmon.sys不兼容咋办？

今日头条网页版地址是什么_今日头条网页版入口网址分享

阿里云盘网页版地址_阿里云盘网页版入口网址分享

装机必备更多+

微信

软件大小：228.30 MB

软件语言：简体中文

下载

爱奇艺

软件大小：77.08 MB

软件语言：简体中文

下载

哔哩哔哩

软件大小：197.79 MB

软件语言：简体中文

下载

QQ浏览器

软件大小：97.60 MB

软件语言：简体中文

下载

夸克浏览器

软件大小：18.76 MB

软件语言：简体中文

下载

搜狗输入法

软件大小：74.73 MB

软件语言：简体中文

下载

驱动人生

软件大小：59.8 MB

软件语言：简体中文

下载

搜狗输入法

软件大小：191.39 MB

软件语言：简体中文

下载

搜狗输入法

软件大小：191.39 MB

软件语言：简体中文

下载

谷歌浏览器

软件大小：75.29 MB

软件语言：简体中文

下载

重装工具

系统之家装机大师 V2.0.0.1133 官方版

系统之家一键重装 V2.0.0.1133 官方版

石大师一键重装系统 V2.0.0.1008 官方版

石大师装机大师 V2.0.0.1008 最新版

石大师装机大师 V2.0.0.1008 官方版

电脑教程专题更多+

一个 AI 玩 41 个游戏，谷歌最新多游戏决策 Transformer 综合表现分是 DQN 的两倍

相关文章

微信

爱奇艺

哔哩哔哩

QQ浏览器

夸克浏览器

搜狗输入法

驱动人生

搜狗输入法

搜狗输入法

谷歌浏览器