哪些客户需要做网站,dw做的网站怎么让别人看到,企业网站建设 信息安全,摄影作品发布平台本文介绍了北京大学人工智能研究院梁一韬助理教授所带领的 CraftJarvis 团队在「我的世界」环境下探索通用智能体设计的新进展#xff0c;题为“GROOT: Learning to Follow Instructions by Watching Gameplay Videos”。 GROOT 该研究的核心目标是探索能否摆脱文本数据的标…本文介绍了北京大学人工智能研究院梁一韬助理教授所带领的 CraftJarvis 团队在「我的世界」环境下探索通用智能体设计的新进展题为“GROOT: Learning to Follow Instructions by Watching Gameplay Videos”。 GROOT 该研究的核心目标是探索能否摆脱文本数据的标注以及与环境的在线交互而是仅通过观看游戏视频的方式来教会智能体理解世界、遵循指令进而在开放世界下解决无穷的任务。考虑到视频数据广泛分布于互联网而高质量的“文本-视频”数据对则难以获得因此团队创新地提出使用一段“参考视频”作为指令的描述形式并设计一套简洁的架构和自监督训练方法来联合学习指令空间和指令跟随策略。通过在本文提出的 Minecraft SkillForge 基准上进行细致的评测该方法超过了目前现有的基线方法并拉近了与人类玩家之间的差距。这对于复杂环境下通用智能体的设计有重要意义。
本文的第一作者是由梁一韬助理教授指导的博士生蔡少斐通讯作者为梁一韬。论文的作者还包括北京大学的张博为、王子豪UCLA 的刘安吉以及北京通用人工智能研究院的马晓健研究员。 论文题目 GROOT: Learning to Follow Instructions by Watching Gameplay Videos 论文链接 https://arxiv.org/abs/2310.08235 项目网站GROOT: Learning to Follow Instructions by Watching Gameplay Videos 01. 研究背景
在开放世界下开发类人级别的具身智能体以解决开放式任务一直是人工智能领域长期以来追求的目标。随着 ChatGPT 的流行近年来涌现了一批利用大语言模型LLM的规划推理能力来解决「我的世界」中复杂长期任务的尝试如 DEPS、Voyager、GITM 等工作。然而与理想的通用智能体相比这些基于 LLM 的工作主要强调发掘语言模型的潜力而忽略了提升底层控制器low-level controller的重要性。事实上底层控制器负责将 LLM 规划出来的 plan 映射到具体动作空间键盘与鼠标操作并与环境直接进行交互。因此其掌握的技能库中技能的数量和质量决定了智能体能力上限。该团队的此项研究旨在构建具备指令理解能力的基础决策大模型。通过将技能库从有限推广至无限实现了由封闭式指令向开放式指令理解的迈进。
02. 研究动机
2.1 自监督预训练范式促进大规模任务学习
自监督预训练范式已经相继在自然语言处理NLP和计算机视觉CV领域展现出了极强的泛化能力大有统一深度学习的趋势。然而在强化学习RL和决策控制领域的相关研究则相对滞后。本文作者认为预训练的学习范式对于构建决策大模型来说至关重要。考虑到任务的多样性为每个任务单独定义一套奖励函数并让智能体在与环境交互的方式中学习是非常昂贵且不安全的。因此利用网上的海量视频数据对智能体进行自监督预训练使其大规模“领悟”技能的道路则非常有前景。
2.2 “视频”做指令表达能力强数据易收集
为了使预训练出来智能体能够理解人类的指令并执行相应的任务必须对指令空间的形式进行定义。目前主流的指令形式主要包括「任务指示器」、「未来的结果」又分为「未来的状态」、「预期的累计奖励」等、「自然语言」。本文作者认为尽管在这些指令形式下智能体容易使用“后见经验重放”之类的技巧学习然而指令的表达能力却十分有限。以「未来的状态」举例一张房屋的照片并不能告诉智能体房子是如何被建造出来的因为其缺乏细致的过程性描述。此外这种指令也存在很强的歧义性例如一张站在房屋前的图片并不能让智能体区分是要构建这样一座房屋还是找到这样一座房屋。尽管对于过程描述足够细致的自然语言指令可以规避上述所说的问题然而互联网上并不存在如此多高质量的“视频-文本”数据对可供训练。
观察到主流指令形式的局限性之后研究团队旨在找到指令的表达能力与智能体学习的成本之间的平衡。作者发现视频形式的指令则可以同时兼顾这两个要求。一方面一段“参考”视频可以描述完成任务所需的所有细节信息具备极强的表达能力另一方面视频模态数据大规模分布在互联网上因此训练数据十分易于收集。
03. 研究方法
GROOT 基于编码器-解码器的架构设计 遵循上述设计原则研究团队采用了流行的编码器-解码器架构来实现整个模型并命名为 GROOT。具体来说研究团队采用了非因果 Transformer 来实现视频编码器用于提取视频中蕴含的语义信息采用了一个因果 Transformer 作为解码器即策略用于遵照指令的语义信息在环境中做出相应的行为。在训练过程中输入到编码器的视频和送到解码器中状态序列是完全一致的模型在 KL 散度的约束下使用行为克隆进行自我模仿。在推理过程中将输入到编码器中的视频换成任意一段描述某个任务执行过程的参考视频智能体便可与环境进行交互从而完成相应的任务。
04. 评测基准
「我的世界」 环境具备极高的自由度为了全面评估 GROOT 在解决复杂多样化任务上的能力。研究团队提出了一组新的评测基准「Minecraft SkillForge」。该基准包含了 「我的世界」 环境中的 30 个基础任务涵盖「资源收集」、「生存维持」、「物品制作」、「自由探索」、「工具使用」和「结构建造」6 大类别。以下展示了「结构建造」、「对敌战斗」和「资源收集」三大类任务。 结构建造 生存维持 资源收集 工具使用 物品制作 自由探索 「挖三填一」是 「我的世界」 中安全度过黑夜的有效方法它描述了构建一个简易庇护所所需的步骤垂直向下挖掘 3 个泥土抬头将 1 个泥土放置在上方做成封闭空间。
「蜘蛛进行搏斗」指玩家需要在保证生存的情况下使用钻石剑击杀尽可能多的蜘蛛。
「收集水草」任务指的是玩家需要跳进海中潜泳游到海底破坏水草方块。
该评测基准既包含一些常见的任务如收集木头、羊毛、草也包含一些十分罕见的任务如挖三填一、建造雪傀儡、切割石块。因此该基准可以充分反应模型的泛化能力对未来 「我的世界」 下多任务智能体的研究也有较大的意义。
05. 实验结果
5.1 天梯系统与人工评测
由于任务的多样性并不存在一种统一的指标来评估所有任务。因此研究团队使用 Elo Rating 系统结合人工比较的方式评估了 GROOT 与现有基线在「Minecraft SkillForge」基准上的性能差异。如图所示可以发现 GROOT 1829 分显著超越了目前所有的基线方法1679 分进一步缩小了与人类玩家2034 分的差异。如中间图所示在一些不常见的任务如「架构建造」和「工具使用」上相比之前的最优方法 STEVE-1GROOT 获得了很高的对战胜率83%。 天梯系统与人工评测 5.2 程序性任务评测结果
右图展示了 GROOT 和基线方法在 9 种代表性任务上的成功率对比。GROOT 除了在所有任务上都取得领先优势之外也是唯一一个在「装备附魔」、「挖三填一」、「建造雪傀儡」任务上取得非零成功率的智能体。
5.3 指令空间 t-SNE 可视化结果 指令空间 t-SNE 可视化 为了直观了解指令空间的学习情况研究团队额外展示了训练前后指令空间在 7 种类别任务视频上的编码效果。可以发现经过自监督训练之后指令空间的表达能力得到了极大的提升。在没有任何语义标签辅助下仅通过自监督预训练就可以较好地提取视频中存在的语义信息。
5.4 组合多个指令解决复杂长期任务 钻石挑战 「我的世界」 中存在很多任务需要串行执行多个指令才可以解决其中最经典的就是「钻石挑战」。钻石稀疏地分布于 「我的世界」 地下 7-12 层的位置。为了方便展现 GROOT 在解决「钻石挑战」上的表现作者通过给智能体一把铁镐简化了钻石挑战任务即省略了制作铁镐的过程。现在智能体只需向下挖掘到指定层数再水平挖掘可能需要很久挖到即可。作者初始化给智能体的指令是一段向下挖掘的视频并实时检测智能体高度当高度到达 12 时将给智能体的指令切换为一段描述水平挖掘的视频。研究团队发现 GROOT 可以以 16% 的较高成功率挖到。而相较而言以「未来的结果」作为指令形式的STEVE-1 则无法获得钻石。作者推测这可能是由于「未来的结果」无法表达水平挖掘这一概念因此容易掉到基岩层并卡住从而导致任务失败。
06. 结论与展望
本文提出了一种通过观看游戏视频来学习遵循指令的预训练范式。作者认为视频指令是一个很好的目标空间形式它不仅表达了开放式任务还可以通过自我监督进行训练。基于此研究团队在 「我的世界」 中构建了一个名为 GROOT 的编码器-解码器 Transformer 架构智能体。无需依赖任何标注数据GROOT 表现出非凡的指令跟随能力并霸榜 Minecraft SkillForge 基准。此外作者还展示了它在「钻石挑战」任务中作为下游控制器的潜力。研究团队相信这种架构和训练范式具有很强的应用前景并希望将其应用于更复杂的开放世界环境。
07. 相关工作
CraftJarvis 团队长期关注于在开放世界下构建自主智能体。除了构建指令跟随智能体 GROOT 完成开放世界下的短期任务团队还使用预训练的大语言模型作为 Planner 来增强智能体完成长期任务的能力。
7.1 DEPS
DEPS 是第一个使用大语言模型在开放世界 「我的世界」 上进行任务规划和任务执行的智能体。DEPS 基于大语言模型设计了一个包括“描述、解释、规划并选择”的流程通过整合计划执行过程的描述并在规划阶段遇到失败时大语言模型提供的自我解释反馈从而在初步 LLM 生成的计划失败时更好的修正错误并重新规划。此外它还包括一个目标选择器这是一个可学习的模块根据预估完成步骤来对候选子目标进行排序从而提高语言计划在开放世界下的可执行性。DEPS 可以在「我的世界」环境中零样本的实现长序列任务例如在生存模式下从头开始获得钻石。 Describe, Explain, Plan and Select: Interactive Planning with Large Language Models Enables Open-World Multi-Task Agents arXiv: https://arxiv.org/pdf/2302.01560.pdf Code:https://github.com/CraftJarvis/MC-Planner 该文章被收录于NeurIPS 2023并在ICML 2023的TEACH Workshop上被评选为最佳论文。 DEPS 7.2 JARVIS-1
JARVIS-1 是一个开放世界智能体基于预训练的多模态语言模型能够感知多模态输入视觉观察和人类指令生成复杂计划并在「我的世界」中执行具身控制。JARVIS-1 还配备了一个多模态记忆它利用预训练知识和实际游戏生存经验来提高规划能力。JARVIS-1 是现有「我的世界」中最通用的智能体能够使用与人类一致的控制和观察空间完成200多个不同任务从短期任务例如“砍树”到长期任务例如“获得一把钻石镐”。在经典的长期任务“获得钻石镐”中JARVIS-1 的成功率为当前最先进智能体的5倍并能成功完成更长时间跨度和更具挑战性的任务。 JARVIS-1: Open-World Multi-task Agents with Memory-Augmented Multimodal Language Models arXiv: https://arxiv.org/pdf/2311.05997.pdf Project: JARVIS-1: Open-world Multi-task Agents with Memory-Augmented Multimodal Language Models Jarvis-1 08. 本文作者
蔡少斐北京大学人工智能研究院博士生CraftJarvis 研究团队成员之一导师是梁一韬教授。他的研究兴趣主要包括决策大模型、语言大模型以及游戏智能。他已在 CVPR 、NeurIPS 等人工智能顶会上发表过多篇论文并专注于开放世界下智能体决策控制研究。担任 ICML、NeurIPS 、 ICLR 等国际学术会议审稿人。 个人主页https://phython96.github.io 王子豪北京大学人工智能研究院博士生CraftJarvis 研究团队成员之一导师为梁一韬教授。曾获国家奖学金、北京市优秀毕业生等荣誉。主要研究方向为开放世界下多任务智能体的构建尤其关心基于基础模型的智能体的泛化能力。近年来在CVPR、NeurIPS等人工智能顶会上发表多篇论文曾获ICML研讨会最佳论文奖。担任ICML、NeurIPS、ICLR等多个国际机器学习会议审稿人。
个人主页 https://zhwang4ai.github.io 关于TechBeat人工智能社区
▼ TechBeat(www.techbeat.net)隶属于将门创投是一个荟聚全球华人AI精英的成长社区。 我们希望为AI人才打造更专业的服务和体验加速并陪伴其学习成长。 期待这里可以成为你学习AI前沿知识的高地分享自己最新工作的沃土在AI进阶之路上的升级打怪的根据地 更多详细介绍TechBeat一个荟聚全球华人AI精英的学习成长社区