传奇私服发布网_新开传奇网站发布_最全优秀单职业传奇私服发布平台_www.sf999.Com
新开传奇私服网站专注于服务广大新开传奇首区和复古传奇私服玩家,我们承诺全年无休,每天为您提供最新的新开传奇网站和传奇sf999信息。...
2025-01-03
前沿追踪
“前沿追踪”是 公众号的一个栏目,梳理近期重要的学术研究动态。
导读
本推文整理了 2023 年 12 月强化学习十大学术动态,涵盖强化学习相关领域的论文、会议、教程、观点等内容,全面覆盖 RL , Multi-agent RL, RL, RL, RL,RL , AGI 等强化学习关键领域。点击文末“阅读原文”即可获得相关文献资料!
十 大
动 态
使用人类反馈学习纳什均衡来微调大型语言模型
这篇论文介绍了一种使用成对人类反馈进行大型语言模型(LLM)微调的替代方法。该方法首先学习一个偏好模型,该模型在给定提示的情况下以两个输入为条件,然后追求一种策略,该策略始终生成优于任何竞争策略生成的响应,从而定义了该偏好模型的纳什均衡。我们将这种方法称为从人类反馈中学习纳什均衡(NLHF)。在表格策略表示的背景下,论文提出了一种基于镜像下降原理的新颖算法解决方案,即Nash-MD。该算法产生一系列策略,最后一次迭代收敛到正则化的纳什均衡。此外,作者还探索了策略的参数表示,并引入了用于深度学习架构的梯度下降算法。为了证明方法的有效性,论文展示了对用于文本摘要任务的LLM进行微调的实验结果。
2FAIR研究顺序决策任务的上下文学习
这篇论文主要研究了如何训练自主智能体,使其能够从少量示例中学习新任务,这是机器学习中的一个长期问题。最近,已经被证明可以在没有任何权重更新的情况下,仅通过少量示例学习新的语言或视觉任务,这也被称为上下文学习。然而,顺序决策设置带来了额外的挑战,因为环境的随机性或智能体的行动可能导致不可见的,有时是无法恢复的状态,因此对错误的容忍度较低。这篇论文用一个示例来说明,简单地将应用到顺序决策问题并不能实现新任务的上下文学习。然后,论文展示了如何通过在具有某些分布属性的轨迹序列上进行训练,来实现新的顺序决策任务的上下文学习。论文研究了不同的设计选择,发现更大的模型和数据集大小,以及更多的任务多样性,环境随机性和轨迹突发性,都会导致新的分布任务的上下文学习效果更好。通过在大型多样化的离线数据集上进行训练,模型能够在没有任何权重更新的情况下,仅通过少量示例学习新的和任务。
3中科院验证LLM在星际争霸 II上的能力
《星际争霸 II》是一个具有挑战性的AI智能体基准,因为它既需要精确的微操作,又需要战略宏观意识。以前的研究,如和SCC,在应对《星际争霸 II》方面取得了令人印象深刻的成绩,但仍然在长期战略规划和策略可解释性方面存在不足。新兴的大型语言模型(LLM)智能体,如和,在解决复杂任务方面展示了巨大的潜力。受此启发,论文旨在验证LLM在《星际争霸 II》上的能力,这是一个非常复杂的即时战略游戏。为了充分利用LLM的推理能力,论文首先开发了一个文本化的《星际争霸 II》环境,称为 II,LLM智能体可以与其进行交互。其次提出了一种摘要链方法,包括对原始观察数据进行单帧摘要和对游戏信息进行多帧摘要,提供指令建议和生成战略决策。实验包括两个部分:首先,由人类专家进行评估,包括评估LLM对《星际争霸 II》知识的掌握程度以及LLM智能体在游戏中的表现;其次,LLM智能体的游戏表现,包括胜率和摘要链的影响等方面。实验结果表明:1. LLM具备应对《星际争霸 II》场景所需的相关知识和复杂规划能力;2. 人类专家认为LLM智能体的表现接近于一个已经玩了八年《星际争霸 II》的普通玩家;3. LLM智能体能够在更高难度( Lv5)下击败内置AI。
研究人员探索使用VLM为强化学习智能体提供奖励
这篇论文探索了强化学习领域中建立通用智能体的研究前沿之一:如何在复杂的开放环境中让智能体能够实现多种目标。其中一个关键限制因素是需要大量的奖励函数,用于实现不同的目标。为了解决这个问题,研究人员调查了使用现成的视觉-语言模型(VLMs)作为强化学习智能体的奖励来源的可行性。论文中展示了如何利用CLIP模型系列来从视觉上实现各种语言目标的奖励,并将这些奖励用于训练强化学习智能体,使其能够实现多样化的语言目标。研究人员在两个不同的视觉领域展示了这种方法,并提供了一个扩展趋势的案例,表明更大规模的VLMs可以提供更准确的视觉目标达成奖励,从而培养出更具能力的强化学习智能体。
利用反馈的自训练方法减少人工数据依赖的LLM
本论文针对目前广泛采用的在人工生成数据上对语言模型(LMs)进行微调的做法进行研究。研究人员意识到,这些模型的性能通常受限于人工数据的数量和多样性。为了克服这一限制,作者探索了在具备标量反馈的任务中是否能够超越人工数据,例如在数学问题中可以验证正确性。研究人员提出了一种简单的自训练方法,称为 ReST,基于期望更大化框架。该过程包括三个步骤:(1)从模型生成样本并利用二进制反馈进行筛选,(2)在这些选定样本上对模型进行微调,(3)重复这个过程多次。通过使用 PaLM-2 模型在高级 MATH 推理和 APPS 编码基准测试中应用 ReST,研究人员研究了它在模型规模上的可扩展性,并将其与仅使用人工数据进行微调进行了比较。实验结果表明,ReST在模型规模扩大时具有良好的可扩展性,并且在高级基准测试中明显优于仅使用人工数据进行微调的方法。这些发现表明,基于反馈的自训练方法有潜力显著减少对人工生成数据的依赖,从而提升语言模型的性能。
研究提升强化学习控制器的泛化和数据效率
当面对具有不可预测变化的复杂决策问题时,人类本能地知道如何忽略细节。这种抽象过程对于大多数生物系统来说是至关重要的属性,它有助于“抽象化”不必要的细节并提升泛化能力。这项研究引入了调度器/执行器原则来设计多任务强化学习控制器。该原则建议将控制器划分为两个部分:调度器和执行器。调度器负责理解任务,执行器负责计算特定设备的控制信号,并通过一个强正则的通信通道将它们连接起来。本文的核心思想是,通过改变结构和设计原则,可以提高控制器的泛化能力并显著增强数据效率。这可以看作是对目前大规模神经网络依赖于大量数据训练和新兴泛化特性的趋势的一种回应。论文表明在数据有限而非充足和无限的情况下,考虑控制器的结构和添加设计原则是非常宝贵和关键的。这些原则可以在数据稀缺的情况下发挥重要作用,因为数据是一种宝贵的资源。
7华为使用结构化推理增强AI agent的决策能力
构建人工智能(AI)代理的关键方法之一是强化学习(RL)。然而,直接构建映射感知到行动的独立RL策略面临严重问题,其中最主要的问题是其在多个任务上缺乏通用性,并且需要大量的训练数据。主要原因是在设计策略时,它无法有效地将先前的信息整合到感知-动作循环中。大型语言模型(LLM)作为将跨领域知识整合到AI代理中的基本方法已经出现,但它们缺乏对特定决策问题的关键学习和适应能力。本文提出了一个通用的框架模型,用于将结构化推理集成到AI代理的策略中。该方法受到人脑中模块化的启发。该框架利用构建内在和外在函数来添加先前对推理结构的理解。它还提供了在每个模块或函数内学习模型的自适应能力,与认知过程的模块化结构一致。论文深入描述了该框架,并将其与其他AI流程和现有框架进行了比较。本文探讨了实际应用,包括展示方法有效性的实验。结果表明,当嵌入结构化推理和先验知识时,AI agent的性能和适应能力大大提高。
8伦敦大学学院研究团队提出新型人形控制模型H-GAP
该论文主要研究了人形控制的重要挑战,这为人形机器人融入人类中心的基础设施和实现物理驱动的人形动画提供了可能。人形控制领域的挑战主要来自于在高维动作空间中优化的困难,以及人形双足形态引入的不稳定性。然而,大量的人类运动捕捉数据和衍生的人形轨迹数据集(如)为解决这些挑战铺平了道路。在这个背景下,论文提出了 (H-GAP),这是一个在人形轨迹上训练的状态-动作轨迹生成模型,能够熟练地处理下游控制任务的模型预测控制(MPC)。对于56自由度的人形,论文通过实证表明H-GAP学会了表示和生成各种运动行为。此外,没有任何在线交互的学习,它也可以灵活地将这些行为转移到通过规划解决新的下游控制任务。值得注意的是,H-GAP优于那些可以访问地面真实动态模型的MPC基线,并且优于或等同于为单个任务训练的离线RL方法。最后,论文对H-GAP的扩展性进行了一系列的实证研究,显示了通过额外的数据而不是计算来提高性能的潜力。代码和视频可以在上找到。
9Jeff Dean的2023年度总结
& 首席科学家 Jeff Dean发表2023年度总结,称2023年是人工智能(AI)研究及其实际应用领域取得令人难以置信的进展的一年。总结回顾了在过去一年中的重要进展,包括大模型领域的PaLM 2、以及等产品;使用强化学习来发现增强的计算机科学算法的 AI 系统等。
10斯坦福大学调研基础模型在机器人任务中的应用
该调研对预训练基础模型在机器人领域的应用进行了调研。传统的深度学习模型在机器人领域通常是在特定任务的小型数据集上进行训练,这限制了它们在不同应用中的适应性。相比之下,基于互联网规模数据预训练的基础模型似乎具有更强的泛化能力,并在某些情况下显示出在训练数据中不存在的问题的零样本解决能力。基础模型可能有潜力增强机器人自主性的各个组成部分,包括感知、决策和控制。例如,大型语言模型可以生成代码或提供常识推理,而视觉-语言模型可以实现开放词汇的视觉识别。然而,仍然存在一些重要的开放性研究挑战,特别是与机器人相关的训练数据稀缺性、安全保证和不确定性量化以及实时执行方面的挑战。这项调研研究了最近使用或构建基础模型来解决机器人问题的论文。调研探讨了基础模型如何在感知、决策和控制领域中提高机器人能力。
撰稿:赵祉瑜
排版:吴帅
关于我们
是由国内外强化学习学者联合发起的民间学术组织,主要活动包括举办强化学习线上公开课、强化学习线上研讨会等,旨在搭建强化学习学术界、产业界和广大爱好者之间的桥梁。我们将在微信公众号发布论文解读、学术动态、名家观点等,欢迎大家关注我们!
我们还在 平台发布最新的讲座回放等视频资料,欢迎扫码观看!
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,请告知我们,本站将立刻删除涉嫌侵权内容。
相关文章
新开传奇私服网站专注于服务广大新开传奇首区和复古传奇私服玩家,我们承诺全年无休,每天为您提供最新的新开传奇网站和传奇sf999信息。...
2025-01-03
明确否认him存在,但是我们可以从一些蛛丝马迹中发现官方有说谎的可能性。就有细心的玩家,从这五个地方观察到了him存在,总共4个证据。...
2025-01-03
8条回答:【推荐答案】主公莫慌(手游)-新手奖励1.序列号:gsaq6617(官方)固定唯一,可重复激活无数新账号。2.奖励:3000绿钻,1000将魂,1紫将...
2025-01-03
网盘提取码: xawy帝国cms内核仿《新趣头条》娱乐游戏资讯网站源码,适合做电竞,娱乐,评测类的站点。利用模板改改可以轻松完成1个站点。不带安装教程...
2025-01-03
热评文章
2022年专属火龙之神途新版
1.80龙神合击传奇
1.76永恒小极品+5复古传奇
1.76双倍魔天大极品第三季单职业
1.76神梦传奇三职业
1.80聖统圣统合击三职业传奇