《强化学习周刊》33期:基于不确定性估计的样本高效深度强化学习

关于周刊

强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的相关进展和资讯,智源社区结合领域内容,撰写为第33期《强化学习周刊》。本期周刊整理了强化学习领域相关的最新论文推荐等,以飨诸位。

本期贡献者:李明、刘青、小胖


论文推荐

强化学习近年来取得了令人瞩目的成就,其应用于各个领域的研究也取得较大的进步,比如多智能体强化学习、高效深度强化学习、基于深度强化学习的经济应用、深度强化学习在工业领域相关的理论及其最新应用等。

本次推荐了14篇强化学习领域的相关论文,主要涉及基于不确定性估计的样本高效深度强化学习、基于深度强化学习在多智能体经济模拟中寻找一般均衡、基于深度强化学习和注意机制的动态作业车间调度混合智能、通过奖励设计进行政策教学、基于价值学习的广义Bootstrap目标,有效地结合价值和特征预测、多智能体强化学习中认知差异与一致表示增强合作、近似强化学习以控制分布式 络中的信标拥塞等。

标题:A Deeper Understanding of State-Based Critics in Multi-Agent Reinforcement Learning(一种对多智能体强化学习中基于状态的批评的更深入理解)

论文地址:「链接」

标题:UdeM | Sample Efficient Deep Reinforcement Learning via Uncertainty Estimation(基于不确定性估计的样本高效深度强化学习)

论文地址:「链接」

标题:Finding General Equilibria in Many-Agent Economic Simulations Using Deep Reinforcement Learning(基于深度强化学习在多智能体经济模拟中寻找一般均衡)

简介:实体经济可被看作是一个顺序的不完全信息博弈。动态一般均衡模型是常见的经济工具,用于模拟此类系统中的经济活动、相互作用和结果。然而,现有的分析和计算方法很难找到显式的平衡,当所有代理都是战略性的和相互作用的,而联合学习是不稳定的和具有挑战性的。由于一个经济主体的行为可能会改变另一个经济主体的奖励功能。研究表明多智能体深度强化学习 (RL) 可以通过使用结构化学习课程和有效的 GPU-only 在具有许多智能体的经济模拟中发现稳定的解决方案,即 ε-纳什均衡的智能体类型元博弈模拟和训练。通过近似最佳响应分析验证了所学的元博弈ε-纳什均衡,表明RL政策与经济直觉相一致。

论文地址:「链接」

标题:Hybrid intelligence for dynamic job-shop scheduling with deep reinforcement learning and attention mechanism(基于深度强化学习和注意机制的动态作业车间调度混合智能)

论文地址:「链接」

标题:Admissible Policy Teaching through Reward Design(通过奖励设计进行政策教学)

论文地址:「链接」

标题:A Generalized Bootstrap Target for Value-Learning, Efficiently Combining Value and Feature Predictions(基于价值学习的广义Bootstrap目标,有效地结合价值和特征预测)

论文地址:「链接」

标题:MORAL: Aligning AI with Human Norms through Multi-Objective Reinforced Active Learning(MORAL:通过多目标强化主动学习使人工智能与人类规范保持一致)

论文地址:「链接」

标题:Learning Reward Machines: A Study in Partially Observable Reinforcement Learning(学习奖励机:部分可观察强化学习的研究)

论文地址:「链接」

标题:Centralizing State-Values in Dueling Networks for Multi-Robot Reinforcement Learning Mapless Navigation(多机器人强化学习无障碍导航决斗 络的集中状态值)

论文地址:「链接」

标题:CEM-GD: Cross-Entropy Method with Gradient Descent Planner for Model-Based Reinforcement Learning(CEM-GD:基于模型强化学习的梯度下降规划交叉熵方法)

论文地址:「链接」

标题:A Surrogate-Assisted Controller for Expensive Evolutionary Reinforcement Learning(昂贵进化强化学习的代理辅助控制器)

论文地址:「链接」

标题:Alleviating Parameter-tuning Burden in Reinforcement Learning for Large-scale Process Control(减轻大规模过程控制强化学习中的参数调整负担)

论文地址:「链接」

标题:Enhancing cooperation by cognition differences and consistent representation in multi-agent reinforcement learning(多智能体强化学习中认知差异与一致表示增强合作)

论文地址:「链接」

标题:Approximate reinforcement learning to control beaconing congestion in distributed networks(近似强化学习以控制分布式 络中的信标拥塞)

论文地址:「链接」


研究综述

标题:莱顿大学 | 深度强化学习

简介:深度强化学习近年来备受关注。在自动驾驶、游戏、分子重组和机器人等多种活动中取得了令人印象深刻的成果。由于计算机程序已经自学解决难题。在驾驶模型直升机和进行特技飞行,如循环和滚动。在某些应用中,它们甚至比最优秀的人类还要好,例如在 Atari、围棋、扑克和星际争霸中。深度强化学习探索复杂环境的方式让我们想起了孩子们是如何通过有趣地尝试事物、获得反馈并再次尝试来学习的。计算机似乎真正拥有人类学习的各个方面,其触及了人工智能梦想的核心。本书的目的是提供深度强化学习领域的全面概述。其为人工智能研究生以及希望更好地理解深度强化学习方法及其挑战的研究人员和从业者而编写的。通过假设对计算机科学和人工智能有本科水平的理解;本书的编程语言是 Python,其描述了深度强化学习的基础、算法和应用并涵盖了构成该领域基础的已建立的无模型和基于模型的方法。发展很快,其还涵盖了高级主题:深度多智能体强化学习、深度分层强化学习和深度元学习。

论文链接:「链接」

声明:本站部分文章内容及图片转载于互联 、内容不代表本站观点,如有内容涉及侵权,请您立即联系本站处理,非常感谢!

(0)
上一篇 2022年1月12日
下一篇 2022年1月12日

相关推荐