PSRO笔记

本文最后更新于:8 个月前

PSRO这篇文章看了很久还是看不懂,慢慢做点笔记。

最简单最传统的多智能体即为InRL,即为每个智能体分别独立训练,但是会遇到不稳定(non-stationary)及非马尔科夫(non-Markovian)。非马尔科夫性我的理解即为,上一轮训练收敛的策略与下一轮训练没有确定的相关性,这一点也跟不稳定相对应。在这种情况下,训练只会得到相互过拟合的智能体,没有办法获得泛化的能力。

本文提出了一种独立学习产生的策略之间相关性的度量方式,并且证明了过拟合问题的严重性。给出的算法应该是从一系列的策略分布中选出得出一个混合策略。

中心化训练分布式执行:

  • Fully Decentralized: 去中心化,每个agent是独立的个体,彼此之间不交流
  • Fully Centralized: 完全中心化,所有agent都把信息传递给中央控制器central controller,中央控制器指导所有agents的动作、状态以及奖励。agent自己没有策略网络(不做决策),决策都由中央控制器来做。
  • Centralized training and decentralized execution:agents各自有各自的策略网络,训练的时候有一个中央控制器,它会收集所有agents的动作、状态以及奖励。中央控制器帮助agents训练策略网络,训练结束之后就不再用中央控制器了。每个agents根据自己的策略网络做决策。

作者:凌晨一點钟的猫
链接:https://zhuanlan.zhihu.com/p/331722990

正则形式的博弈(Normal-form game):

正则形式是博弈论中描述博弈的一种方式。与扩展形式的博弈(extensive form game)不同,正则形式不用图形来描述博弈,而是用矩阵来陈述博弈。与延展形式的表述方式相比,这种方式在识别出严格优势策略和纳什均衡上更有用,但会丢失某些信息。博弈的正则形式的表达中包括每个参与者所有显然的和可能的策略,以及和与其相对应的收益。

在完全信息的静态博弈(static games of complete,perfect information)中,正则形式的表达形式是参与者的策略空间(strategy space)和收益函数(payoff function)。策略空间是某个参与者的所有可能策略的集合而策略是参与者在博弈的每个阶段——不管在博弈中这个阶段实际上是否会出现——将要采取的行动的完整计划。每个参与者的收益函数,是从参与者策略空间的向量积到该参与者收益集合(一般是实数集,数字表示基数效用或序数效用——在正则形式的表述方式中常常是基数效用)的映射。也就是说,参与者的收益函数把策略组合(所有参与者策略的清单)作为它的输入量,然后输出参与者的收益。

博弈论中,与正则形式相对应,扩展形式是一种通过树来描述博弈的表达方式。每个节点(称作决策节点)表示博弈进行中的每一个可能的状态。博弈从唯一一个初始节点开始,通过由参与者决定的路径到达终端节点,此时博弈结束,参与者得到相应的收益。每个非终端节点只属于一个参与者;参与者在该节点选择其可能的行动,每个可能的行动通过边从该节点到达另一个节点。和正则形式不同,扩展形式允许互动的显式模型(explicit modeling of interactions),互动中,一个参与者可以在博弈中多次行动,并且在不同的状态中可以做出不同的行为。

正则形式的博弈可以看作,所有参与者的行动是同时作用在系统上的,所以可以建立收益矩阵,而扩展形式的博弈则参与者是交替参与(动态博弈)。关于子博弈的理解:如何从博弈树中划分出各个子博弈?贝叶斯法则如何使用?

PSRO的思想为,对于正则形式的博弈,采用其他智能体的元策略来训练本智能体的近似最佳反应,也即固定其余智能体的现有策略(未必是一个)来训练本智能体。因为不是共同进化,所以才叫做近似最佳反应(approximate best response)。得出的本智能体的策略再加入策略集合去训练其余智能体。DCH则更进一步,将智能体划分为k个阶段并行训练。,最终得到满足纳什均衡的各方策略。作者使用了PRD(projected replicator dynamics),给定一个智能体策略池中选取某策略的最低概率,从而强化探索。

本文与我想做的多智能体RTS想去甚远,但是对于对抗游戏而言,可以借鉴本文的训练方式,思考如何在扩展形式的博弈中求得纳什均衡。


PSRO笔记
https://coldison.github.io/2022/06/20/PSRO笔记/
作者
Coldison
发布于
2022年6月20日
更新于
2022年6月24日
许可协议