VV游戏

 找回密码
 立即注册
查看: 216|回复: 0

论文分享:《PerfectDou: Dominating DouDizhu with …

[复制链接]

1

主题

5

帖子

4

积分

新手上路

Rank: 1

积分
4
发表于 2022-12-14 19:28:03 | 显示全部楼层 |阅读模式

文章发表在NIPS2022,介绍了一个全新的斗地主AI——PerfectDou。PerfectDou采用一种PTIE(Perfect-Training-Imperfect-Execution)框架,在训练阶段额外引入了完美信息。此外文章设计了更为精细的状态、动作表征与全新的回报函数,在对抗效果与训练效率上均优于之前的DouZero。
原文链接:https://arxiv.org/pdf/2203.16406.pdf
开源链接: https://github.com/Netease-Games-AI-Lab-Guangzhou/PerfectDou/
动机

对于斗地主这类非完美信息博弈(无法获取其他玩家初始手牌),关键挑战在于同一信息集对应了若干无法区分的博弈节点,这使得最优决策难以达成。文章认为构造一个策略上相同的完美信息博弈,让玩家依据全局信息进行决策可以得到更好的策略。具体来说在斗地主中如果能知道其他玩家初始手牌,则可做出更优的决策。在AC框架下,由于执行过程中只能使用非完美信息作为策略函数的输入,因此在训练时只在值函数的输入中加入额外的完美信息,即文章提出的PTIE框架。
算法

PTIE框架



首先介绍PTIE框架,如上图所示,在传统的AC框架基础上,文章在训练阶段使用扩展的完美信息作为值函数V的输入,非完美信息作为策略函数 \pi 的输入,由于执行过程只使用 \pi 网络生成动作,因此这种做法是合法的。直觉上,这种做法从完美的信息中提取非完美信息情况下的策略。对于玩家p,其策略网络更新方式如下:
\nabla_{\theta_p} J=\mathbb{E}_{\pi_p}\left[\nabla_{\theta_p} \log \pi_{\theta_p}(a \mid h) Q_{\pi_p}(D(h), a)\right]\\
其中 h 代表非完美信息博弈下的博弈节点, D(h) 代表扩展为完美信息博弈下的博弈节点。文章认为PTIE框架是使用RL解决非完美信息博弈的通用框架,并能在斗地主游戏中体现出更强的合作与竞争特性。
特征与回报函数设计



在DouZero的基础上,文章给出了更为精细的状态与动作特征设计,如上图所示,基础牌面可以表征为 12\times15 的01矩阵。除了前8个维度的基础编码,文章还在后4个维度对顺子、连对等牌型进行了编码。在基础牌面编码之上,文章设计了非完美信息状态特征与相应的引入额外信息的完美信息状态特征,如下表所示。其中,非完美信息下的状态特征矩阵维度为 23\times12\times15 与 6\times1 ,文章将其展平为1维后拼接作为网络输入,后续其他矩阵也做类似处理。


动作特征如下表所示:


策略网络输出在可行动作上的概率分布:
p(a)=\operatorname{softmax}\left(f\left(\left[e_s, e_{a^i}\right]_{i=1}^N\right)\right) \\
其中, f 为MLP网络, \left[e_s, e_{a^i}\right]_{i=1}^N 代表状态特征与N个可行动作特征的连接。
对于回报函数,文章进行了如下设计:
\begin{gathered} r_t=\left\{\begin{array}{c} -1.0 \times\left(\operatorname{Adv}_t-\operatorname{Adv}_{t-1}\right) \times l, \quad \text { Landlord } \\ 0.5 \times\left(\operatorname{Adv}_t-\operatorname{Adv}_{t-1}\right) \times l, \quad \text { Peasant } \end{array}\right. \\ \operatorname{Adv}_t=N_t^{\text {Landlord }}-\min \left(N_t^{\text {Peasant } 1}, N_t^{\text {Peasant } 2}\right) \end{gathered}
其中 l 为放缩因子, N_t 代表打出全部手牌的最小步数,通过动态规划求解。这个设计的优势在于除了游戏结束时的稀疏奖励之外,还加入了一个与双方获胜距离之差相关的稠密奖励,能够更好的引导智能体训练。
网络设计与训练框架



策略网络结构如上图所示,可用的动作特征计算过程见上一小节,非完美信息特征由当前状态与历史动作通过LSTM后的结果连接得到,最终输出可用动作上的概率分布,过程见上一小节。值网络的结构为MLP,不包含额外设计。文章整体采用PPO算法,并使用优势函数代替值函数。不同模型的通过自博弈得到最终的均衡策略。考虑到训练效率,文章使用分布式架构进行训练:


实验

文章主要与之前的SOTA结果DouZero进行了效果上的对比,还包括一些更早的AI与基于规则的方法。如下表所示,其中WP代表胜率,ADP代表得分(考虑了炸弹分数翻倍)。可以看到PerfectDou在两个指标上都优于现有算法。


文章还给出了与DouZero的训练效率比对:


以及消融实验结果:


更多的关于DouZero存在缺陷的具体分析以及在线计算时长比较,由于篇幅有限,感兴趣的读者可自行阅读原文。
总结

文章给出了一种简明的非完美信息博弈下的RL求解框架,以及针对斗地主游戏的精细的特征、回报函数与网络设计。实际效果应该不弱于DouZero,此外计算资源需求较大。
编辑:吕勇梁 陈海燕
审核:郝建业
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|VV游戏

GMT+8, 2025-4-16 00:16 , Processed in 0.121513 second(s), 22 queries .

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表