基于强化学习和牌效率算法的麻将辅助决策方法与系统与流程

专利2025-11-03  1


本发明属于人工智能,具体而言,涉及基于强化学习和牌效率算法的麻将辅助决策方法与系统。


背景技术:

1、麻将是充满挑战的多人策略游戏,其复杂性不仅源于庞大的状态空间和动作空间,还涉及到玩家间的非完全信息对局、高度动态变化的游戏局面与丰富的策略交互。在麻将中,传统的基于规则或启发式的方法难以充分捕捉和模拟人类高手的决策逻辑和直觉判断,而基于深度学习的模型虽然在处理高维输入上表现出色,但往往缺乏有效的策略探索和优化机制。

2、现有技术采用神经网络模型输出打牌动作,由于卷积神经网络的性能有限,卷积通常善于捕获短距离的特征而在长距离的特征上表现不加,限制了ai的牌力;模仿学习的设定,使得ai容易陷入局部最优,牌力受限制;非分布式的训练方式,训练效率较低。


技术实现思路

1、为了解决上述技术问题,本发明提供基于强化学习和牌效率算法的麻将辅助决策方法与系统。

2、第一方面,本发明提供了基于强化学习和牌效率算法的麻将辅助决策方法,包括:

3、使用python创建麻将牌局环境,创建基于随机规则的麻将对局ai,创建基于牌效率算法构建的麻将对局ai;

4、利用pytorch构建基于ppo算法的麻将对局神经网络模型,包括动作网络与价值网络;

5、创建主进程与多个子进程,每个子进程拷贝一个动作网络;

6、在各个子进程中,利用动作网络在麻将牌局环境中进行麻将对局,获取当前麻将对局数据中的牌面信息,将牌面信息作为动作网络的输入,将出牌结果对应的概率作为动作网络的输出,根据出牌结果对应的概率抽样选择出牌结果;

7、利用动作网络得到历史麻将对局数据集;

8、从历史麻将对局数据集中随机采样,在主进程中训练基于ppo算法的麻将对局神经网络模型,利用动作网络得到各个出牌结果对应的概率,利用价值网络各个出牌结果进行打分得到各个出牌结果对应的评分,根据各个出牌结果对应的评分对利用动作网络得到的各个出牌结果对应的概率进行调整;

9、每训练第一设定次数后,将主进程中的麻将对局神经网络模型的参数传递给各个子进程,更新各个子进程中得到历史麻将对局数据的动作网络的参数;

10、每训练第二设定次数后,利用主进程中的麻将对局神经网络模型的动作网络与基于随机规则的ai、基于牌效率算法构建的ai进行麻将对局,当麻将对局神经网络模型的和牌概率在第二设定次数的训练结果都超过设定比例,则结束训练得到训练好的强化学习麻将对局神经网络模型;

11、实时获取当前麻将对局的牌面信息,得到当前麻将对局数据中当前玩家手牌的玩家手牌价值评分矩阵,利用强化学习麻将对局神经网络模型进行麻将对局,输出出牌结果。

12、第二方面,本发明提供了基于强化学习和牌效率算法的麻将辅助决策系统,包括创建单元、模型构建单元、进程创建单元、子进程处理单元、数据集构建单元、训练单元、第一网络参数更新单元、第二网络参数更新单元与数据处理单元;

13、创建单元,用于利用pytorch构建基于ppo算法的麻将对局神经网络模型,包括动作网络与价值网络;

14、模型构建单元,用于利用pytorch构建基于ppo算法的麻将对局神经网络模型,包括动作网络与价值网络;

15、进程创建单元,用于创建主进程与多个子进程,每个子进程拷贝一个动作网络;

16、子进程处理单元,用于在各个子进程中,利用动作网络在麻将牌局环境中进行麻将对局,获取当前麻将对局数据中的牌面信息,将牌面信息作为动作网络的输入,将出牌结果对应的概率作为动作网络的输出,根据出牌结果对应的概率抽样选择出牌结果;

17、数据集构建单元,用于利用动作网络得到历史麻将对局数据集;

18、训练单元,用于从历史麻将对局数据集中随机采样,在主进程中训练基于ppo算法的麻将对局神经网络模型,利用动作网络得到各个出牌结果对应的概率,利用价值网络各个出牌结果进行打分得到各个出牌结果对应的评分,根据各个出牌结果对应的评分对利用动作网络得到的各个出牌结果对应的概率进行调整;

19、第一网络参数更新单元,用于每训练第一设定次数后,将主进程中的麻将对局神经网络模型的参数传递给各个子进程,更新各个子进程中得到历史麻将对局数据的动作网络的参数;

20、第二网络参数更新单元,用于每训练第二设定次数后,利用主进程中的麻将对局神经网络模型的动作网络与基于随机规则的麻将对局ai、基于牌效率算法构建的麻将对局ai进行麻将对局,当麻将对局神经网络模型的和牌概率在第二设定次数的训练结果都超过设定比例,则结束训练得到训练好的强化学习麻将对局神经网络模型;

21、处理单元,用于实时获取当前麻将对局的牌面信息,得到当前麻将对局数据中当前玩家手牌的玩家手牌价值评分矩阵,利用强化学习麻将对局神经网络模型进行麻将对局,输出出牌结果。

22、在上述技术方案的基础上,本发明还可以做如下改进。

23、进一步,牌面信息包括当前玩家手牌、所有玩家打出的动作牌、所有玩家已经打出的牌与牌局中每种牌剩余的数量。

24、进一步,基于牌效率算法对牌面信息中各个出牌结果进行打分,得到每张手牌的价值评分,将价值评分转换为矩阵,得到历史麻将对局数据中当前玩家手牌的价值评分矩阵;

25、利用历史麻将对局数据中的牌面信息与历史麻将对局数据中当前玩家手牌的价值评分矩阵构建样本数据集。

26、进一步,动作网络最后一层的输出为34个单元的全连接层,代表执行的动作;价值网络的最后一层为输出单个数字的全连接层,得到对不同状态的价值评分。

27、进一步,所有玩家打出的动作牌包括打出目标手牌、碰牌、杠牌与和牌。

28、进一步,强化学习神经网络模型为基于transformer的encoder架构,每一个输入都会和下一个输入做注意力机制运算;采用n层的encoder layer层的叠加,最后连接全连接层。

29、进一步,在主进程中采用worker-trai ner分布式训练的方式对基于ppo算法的麻将对局神经网络模型进行训练;单个worker进程包括3个智能体、1个神经网络模型与1个麻将环境;3个智能体都基于强化学习神经网络模型,在同一个麻将环境下相互博弈,生成对局数据;trai ner包括一个正在训练的强化学习神经网络模型和一个装载历史牌局数据的容器,每训练设定步数后,trai ner将强化学习神经网络模型参数同步到各个worker,更新强化学习神经网络模型参数,生成下一组训练数据。

30、本发明的有益效果是:本发明通过牌效率算法获得样本数据集实现对添加注意力机制的强化学习神经网络模型的训练,实现了训练强度的量化,量化了每种打牌动作对于接近和牌条件进度的贡献,得到最终和牌时的得分潜力;使用牌效率算法对强化学习神经网络模型的训练过程进行指导,显著提升了训练速度;本发明基于牌效率算法获得的强化学习神经网络模型能够获得更高的和牌概率。


技术特征:

1.基于强化学习和牌效率算法的麻将辅助决策方法,其特征在于,包括:

2.根据权利要求1所述基于强化学习和牌效率算法的麻将辅助决策方法,其特征在于,牌面信息包括当前玩家手牌、所有玩家打出的动作牌、所有玩家已经打出的牌与牌局中每种牌剩余的数量。

3.根据权利要求1所述基于强化学习和牌效率算法的麻将辅助决策方法,其特征在于,基于牌效率算法对牌面信息中各个出牌结果进行打分,得到每张手牌的价值评分,将价值评分转换为矩阵,得到历史麻将对局数据中当前玩家手牌的价值评分矩阵;

4.根据权利要求1所述基于强化学习和牌效率算法的麻将辅助决策方法,其特征在于,动作网络最后一层的输出为34个单元的全连接层,代表执行的动作;价值网络的最后一层为输出单个数字的全连接层,得到对不同状态的价值评分。

5.根据权利要求2所述基于强化学习和牌效率算法的麻将辅助决策方法,其特征在于,所有玩家打出的动作牌包括打出目标手牌、碰牌、杠牌与和牌。

6.根据权利要求1所述基于强化学习和牌效率算法的麻将辅助决策方法,其特征在于,强化学习神经网络模型为基于transformer的encoder架构,每一个输入都会和下一个输入做注意力机制运算;采用n层的encoder layer层的叠加,最后连接全连接层。

7.根据权利要求1所述基于强化学习和牌效率算法的麻将辅助决策方法,其特征在于,在主进程中采用worker-trainer分布式训练的方式对基于ppo算法的麻将对局神经网络模型进行训练;单个worker进程包括3个智能体、1个神经网络模型与1个麻将环境;3个智能体都基于强化学习神经网络模型,在同一个麻将环境下相互博弈,生成对局数据;trainer包括一个正在训练的强化学习神经网络模型和一个装载历史牌局数据的容器,每训练设定步数后,trainer将强化学习神经网络模型参数同步到各个worker,更新强化学习神经网络模型参数,生成下一组训练数据。

8.基于强化学习和牌效率算法的麻将辅助决策系统,其特征在于,包括创建单元、模型构建单元、进程创建单元、子进程处理单元、数据集构建单元、训练单元、第一网络参数更新单元、第二网络参数更新单元与数据处理单元;


技术总结
本发明属于人工智能技术领域,涉及基于强化学习和牌效率算法的麻将辅助决策方法与系统。该方法包括:创建麻将牌局环境;构建基于PPO算法的麻将对局神经网络模型;在各个子进程中进行麻将对局;得到历史麻将对局数据集;在主进程中训练麻将对局神经网络模型,基于牌效率算法进行打分;更新动作网络的参数与价值网络的参数;利用麻将对局神经网络模型的动作网络与基于随机规则的AI、基于牌效率算法构建的AI进行麻将对局,得到强化学习麻将对局神经网络模型。本发明通过牌效率算法获得样本数据集实现模型的训练,实现了训练强度的量化;使用牌效率算法对模型的训练过程进行指导,显著提升了训练速度,能够获得更高的和牌概率。

技术研发人员:尹学渊,甘志强,江天宇,陈洪宇
受保护的技术使用者:成都潜在人工智能科技有限公司
技术研发日:
技术公布日:2024/12/17
转载请注明原文地址:https://xbbs.6miu.com/read-27486.html