当前位置：首页 » 攻略 » 五子棋AI：实现逻辑与相关背景探讨（下）

五子棋AI：实现逻辑与相关背景探讨（下）

Gamer • 2024-09-08 10:09:51 • 攻略

在上篇文章中，我们约定了一种衡量格子价值的方式，如下表。

综合价值排序	己方价值	敌方价值	对应的奖励数值
1	Lv1	?	\(2^{20}\)
2	?	Lv1	\(2^{16}\)
3	Lv2	?	\(2^{12}\)
4	？	Lv2	\(2^{8}\)
5	Lv3	？	\(2^{4}\)
6	Lv4	？	\(2^{0}\)

在该表中，对不同的情形，设计了不同的奖励数值，这些数值大多是采用经验公式，人为估计的数值，并不是最优良的数值。同样的，在上表中的除前两类为，其余都可根据实际情况进一步的细分权重，这里给出一个样例供大家参考/理解：

综合价值排序	己方价值	敌方价值	对应的奖励数值
3.1	Lv2	Lv2	\(2^{13}\)
3.2	Lv2	Lv3	\(2^{12}\)
3.3	Lv2	Lv4	\(2^{11}\)

同样是能构成杀招(Lv2等级)，能顺便堵死对面杀招/优良的位置自然是更好的。

在附录中给出了详细的权重表

本篇中我们将基于遗传算法讨论如何让AI学习奖励值。

遗传算法概述

遗传算法（Genetic Algorithm, GA）是一种模拟自然选择和遗传机制的优化算法。它用于寻找问题的最优解，特别适用于复杂的优化问题和搜索问题。遗传算法基于达尔文的自然选择理论，通过模拟生物进化过程来逐步改进解决方案。

遗传算法的基本步骤如下：

本文所设计的AI决策方案共包含12个参数，其中11个是奖励权重

\(R_i\)

，1个是对劣质选项接受度

\(K\)

。

我们可以定义

\(N\)

个智能体，分别用初始权重进行初始化，一般来说，

\(N\)

可以取10~100，最好选择偶数，否则会有一些不必要的麻烦。

初始化过程可以用数学公式表示为：

其中，

\(W_0\)

表示初始权重，

\(W_i^{t=0}\)

表示第

\(t\)

代的第

\(i\)

个个体。

本例中，采用让AI对弈的方式，根据AI在棋局中的表现评估AI得分，具体流程如下：

当完成排名时，让排名后50%的AI及前50%的AI两两组合，其数学公式如下

其中：

\(c\)

为学习因子（交叉率），表示AI在学习过程中对新知识（权重）的接受程度，

\(c\)

越大，AI越倾向于接受新权重，

\(c\)

越小，AI越倾向于保留旧权重。交叉率

\(c\)

一搬可取

\(0.01\sim0.3\)

首先定义局部最优个体和全局最优个体。

为了保留最优的性状，将排名靠后的部分个体替换为全局最优个体，记替换率为

\(s\)

，一般取

\(0.02\sim 0.1\)

在变异过程中，个体的基因发生随机的改变。定义变异系数

\(m\)

，其绝对了变异的程度，一般来说

\(m\)

的范围在

\(0.01\sim0.1\)

数学公式如下：

其中

\(W_{i,j}^{t}\)

表示第

\(t\)

代的第

\(i\)

个个体的第

\(j\)

个权重，

\(m_j\)

是在

\((-m,m)\)

内的随机数。

以下给出遗传算法学习的流程

行为优先级

初始权重表

综合价值排序	己方价值	敌方价值	对应的奖励数值
1	Lv1	?	\(2^{20}\)
2	?	Lv1	\(2^{16}\)
3.1	Lv2	Lv2	\(2^{13}\)
3.2	Lv2	Lv3	\(2^{12}\)
3.3	Lv2	Lv4	\(2^{11}\)
4.1	Lv3	Lv2	\(2^{9}\)
4.2	Lv4	Lv2	\(2^{8}\)
5.1	Lv3	Lv3	\(2^{6}\)
5.2	Lv3	Lv4	\(2^{4}\)
6.1	Lv4	Lv3	\(2^{2}\)
6.2	Lv4	Lv4	\(2^{0}\)

符号说明