数据挖掘笔记——遗传算法

遗传算法来源于进化论，可以理解为一开始我们产生很多个随机解，构成第一代假设集合(也叫做种群)，由这些随机解产生一代新的种群并进行假设解集合的更新，在产生下一代随机解过程中，好的解保留，差的解遗弃，即通过变异和交叉迭代每一步。

总结来说，遗传算法是在候选假设中找到最优假设的过程。

1.遗传算法结构

(1)种群：在算法中迭代更新的假设集合

（2）适应度函数：判断假设好坏的定量值

（3）如何选出适应度较高的假设：一部分假设进行变异，一部分假设进行交叉操作。具体如何做后面详细讲。

故模型为： GA（Fitness，Fitness_threshold,p,r,m）

Fitness:适应度函数，输入为某函数输出为判断值

Fitness_threshold:适应度阈值，即迭代停止条件

p:种群中假设的个数；r:每一步进行交叉那一部分的比例；m:变异的比例

2.算法过程

1.初始化种群P：随机的产生p个假设

2.评估：对P中的每一个假设h，计算该假设的适应度Fitness(h)

3.当P中假设最大的适应度仍小于 Fitness_threshold重复迭代下面步骤，直到满足停止条件：

产生新的一代种群Ps:

(1)选择：从源种群P中选择p(1-r)个假设加入Ps中，每个假设的选择概率为

数据挖掘笔记——遗传算法

(2)交叉：还是依照pr(h)的概率从P中选择数据挖掘笔记——遗传算法对假设，每一对假设通过交叉操作都产生两个后代

(3)变异：在新种群Ps中均匀地选择m%个假设，表示该假设的比特串对其中一位进行求反

4.更新：使用Ps代替P

5.停止迭代后，返回适应度最大的假设

3.假设的表示

假设使用比特串表示,如下例：

数据挖掘笔记——遗传算法

4.遗传算法

4.1.交叉操作

从两个父母串产生两个后代，后代的串通过交叉掩码确定复制父母串的位置，进而形成自己的表示串。如下图所示。数据挖掘笔记——遗传算法

拿第一个单点交叉来说，第一个后代前五位来自第一个父母串，后六位来自第二个父母串；第二个后代前五位来自第二个父母串，后六位来自第一个父母串。这里介绍一个后代生成规则——GABIL system

每个假设对应一个命题规则的析取集。规则的假设空间由一组固定属性的约束组合构成。为了表示一组规则，将单个规则的位串表示连接起来。下图中a1和a2是两个布尔属性，c是分类。后代取复制的子串时定义两个index值，例如d1=1和d2=3。

如果第一个父母串划分已经确定，则第二个父母串可以是<1,3>均在前五位进行划分，<1,8>左边划在前五位右边划在后五位，<6,8>均在后五位划分。那么h3选择图中h1中括号外的部分和h2中括号内的部分。

数据挖掘笔记——遗传算法

4.2.变异操作

对该假设串任取一位取反

4.3.适应度函数

适应度函数可以通过一系列标注的数据进行训练得到，除了分类准确率，适应度还可以包括规则的复杂度和一般性。

5.总结

（1）不同于梯度下降每次只改进一点点，遗传算法可以产生于父代假设完全不同的子代假设，不易陷于局部最小。

（2）拥挤问题：由于适应度越高越有可能产生后代，因此多次迭代后，很有可能多个后代是同源的假设，这样就丧失了假设的多样性，搜索速度降低。

解决方法：a.改变选择函数，不再依照适应度作为概率可以改为排名选择(任选两个取最大)

b.适应度共享，如果相似个体较多，则降低每个个体的适应度

数据挖掘笔记——遗传算法

总结来说，遗传算法是在候选假设中找到最优假设的过程。

1.遗传算法结构

2.算法过程

3.假设的表示

4.遗传算法

4.1.交叉操作

4.2.变异操作

4.3.适应度函数

5.总结

相关推荐