随机森林中,为什么oob样本的数量是三分之一

今天看了RF,发现里面有一个1/3的概率,到底怎么求出来的,我看了数,推了一下公式。

模型评估方法

在机器学习中,通常把样本分成训练集和测试集,在划分样本的过程中,存在着不同的抽样方法。

有哪些抽样方法,他们有什么优缺点

1.Holdout检验
直接样原始样本37分,70%为训练集,30%为测试集。绘制ROC曲线,计算准确率,召回率。
缺点:没有随机性。

2. 交叉检验
将全部样本划分成K个大小相等的样本子集,一次遍历这些子集,每次把当前子集作为验证集,其余所有子集当做训练集。最后把k次评估指标的平均值作为最终的评估指标。一般k=10,但是开销大。

3. 自助法
自助采样的方法进行随机有放回的抽样。总样本N,N次有放回的抽样。有的样本会被重复采集。
一次样本在一次抽样中被抽中的概率是1/n,没有被抽中的概率是1-1/n,那么n次没有被抽中的概率是(1-1/n)^n,当n趋于无穷时,对他求极限,得出36.8%
随机森林中,为什么oob样本的数量是三分之一
因此当样本数很大的时候,大约有36.8%的样本没有被选择过,可作为验证集。