验证和数据泄露(Validation and Data leakages)

验证(Validation)

验证和数据泄露(Validation and Data leakages)
validation strategies主要有以下三种:

  1. Holdout
    把测试数据分为A,B两部分,在A部分上训练,B部分上验证
  2. K-fold
    把测试数据分为K个部分,K-1个部分上训练,第K个部分验证,循环K次
  3. Leave-One-Out(LOO)
    只留一个样本作为验证集,在其他所有样本上训练,循环次数为总样本数

Data splitting strategies

数据分割为训练集和验证集时,主要有两种情况,与时序有关的,与时序无关的,一般来说
与时序无关时,可以随机分割
与时序有关时,测试集的时间要在验证集时间的前面
总之,分割训练集和验证集的策略,要尽量模仿训练集和测试集的分割模式
验证和数据泄露(Validation and Data leakages)
验证和数据泄露(Validation and Data leakages)
对于时序有关的数据,可以采用以下这validation strategy
验证和数据泄露(Validation and Data leakages)
结论
验证和数据泄露(Validation and Data leakages)
可能出现的问题
验证和数据泄露(Validation and Data leakages)
验证和数据泄露(Validation and Data leakages)
验证和数据泄露(Validation and Data leakages)

数据泄露(Data leakages)

数据泄露主要是指我们再训练模型的过程中,获得了我们实际当中本不应该得到的信息,例如在使用股票数据时,用到了今天的收盘价来预测今天的股价
验证和数据泄露(Validation and Data leakages)
以下几种数据泄露方式验证和数据泄露(Validation and Data leakages)