根据列的值将数据帧拆分为两个文件

根据列的值将数据帧拆分为两个文件

问题描述:

我需要将数据帧拆分为2部分。例如,如果数据帧在下面被分割随机基于Col1中两个文件应当从每个类别1,2-包含样品和3根据列的值将数据帧拆分为两个文件

Col1 col2 
1  a 
1  b 
2  c 
2  d 
3  e 

到目前为止我能够通过使用sklearn.cross_validation import train_test_split到数据转换成所期望的比例分割。 但我无法弄清楚如何分割来从每个类别中提取样本。 所有帮助将不胜感激。谢谢。

看一看StratifiedKFold对象。

http://scikit-learn.org/stable/modules/generated/sklearn.cross_validation.StratifiedKFold.html

有在doc短示例示出如何使用它