python多进程与linux任务调度的困惑
现象: 使用python的multiprocessing多进程模块,启动了100个进程去使用pyhdfs库对hdfs进行频繁的getFileStatus,listdirs,getContentSummary操作,并处理返回的对象。然后输出文件或文件夹的mtime,atime,大小等信息,打印出来。使用top去观察cpu的相关信息。将刷新interval设置成0.1s。此时过几秒会显示80多running,但是在这几秒钟只有1-2个running的。负载的话是7-8 (机器是32核)
这个问题先记录下来,后续深入学习linux进程调度之后,再来分析这个问题,然后和leader进行讨论。(此现象理论上应该是可复现的)