使用分布式框架horovod 未能提升加速训练
使用分布式框架horovod ,初步使用了单机多卡 ,跑测的estimator, 数据集大概十几个分类,1万张照照片,调用4个gpu
从图里看出训练时长17个小时左右 ,与之前单机单卡训练时长和准确率没有太大区别,浪费资源啊!
看了horvord的训练模式,分别起了4个进程,而不是一个进程
该操作 与TF 的experimental.MultiWorkerMirroredStrategy操作用法一样,相对使用起来方便一些
使用分布式框架horovod ,初步使用了单机多卡 ,跑测的estimator, 数据集大概十几个分类,1万张照照片,调用4个gpu
从图里看出训练时长17个小时左右 ,与之前单机单卡训练时长和准确率没有太大区别,浪费资源啊!
看了horvord的训练模式,分别起了4个进程,而不是一个进程
该操作 与TF 的experimental.MultiWorkerMirroredStrategy操作用法一样,相对使用起来方便一些