IBM深度学习平台FfDL了解

IBM的深度学习平台FfDL(Fabric for Deep Learning) 是用于分布式深度学习模型训练,基于微服务的平台。用户通过提交深度学习作业到已部署FfDL的服务器集群或者云上来进行训练。方便了拥有服务器集群的大型公司或机构进行深度学习硬件资源的调度管理。FfDL会自动调度用户提交的深度学习任务。

项目的github地址https://github.com/IBM/FfDL

项目的整体架构如图:

IBM深度学习平台FfDL了解

用户通过使用FfDL提供的REST API来进行提交任务等操作。项目的github上有安装说明以及测试说明https://github.com/IBM/FfDL/blob/master/README-cn.md。总的来说,用户与FfDL交互的方式是使用命令行或者UI界面。horovod或者pytorch以及tensorflow的分布式训练方法是,在本地安装配置库的环境然后对源代码做部分更改,插入这些分布式训练框架的一些API然后开始训练。

如果使用FfDL进行分布式训练的话,要自己写好分布式训练的代码,创建自己的模型定义文件以及yaml文件,然后上传到部署FfDL的服务器集群上去运行。这里是如何编写yaml 文件以及自己的模型定义文件 https://github.com/IBM/FfDL/blob/master/docs/user-guide.md#2-create-new-models-with-ffdl 。也就是说FfDL不会自动进行分布式训练,也不具备现在的各种新的分布式算法,例如Parameter server架构或者all-reduce架构,以及各种加速分布式训练的算法。

更多文章与笔记请关注:微信公众号:二进制树

IBM深度学习平台FfDL了解