openpai部署踩坑记录
参考:
部署方式及节点:
部署方式
节点
pai-admin:部署openpai
- 192.168.101.199
worker
- 192.168.100.101
- 192.168.100.102
- 192.168.100.103
踩坑记录(注:除特意说明,以下所有操作均在pai-admin上执行):
-
问题:在pai官方文档中需要查看或修改生成的layout.yaml文件,但我没有找到。
解决方法:目前从其他人的分享及自己的分析来看,最新的pai生成了4个配置文件,如下:
而cluster-configuration.yaml与官方提到的layout.yaml结构一样,暂且认为是官方重命名了输出配置文件。 -
问题:在WSL 上单机Single deploy:执行
python paictl.py config generate -i /pai/deployment/quick-start/quick-start.yaml -o ~/pai-config -f
时提示连接不到ssh的22端口。
解决方法:暂无。 -
问题:安装kubernetes 时,执行
python paictl.py cluster k8s-bootup -p ~/pai-config
出错。
原因:~/pai-config/kubernetes-configuration.yaml
中 docker-reistry为国外服务器,因为科学上网的缘故无法正常安装。
解决方法:修改~/pai-config/kubernetes-configuration.yaml
中 docker-reistry值为docker.io/openpai。 -
问题:在第2步之后,需要重新安装kubernetes,此时提示
解决方法:执行python paictl.py cluster k8s-clean -p ~/pai-config
删除刚刚安装的文件。然后再执行python paictl.py cluster k8s-bootup -p ~/pai-config
进行安装。 -
问题:
192.168.100.101是我的第一个节点。
解决方法:- 首先查看101节点的kubernetes配置文件:
发现有两个地方涉及到了端口8080,修改为6443(此处参照安装Kubernetes报错:The connection to the server localhost:8080 was refused):
重新执行clean、安装,错误依旧如下:
猜测配置在pai-admin上生效然后分发,在pai-admin找到文件如下:
全部备份然后修改端口为6443,clean、安装,错误依旧。
- 首先查看101节点的kubernetes配置文件:
明天继续。