利用阿里云服务器爬虫(mac os 与 python2.7)(简单小白)
因为需要定时爬虫,所以购买了阿里云服务器,避免自己的电脑处于24h运行状态。
总体流程:购买阿里云服务器——上传python文件至阿里云——阿里云后台运行python文件
1.购买阿里云服务器
- 我买的是wordpress
- 阿里云服务器的学生价格为9.5元/每月
2.上传python文件至云服务器
- 管理控制台——远程连接——客户端使用账号密码进行连——设置密码
- 打开mac 终端
- 输入:scp -r /Users/apple/Downloads/comment(本地文件) root(账户名)@000.000.000.000(IP地址):~/test(服务器文件路径)
- 标色部分按自己需求修改
- -r 代表传输的是文件夹,如传输的是文件则不需要-r
- 敲回车后会要求你输入密码(即刚设置的密码),输入完密码后再次敲回车
- ps..如需将云端文件下载至本地服务器:scp -r root(账户名)@000.000.000.000(IP地址):~/test(服务器文件路径) /Users/apple/Downloads/comment(本地文件)
3.阿里云后台运行Python程序
- 管理控制台——远程连接
- 输入sudo su root切换至root账号
- cd至python文件存在的文件夹下
- nohup python -u test.py > test.log 2>&1 &
- 执行test.py程序,并把程序中执行的情况记录到test.log文件中,包括程序异常、程序中打印的信息等
- 输入后,回车。会打印出进程号
- 通过
ps -A
命令查看当前运行的所有进程 - cr:https://blog.csdn.net/fxjzzyo/article/details/80603299
- 以上,便实现了利用云服务器后台爬虫。
4.云服务器常用指令
- 进入指定目录:cd ~/test
- 返回根目录:cd
- 查看目录下的所有文件:ls -a
- 删除文件夹:rm -rf 目录与文件夹名
- 删除文件:rm -f 目录与文件名
- 查看进程:ps -A
- 杀死进程:kill 6883(进程号)