利用阿里云服务器爬虫(mac os 与 python2.7)(简单小白)

因为需要定时爬虫,所以购买了阿里云服务器,避免自己的电脑处于24h运行状态。

总体流程:购买阿里云服务器——上传python文件至阿里云——阿里云后台运行python文件

1.购买阿里云服务器

  • 我买的是wordpress
  • 阿里云服务器的学生价格为9.5元/每月

2.上传python文件至云服务器

  • 管理控制台——远程连接——客户端使用账号密码进行连——设置密码

    利用阿里云服务器爬虫(mac os 与 python2.7)(简单小白)

  • 打开mac 终端
    • 输入:scp -r /Users/apple/Downloads/comment(本地文件) root(账户名)@000.000.000.000(IP地址):~/test(服务器文件路径) 
    • 标色部分按自己需求修改
    • -r 代表传输的是文件夹,如传输的是文件则不需要-r
    • 敲回车后会要求你输入密码(即刚设置的密码),输入完密码后再次敲回车
    • ps..如需将云端文件下载至本地服务器:scp -r root(账户名)@000.000.000.000(IP地址):~/test(服务器文件路径) /Users/apple/Downloads/comment(本地文件) 

3.阿里云后台运行Python程序

  • 管理控制台——远程连接

利用阿里云服务器爬虫(mac os 与 python2.7)(简单小白)

  •  输入sudo su root切换至root账号
  • cd至python文件存在的文件夹下
  • nohup python -u test.py > test.log 2>&1 &
    • 执行test.py程序,并把程序中执行的情况记录到test.log文件中,包括程序异常、程序中打印的信息等
    • 输入后,回车。会打印出进程号
    • 通过ps -A命令查看当前运行的所有进程
    • cr:https://blog.csdn.net/fxjzzyo/article/details/80603299
  • 以上,便实现了利用云服务器后台爬虫。

4.云服务器常用指令

  • 进入指定目录:cd ~/test
  • 返回根目录:cd
  • 查看目录下的所有文件:ls -a
  • 删除文件夹:rm -rf 目录与文件夹名
  • 删除文件:rm -f 目录与文件名
  • 查看进程:ps -A 
  • 杀死进程:kill 6883(进程号)