爬虫-01
1.1 学习get与post请求
学习get与post请求,尝试使用requests或者是urllib用get方法向https://www.baidu.com/发出一个请求,并将其返回结果输出。
如果是断开了网络,再发出申请,结果又是什么。了解申请返回的状态码。
了解什么是请求头,如何添加请求头。
1.2 正则表达式
学习什么是正则表达式并尝试一些正则表达式并进行匹配。
然后结合requests、re两者的内容爬取https://movie.douban.com/top250里的内容
要求抓取名次、影片名称、年份、导演等字?段。
参考资料: https://desmonday.github.io/2019/03/02/python爬虫学习-day2正则表达式/
1.1get与post请求
#get请求
#断网后
#post请求
#断网后
请求头:告诉被请求的服务器需要传送什么样的格式的信息。
添加请求头:如果不添加请求头,可能网站会阻止一个用户的登陆,此时我们就需要添加请求头来进行模拟伪装,使用python添加请求头方法如下。(参考博客:https://www.jianshu.com/p/89ab535989a9)
1.2正则表达式
正则表达式(regular expression)描述了一种字符串匹配的模式,可以用来检查一个串是否含有某种子串,将匹配的字串替换或者从某个串中取出符合某个条件的字串等。
正则表达式由普通字符和特殊字符组成的文字模式。正则表达式作为一个模板,将某个字符模式与所搜索的字符串进行匹配。
爬取电影内容: