py爬虫自学入门__2(urllib库第一部分)

# 1> 什么是Urllib？
# Urllib是：python内置的HTTP请求库. 包含Urllib.request(请求模块) 、Urllib.error(异常处理模块) 、Urllib.parse(url解析模块)、
# Urllib.robotparser(robots.txt解析模块).
# 只需要输入网址及其他一些请求头之类的信息便可模拟浏览器进行爬取.
#
# 2> 用法讲解：
# 1) urlopen函数(发起请求-->简单的请求)
# urlopen基本用法格式（基本只会用到前3个属性）： py爬虫自学入门__2(urllib库第一部分)
# GET请求示例(打印‘http://www.baidu.com’的源代码，不加data)：
#
# POST请求示例(加入data参数)：
#
# 加入timeout参数
#
# 加入timeout参数，并进行简单的timeout异常处理
# py爬虫自学入门__2(urllib库第一部分)
#

# 2) 响应(response)
# 响应类型：
# py爬虫自学入门__2(urllib库第一部分)
# 状态码和响应头(getheaders-->获取所有响应头，getheader('参数')-->获取所需参数的响应头)：
#
# 用‘utf-8’字符形式打印源代码：
#
#
# 3) Request(发送更加复杂的请求) -->利用Request可以传入更多的参数.

a) request请求简单示例：

py爬虫自学入门__2(urllib库第一部分)
# b) request(包含所有的request信息：headers,data,method,url等参数之后的)示例：

//直接指定了所有header的值

# py爬虫自学入门__2(urllib库第一部分)
# //传入特定header的值，也可以通过for进行全部传入
#
#

# 4) Handler(代理)
# 试验不成功
# py爬虫自学入门__2(urllib库第一部分)
# 代理上网(个人理解)：就是用代理地址代替你的真实ip地址去进行爬取的相应操作，服务器只能识别代理ip.(待更正)

#
# 5) Cookie(Request Headers里有cookie)
# Cookie是在客户端保存的用来记录用户身份的文本文件，爬虫过程中用来维持登录状态.

# 打印cookie
# py爬虫自学入门__2(urllib库第一部分)
# 将cookie以Mozilla形式存入txt文件中
#
# 将cookie以LWP形式存入txt文件中
#
# 将cookie的txt文件作为request的参数进行请求(有cookie参数就可以请求登陆后的一些网页页面)
# py爬虫自学入门__2(urllib库第一部分)
#

# 6) 异常处理(urllib.error)
# 异常处理模块分为两个部分：HTTPError和URLError
# 异常处理简单示例：
# py爬虫自学入门__2(urllib库第一部分)
# 异常处理复杂示例1：
#
# 异常处理复杂示例2：
#
#
# ip代理部分几乎不懂，要先调回生物钟了，把urllib库知识的两个模块(urllib.request 和 urllib.error)已经学完了
#

py爬虫自学入门__2(urllib库第一部分)

相关推荐