Python爬虫 入门点滴
问题描述
安装 python的mysql驱动时时出现这个错误:
Microsoft Visual C++ 9.0 is required Unable to find vcvarsall.bat
环境
python 2.7.10
mysql 5.6
django 1.8.3
解决办法
下载 Microsoft Visual C++ Compiler for Python 2.7, 安装一下问题解决
下载链接:
http://www.microsoft.com/en-us/download/confirmation.aspx?id=44266
Python导入模块的方法有两种:
import module 和 from module import
区别是前者所有导入的东西使用时需加上模块名的限定,而后者则不需要
例:
>>>import pprint
>>>pprint(people)
OR
>>>from pprint import *
>>>pprint(people)
开始接触 urllib、美丽汤(BeautifulSoup),因为听别人说很简单。
第一个案例是爬取豆瓣的电影,无数人都推荐把豆瓣作为新手上路的实例,因为页面简单且反爬虫不严。
BeautifulSoup 还算不错,但需要花一些时间去了解一些网页的基本知识,否则一些元素的定位和选取还是会头疼。
后来认识到 xpath 之后相见恨晚,这才是入门必备利器啊,直接Chrome复制就可以了,指哪打哪。即便是要自己写 xpath,以w3school上几页的 xpath 教程,一个小时也可以搞定了。requests 貌似也比 urllib 更好用
网络爬虫的第一步就是根据URL,获取网页的HTML信息。在Python3中,可以使用urllib.request和requests进行网页爬取。
- urllib库是python内置的,无需我们额外安装,只要安装了Python就可以使用这个库。
- requests库是第三方库,需要我们自己安装。
requests库强大好用,所以本文使用requests库获取网页的HTML信息。requests库的github地址:https://github.com/requests/requests
(1) requests安装
在cmd中,使用如下指令安装requests:pip install requests
或者:easy_install requests
requests库的基础方法如下:
官方中文教程地址:http://docs.python-requests.org/zh_CN/latest/user/quickstart.html