Python爬虫入门点滴

安装 python的mysql驱动时时出现这个错误：

Microsoft Visual C++ 9.0 is required Unable to find vcvarsall.bat

python 2.7.10

mysql 5.6

django 1.8.3

下载 Microsoft Visual C++ Compiler for Python 2.7，安装一下问题解决

下载链接：

http://www.microsoft.com/en-us/download/confirmation.aspx?id=44266

Python导入模块的方法有两种：

import module 和 from module import

区别是前者所有导入的东西使用时需加上模块名的限定，而后者则不需要

例：

>>>import pprint

>>>pprint(people)

>>>from pprint import *

>>>pprint(people)

开始接触 urllib、美丽汤（BeautifulSoup），因为听别人说很简单。

第一个案例是爬取豆瓣的电影，无数人都推荐把豆瓣作为新手上路的实例，因为页面简单且反爬虫不严。

BeautifulSoup 还算不错，但需要花一些时间去了解一些网页的基本知识，否则一些元素的定位和选取还是会头疼。

后来认识到 xpath 之后相见恨晚，这才是入门必备利器啊，直接Chrome复制就可以了，指哪打哪。即便是要自己写 xpath，以w3school上几页的 xpath 教程，一个小时也可以搞定了。requests 貌似也比 urllib 更好用

网络爬虫的第一步就是根据URL，获取网页的HTML信息。在Python3中，可以使用urllib.request和requests进行网页爬取。

requests库强大好用，所以本文使用requests库获取网页的HTML信息。requests库的github地址：https://github.com/requests/requests

在cmd中，使用如下指令安装requests：pip install requests

或者：easy_install requests

requests库的基础方法如下：

Python爬虫入门点滴

Python爬虫 入门点滴