Python爬虫 入门点滴

问题描述

安装 python的mysql驱动时时出现这个错误:

Microsoft Visual C++ 9.0 is required Unable to find vcvarsall.bat

环境

python 2.7.10

mysql 5.6

django 1.8.3

解决办法

下载  Microsoft Visual C++ Compiler for Python 2.7, 安装一下问题解决

下载链接:

http://www.microsoft.com/en-us/download/confirmation.aspx?id=44266

 

Python导入模块的方法有两种:

import module 和 from module import

区别是前者所有导入的东西使用时需加上模块名的限定,而后者则不需要

 

例:

>>>import pprint

>>>pprint(people)

OR

>>>from pprint import *

>>>pprint(people)

 

 

开始接触 urllib、美丽汤(BeautifulSoup),因为听别人说很简单。

第一个案例是爬取豆瓣的电影,无数人都推荐把豆瓣作为新手上路的实例,因为页面简单且反爬虫不严

BeautifulSoup 还算不错,但需要花一些时间去了解一些网页的基本知识,否则一些元素的定位和选取还是会头疼。

后来认识到 xpath 之后相见恨晚,这才是入门必备利器啊,直接Chrome复制就可以了,指哪打哪。即便是要自己写 xpath,以w3school上几页的 xpath 教程,一个小时也可以搞定了。requests 貌似也比 urllib 更好用

网络爬虫的第一步就是根据URL,获取网页的HTML信息。在Python3中,可以使用urllib.request和requests进行网页爬取。

  • urllib库是python内置的,无需我们额外安装,只要安装了Python就可以使用这个库。
  • requests库是第三方库,需要我们自己安装。

requests库强大好用,所以本文使用requests库获取网页的HTML信息。requests库的github地址:https://github.com/requests/requests

(1) requests安装

在cmd中,使用如下指令安装requests:pip install requests

或者:easy_install requests

requests库的基础方法如下:

Python爬虫 入门点滴

官方中文教程地址:http://docs.python-requests.org/zh_CN/latest/user/quickstart.html