Python爬虫开发与项目实战 4: HTML解析大法
Firebug工具的使用、正则表达式和Beautiful soup
4.1 初识Firebug
XPath和CSS查找路径表达式
4.2 正则表达式
多练习
4.3 强大的BeautifulSoup
从HTML或XML文件中提取数据的Python库
sudo apt-get install Python-bs4
BS支持Python标准库中的HTML解析器,还支持一些第三方的解析器,其中一个是lxml,效率高。
sudo apt-get install Python-lxml