Python网络爬虫与信息提取
总体方法
首先利用Requests库获得网页信息,然后通过Beautiful Soup库解析其中的内容,并且对局部内容中的关键信息用正则表达式提取出来。通过这些第三方库就可以实现对网页信息的爬取能力。
常用的Python IDE工具
文本工具类:
- IDLE:Python自带常用的、默认的入门级IDE,适用于Python入门、功能简单直接、代码不超过300行。
- Sublime Text:专门为程序员开发的第三方专用编程工具、专业编程体验、多种编程风格。
集成工具类:
- Wing:调试功能丰富,版本控制与版本同步,但是由于公司维护需要收费。适合多人开发。
- Visual Studio & PTVS:微软公司维护,Win环境为主,调试功能丰富。
- PyCharm:社区版免费,简单集成度高,适合较复杂工程。
科学计算与数据分析:
- Canopy:公司维护,工具收费,支持近500个第三方库,适合科学计算领域应用开发。
- Anaconda:开源免费,支持800个第三方库。